最新文章列表

java开源爬虫gecco 发布1.0.8版本

gecco 1.0.8 发布了。 1.0.8版本主要做了如下修改: GeccoEngine增加loop方法,支持不循环抓取。gecco默认将改为采用不循环抓取2.支持移动端的UserAgent,通过GeccoEngine.mobile(true)设置3.支持配置初始化地址,自动扫描classpath根目录下的starts.json文件4.HttpResponse增加释放raw的方法5.G ...
xtuhcy 评论(0) 有931人浏览 2016-03-30 12:56

java爬虫gecco的稳定性测试

java爬虫gecco的稳定性测试 最近对开源的java爬虫Gecco做了一个稳定性测试,测试环境:一台爬虫+web应用服务器,一台mongodb服务器。服务器配置很low,两台都是阿里云最低端的主机,1核+512内存。 单线程测试场景 爬虫采用单线程,测试时间3×24小时,测试期间系统无异常,jvm内存稳定。测试结果: 基本信息 Interval: 5000, Star ...
xtuhcy 评论(0) 有1357人浏览 2016-03-28 11:43

Python实现的淘宝直通车数据抓取(2)

  再看我们要抓取的数据,网页是这样的:   这里是我们要抓取的数据:   打开chrome的调试工具发现数据是通过一个Ajax请求来获取的: 这样的话,获取数据就太简单了,因为完全不需要去解析html页面,只需要将返回的json串解析即可得到数据 class subwayquery: url='http://subway.simba.taobao.com/rep ...
raphael10241024 评论(0) 有6044人浏览 2016-03-22 11:10

Python实现的淘宝直通车数据抓取(1)

  最近帮一个朋友做一个抓取淘宝直通车数据的小项目,感觉ython比较适合写爬虫程序,决定使用Python来做程序。   首先是登陆程序,因为淘宝的登陆校验很复杂,所以不能直接使用命令行的形式输入账号密码。查阅资料后,发现可以使用Selenium的自动测试框架,决定用这个框架实现登陆。   首先下载一个纯净版的firefox浏览器,放到主目录下,然后用python打开浏览器: def openb ...
raphael10241024 评论(0) 有4248人浏览 2016-03-22 10:11

java爬虫gecco监控来了,不再裸奔

java爬虫gecco监控来了,不再裸奔 爬虫为什么要监控 gecco是一个十分简单易用的java开源爬虫框架,同时也一个款拥有很好扩展性的框架,目前已经有: 结合spring的插件gecco-spring 结合htmlunit的插件gecco-htmlunit 结合redis的插件gecco-redis
xtuhcy 评论(2) 有2987人浏览 2016-03-21 10:52

java开源爬虫gecco发布版本1.0.6,更灵活的配置downloader

1.0.6Release 1、修改request的原始流raw被关闭的bug 2、将downloader关联到gecco上,@Gecco增加downloader和timeout选项   @Gecco(matchUrl="https://github.com/{user}/{p ...
xtuhcy 评论(0) 有1188人浏览 2016-03-15 18:11

WebMagic 简单实例

WebMagic 简单实例 关于WebMagic,官网→http://webmagic.io/←这里就不多介绍了 就如官网所说↓   写一个例子也是很简单的~ 步骤一 - 导包:     使用maven:   <dependency> <groupId>us.codecraft</groupId> <artifac ...
Reverie夜 评论(1) 有3921人浏览 2016-03-11 14:34

scrapy缺省配置

BOT_NAME = ‘scrapybot’ CLOSESPIDER_TIMEOUT = 0 CLOSESPIDER_PAGECOUNT = 0 CLOSESPIDER_ITEMCOUNT = 0 CLOSESPIDER_ERRORCOUNT = 0 COMMANDS_MODULE = ” CONCURRENT_ITEMS = 100 CONCURRENT_REQUESTS = 16 CON ...
80082828 评论(0) 有994人浏览 2016-03-09 13:02

java爬虫gecco支持htmlunit

java爬虫gecco支持htmlunit java爬虫gecco发布了1.0.5版本,增加了对htmlunit的支持。htmlunit是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。htmlunit采用的是rhino作为javascript的解 ...
xtuhcy 评论(0) 有2908人浏览 2016-03-07 10:32

想研究下网路爬虫技术,各位有经验的给点建议

想实现 站点搜索服务及火车站抢票等类似功能
mnieguomin 评论(0) 有475人浏览 2016-03-04 16:56

HttpClient4获取抓取网页编码,内容等信息

public static void worm() throws Exception{ // 初始化,此处构造函数就与3.1中不同 HttpClient httpclient = new DefaultHttpClient(); HttpHost targetHost = new HttpHost("www.baidu.com&quo ...
zihai367 评论(0) 有982人浏览 2016-02-26 15:10

教您使用java爬虫gecco抓取JD全部商品信息(三)

教您使用java爬虫gecco抓取JD全部商品信息(二) 详情页抓取 商品的基本信息抓取完成后,就要针对每个商品的详情页进行抓取,可以看到详情页的地址格式一般如下:http://item.jd.com/1861098.html。我们建立商品详情页的Bean: @Gecco(matchUrl="http://item.jd.com/{code}.html", pipelin ...
xtuhcy 评论(0) 有2951人浏览 2016-02-26 11:18

教您使用java爬虫gecco抓取JD全部商品信息(二)

教您使用java爬虫gecco抓取JD全部商品信息(一) 抓取商品列表信息 AllSortPipeline已经将需要进一步抓取的商品列表信息的链接提取出来了,可以看到链接的格式是:http://list.jd.com/list.html?cat=9987,653,659&delivery=1&JL=4_10_0&go=0。因此我们建立商品列表的Bean——Produc ...
xtuhcy 评论(0) 有2482人浏览 2016-02-25 10:56

教您使用java爬虫gecco抓取JD全部商品信息(一)

教您使用java爬虫gecco抓取JD全部商品信息(一) gecco爬虫 如果对gecco还没有了解可以参看一下gecco的github首页。gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定。 JD网站的分析 要抓取JD网站的全部商品信息,我们要先分析一下网站,京东网站可以大体分为三级,首页上通过分类跳转到商品列表页,商品列表页对每个商品有详情页。那么我们通过找到所有分类 ...
xtuhcy 评论(0) 有3106人浏览 2016-02-24 16:44

使用Gecco主题爬虫爬取旅游折扣信息

        Gecco爬虫已经开发有一个多月了,爬虫的大部分功能已经实现,是需要检验一下爬虫的时候了。         之所以开发Gecco这样的一个爬虫,也是我之前开发了不少类似的应用有关,这些应用都需要爬取其他网站的信息,并且结构化后加以利用。         比如之前开发过一个比价网站,将京东、苏宁、新蛋、易迅等电商的商品信息抓下来进行站内和站外的比价,如今这样的应用已经十分普及, ...
xtuhcy 评论(0) 有3169人浏览 2016-02-04 17:31

Java主题爬虫Gecco发布1.0.4版本

https://github.com/xtuhcy/gecco 主要特征 1、简单易用,使用jquery的css selector风格抽取元素 2、支持页面中的异步ajax请求 3、支持页面中的javascript变量抽取 4、利用Redis实现分布式抓取 5、支持下载时UserAgent随机选取 6、支持下载代理服务器随机选取 7、支持结合Spring开发业务逻辑
xtuhcy 评论(0) 有1181人浏览 2016-02-03 10:34

谷歌开发者工具修改网页源码并调试

注:本文仅针对web前端页面解析,方便爬虫来模拟人为操作!   遇到的问题1:在爬取某个网站时,在此网页有一个<a href="***" target="_blank"></a>的链接标签,鼠标单击该链接时,将会弹出新的会话框,并显示该链接的内容,可是将该链接URL直接输入浏览器的地址栏将会跳转到其他网页,故而想用谷歌开发者工具查 ...
caoweiju 评论(0) 有3307人浏览 2016-01-27 17:12

一个易用的轻量级的网络爬虫(Easy to use lightweight web crawler)

  GECCO(易用的轻量化的网络爬虫) 初衷 现在开发应用已经离不开爬虫,网络信息浩如烟海,对互联网的信息加以利用是如今所有应用程序都必须要掌握的技术。了解过现在的一些爬虫软件,python语言编写的爬虫框架scrapy得到了较为广泛的应用。gecco的设计和架构受到了scrapy一些启发,结合java语言的特点,形成了如下软件框架。易用是gecco框架首要目标,只要有一些jav ...
xtuhcy 评论(0) 有2589人浏览 2015-12-30 22:08

社会化海量数据采集爬虫框架搭建

转载自:  http://www.lanceyan.com/tech/arch/snscrawler.html     随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。 我们来看一下作为人是怎 ...
hongtoushizi 评论(0) 有565人浏览 2015-12-14 11:41

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics