爬虫热门博客列表 - ITeye博客频道 - 第6页

博客专栏推荐

本月博客排行

第1名
hanbaohong
第2名
silverend
第3名
jh108020
arpenker
java-007

年度博客排行

java开源爬虫gecco 发布1.0.8版本

gecco 1.0.8 发布了。 1.0.8版本主要做了如下修改： GeccoEngine增加loop方法，支持不循环抓取。gecco默认将改为采用不循环抓取2.支持移动端的UserAgent，通过GeccoEngine.mobile(true)设置3.支持配置初始化地址，自动扫描classpath根目录下的starts.json文件4.HttpResponse增加释放raw的方法5.G ...

java gecco 爬虫

xtuhcy 评论(0) 有951人浏览 2016-03-30 12:56

java爬虫gecco的稳定性测试

java爬虫gecco的稳定性测试最近对开源的java爬虫Gecco做了一个稳定性测试，测试环境：一台爬虫+web应用服务器，一台mongodb服务器。服务器配置很low，两台都是阿里云最低端的主机，1核+512内存。单线程测试场景爬虫采用单线程，测试时间3×24小时，测试期间系统无异常，jvm内存稳定。测试结果：基本信息 Interval: 5000, Star ...

java 爬虫 gecco 稳定性测试

xtuhcy 评论(0) 有1374人浏览 2016-03-28 11:43

Python实现的淘宝直通车数据抓取（2）

再看我们要抓取的数据，网页是这样的：这里是我们要抓取的数据：打开chrome的调试工具发现数据是通过一个Ajax请求来获取的: 这样的话，获取数据就太简单了，因为完全不需要去解析html页面，只需要将返回的json串解析即可得到数据 class subwayquery: url='http://subway.simba.taobao.com/rep ...

python json ajax 爬虫

raphael10241024 评论(0) 有6059人浏览 2016-03-22 11:10

Python实现的淘宝直通车数据抓取（1）

最近帮一个朋友做一个抓取淘宝直通车数据的小项目，感觉ython比较适合写爬虫程序，决定使用Python来做程序。首先是登陆程序，因为淘宝的登陆校验很复杂，所以不能直接使用命令行的形式输入账号密码。查阅资料后，发现可以使用Selenium的自动测试框架，决定用这个框架实现登陆。首先下载一个纯净版的firefox浏览器，放到主目录下，然后用python打开浏览器： def openb ...

python 爬虫淘宝 selenium

raphael10241024 评论(0) 有4295人浏览 2016-03-22 10:11

java爬虫gecco监控来了，不再裸奔

java爬虫gecco监控来了，不再裸奔爬虫为什么要监控 gecco是一个十分简单易用的java开源爬虫框架，同时也一个款拥有很好扩展性的框架，目前已经有：结合spring的插件gecco-spring 结合htmlunit的插件gecco-htmlunit 结合redis的插件gecco-redis

java 爬虫 gecco jmxutils jolokia

xtuhcy 评论(2) 有3011人浏览 2016-03-21 10:52

java开源爬虫gecco发布版本1.0.6，更灵活的配置downloader

1.0.6Release 1、修改request的原始流raw被关闭的bug 2、将downloader关联到gecco上，@Gecco增加downloader和timeout选项 @Gecco(matchUrl="https://github.com/{user}/{p ...

gecco java 爬虫

xtuhcy 评论(0) 有1220人浏览 2016-03-15 18:11

WebMagic 简单实例

WebMagic 简单实例关于WebMagic，官网→http://webmagic.io/←这里就不多介绍了就如官网所说↓ 写一个例子也是很简单的~ 步骤一 - 导包：使用maven： <dependency> <groupId>us.codecraft</groupId> <artifac ...

JAVA WebMagic 爬虫

Reverie夜评论(1) 有3944人浏览 2016-03-11 14:34

BOT_NAME = ‘scrapybot’ CLOSESPIDER_TIMEOUT = 0 CLOSESPIDER_PAGECOUNT = 0 CLOSESPIDER_ITEMCOUNT = 0 CLOSESPIDER_ERRORCOUNT = 0 COMMANDS_MODULE = ” CONCURRENT_ITEMS = 100 CONCURRENT_REQUESTS = 16 CON ...

scrapy 爬虫

80082828 评论(0) 有1022人浏览 2016-03-09 13:02

java爬虫gecco支持htmlunit

java爬虫gecco支持htmlunit java爬虫gecco发布了1.0.5版本，增加了对htmlunit的支持。htmlunit是一款开源的java 页面分析工具，读取页面后，可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行，被誉为java浏览器的开源实现。这个没有界面的浏览器，运行速度也是非常迅速的。htmlunit采用的是rhino作为javascript的解 ...

java 爬虫 gecco htmlunit selenium

xtuhcy 评论(0) 有2924人浏览 2016-03-07 10:32

想研究下网路爬虫技术，各位有经验的给点建议

想实现站点搜索服务及火车站抢票等类似功能

爬虫

mnieguomin 评论(0) 有537人浏览 2016-03-04 16:56

HttpClient4获取抓取网页编码，内容等信息

public static void worm() throws Exception{ // 初始化，此处构造函数就与3.1中不同 HttpClient httpclient = new DefaultHttpClient(); HttpHost targetHost = new HttpHost("www.baidu.com&quo ...

HttpClient 爬虫

zihai367 评论(0) 有998人浏览 2016-02-26 15:10

教您使用java爬虫gecco抓取JD全部商品信息（三）

教您使用java爬虫gecco抓取JD全部商品信息（二）详情页抓取商品的基本信息抓取完成后，就要针对每个商品的详情页进行抓取，可以看到详情页的地址格式一般如下：http://item.jd.com/1861098.html。我们建立商品详情页的Bean： @Gecco(matchUrl="http://item.jd.com/{code}.html", pipelin ...

java 爬虫 gecco 京东

xtuhcy 评论(0) 有2979人浏览 2016-02-26 11:18

教您使用java爬虫gecco抓取JD全部商品信息（二）

教您使用java爬虫gecco抓取JD全部商品信息（一）抓取商品列表信息 AllSortPipeline已经将需要进一步抓取的商品列表信息的链接提取出来了，可以看到链接的格式是：http://list.jd.com/list.html?cat=9987,653,659&delivery=1&JL=4_10_0&go=0。因此我们建立商品列表的Bean——Produc ...

java 爬虫 gecco 京东

xtuhcy 评论(0) 有2500人浏览 2016-02-25 10:56

教您使用java爬虫gecco抓取JD全部商品信息（一）

教您使用java爬虫gecco抓取JD全部商品信息（一） gecco爬虫如果对gecco还没有了解可以参看一下gecco的github首页。gecco爬虫十分的简单易用，JD全部商品信息的抓取9个类就能搞定。 JD网站的分析要抓取JD网站的全部商品信息，我们要先分析一下网站，京东网站可以大体分为三级，首页上通过分类跳转到商品列表页，商品列表页对每个商品有详情页。那么我们通过找到所有分类 ...

java 爬虫 gecco 京东

xtuhcy 评论(0) 有3137人浏览 2016-02-24 16:44

使用Gecco主题爬虫爬取旅游折扣信息

Gecco爬虫已经开发有一个多月了，爬虫的大部分功能已经实现，是需要检验一下爬虫的时候了。之所以开发Gecco这样的一个爬虫，也是我之前开发了不少类似的应用有关，这些应用都需要爬取其他网站的信息，并且结构化后加以利用。比如之前开发过一个比价网站，将京东、苏宁、新蛋、易迅等电商的商品信息抓下来进行站内和站外的比价，如今这样的应用已经十分普及， ...

gecco 爬虫世界那么大

xtuhcy 评论(0) 有3196人浏览 2016-02-04 17:31

Java主题爬虫Gecco发布1.0.4版本

https://github.com/xtuhcy/gecco 主要特征 1、简单易用，使用jquery的css selector风格抽取元素 2、支持页面中的异步ajax请求 3、支持页面中的javascript变量抽取 4、利用Redis实现分布式抓取 5、支持下载时UserAgent随机选取 6、支持下载代理服务器随机选取 7、支持结合Spring开发业务逻辑

gecco 爬虫 crawler

xtuhcy 评论(0) 有1220人浏览 2016-02-03 10:34

谷歌开发者工具修改网页源码并调试

注：本文仅针对web前端页面解析，方便爬虫来模拟人为操作！遇到的问题1：在爬取某个网站时，在此网页有一个<a href="***" target="_blank"></a>的链接标签，鼠标单击该链接时，将会弹出新的会话框，并显示该链接的内容，可是将该链接URL直接输入浏览器的地址栏将会跳转到其他网页，故而想用谷歌开发者工具查 ...

谷歌开发者工具爬虫

caoweiju 评论(0) 有3332人浏览 2016-01-27 17:12

一个易用的轻量级的网络爬虫(Easy to use lightweight web crawler)

GECCO(易用的轻量化的网络爬虫) 初衷现在开发应用已经离不开爬虫，网络信息浩如烟海，对互联网的信息加以利用是如今所有应用程序都必须要掌握的技术。了解过现在的一些爬虫软件，python语言编写的爬虫框架scrapy得到了较为广泛的应用。gecco的设计和架构受到了scrapy一些启发，结合java语言的特点，形成了如下软件框架。易用是gecco框架首要目标，只要有一些jav ...

爬虫 scrapy webmagic crawler gecco

xtuhcy 评论(0) 有2611人浏览 2015-12-30 22:08

社会化海量数据采集爬虫框架搭建

转载自： http://www.lanceyan.com/tech/arch/snscrawler.html 随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎 ...

反监控海量数据抓取爬虫采集.

hongtoushizi 评论(0) 有579人浏览 2015-12-14 11:41

« 上一页 1 2 … 5 6 7 … 10 11 下一页 »

最近博客热门TAG

Java(141741) C(73643) C++(68602) SQL(64557) C#(59604) XML(59131) HTML(59042) JavaScript(54917) .net(54782) Web(54511) 工作(54116) Linux(50906) Oracle(49861) 应用服务器(43285) Spring(40811) 编程(39452) Windows(39380) JSP(37540) MySQL(37267) 数据结构(36420)

博客人气排行榜

博客电子书下载排行

>>浏览更多下载

博客专栏推荐

本月博客排行

年度博客排行

最新文章列表

java开源爬虫gecco 发布1.0.8版本

java爬虫gecco的稳定性测试

Python实现的淘宝直通车数据抓取（2）

Python实现的淘宝直通车数据抓取（1）

java爬虫gecco监控来了，不再裸奔

java开源爬虫gecco发布版本1.0.6，更灵活的配置downloader

WebMagic 简单实例

scrapy缺省配置

java爬虫gecco支持htmlunit

想研究下网路爬虫技术，各位有经验的给点建议

HttpClient4获取抓取网页编码，内容等信息

教您使用java爬虫gecco抓取JD全部商品信息（三）

教您使用java爬虫gecco抓取JD全部商品信息（二）

教您使用java爬虫gecco抓取JD全部商品信息（一）

使用Gecco主题爬虫爬取旅游折扣信息

Java主题爬虫Gecco发布1.0.4版本

谷歌开发者工具修改网页源码并调试

一个易用的轻量级的网络爬虫(Easy to use lightweight web crawler)

社会化海量数据采集爬虫框架搭建

最近博客热门TAG

博客人气排行榜

博客电子书下载排行

相关资讯

相关讨论