xtuhcy

浏览: 144771 次
性别:
来自: 北京

最近访客更多访客>>

gnomewarlock

zlf3865072

james1110

orangehome

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

java爬虫gecco的稳定性测试

博客分类：

gecco

java 爬虫 gecco 稳定性测试

java爬虫gecco的稳定性测试

最近对开源的java爬虫Gecco做了一个稳定性测试，测试环境：一台爬虫+web应用服务器，一台mongodb服务器。服务器配置很low，两台都是阿里云最低端的主机，1核+512内存。

单线程测试场景

爬虫采用单线程，测试时间3×24小时，测试期间系统无异常，jvm内存稳定。测试结果：

基本信息

  Interval: 5000,
  StartTime: "2016-03-22 14:47:40",
  ThreadCount: 1,
  StarUrlCount: 8

单线程，共有8个初始抓取链接，每个请求抓取完成后休息5秒。

爬虫监控数据

  taocan.ctrip.com
  Statistics: "{"exception":134,"serverError":0,"success":11270}"

  vacations.ctrip.com
  Statistics: "{"exception":61,"serverError":0,"success":17548}"

  huodong.ctrip.com
  Statistics: "{"exception":42,"serverError":0,"success":11814}"

  www.tuniu.com
  Statistics: "{"exception":4,"serverError":0,"success":228}"

  temai.tuniu.com
  Statistics: "{"exception":78,"serverError":0,"success":3507}"

  www.lvmama.com
  Statistics: "{"exception":0,"serverError":415,"success":41}"
  http://www.lvmama.com/tuangou/sale-623250 DOWNLOAD ERROR :500
  http://www.lvmama.com/tuangou/sale-612687 DOWNLOAD ERROR :400

结果

从监控数据可以看到：

ctrip.com相关的数据抓取成功率较高，为99.99%，出现的失败都是exception，也就是类似超时之类的错误。

tuniu.com相关的数据抓取成功率也较高，为99.97%，出现的失败也是exception。

lvmama.com的成功率就十分低了，而且返回都是serverError也就是服务器500或者400错误，查看发日志发现可能对方服务器对ip做了访问限制，在成功抓取10多条后就一直报400或者500错误。

多线程测试场景

爬虫采用3线程，测试时间2×24小时，测试期间系统无异常，jvm内存稳定。测试结果：

基本信息

  Interval: 5000,
  StartTime: "2016-03-26 11:16:57",
  ThreadCount: 3,
  StarUrlCount: 8

3线程，共有8个初始抓取链接，每个请求抓取完成后休息5秒。

爬虫监控数据

  taocan.ctrip.com
  Statistics: "{"exception":58,"serverError":0,"success":19306}"

  vacations.ctrip.com
  Statistics: "{"exception":51,"serverError":0,"success":31402}"

  huodong.ctrip.com
  Statistics: "{"exception":62,"serverError":0,"success":17807}"

  www.tuniu.com
  Statistics: "{"exception":2,"serverError":0,"success":466}"

  temai.tuniu.com
  Statistics: "{"exception":118,"serverError":0,"success":5603}"

  www.lvmama.com
  Statistics: "{"exception":1,"serverError":410,"success":39}"
  http://www.lvmama.com/tuangou/deal-580212 DOWNLOAD ERROR :400

结果

从监控数据可以看到和单线程结果基本一致

总结

从测试中可以发现，开源java爬虫Gecco对系统要求很低，体现其轻量化的特点。无论在单线程还是多线程环境下，系统均能稳定运行。对部分网站访问限制的问题，需要通过代理服务器来完成，Gecco是支持代理服务器随机选取的。

0
顶

4
踩

分享到：

java开源爬虫gecco 发布1.0.8版本 | java爬虫gecco监控来了，不再裸奔

2016-03-28 11:43
浏览 1378
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java爬虫gecco的稳定性测试

java爬虫gecco的稳定性测试

单线程测试场景

多线程测试场景

总结

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java爬虫gecco的稳定性测试

java爬虫gecco的稳定性测试

单线程测试场景

多线程测试场景

总结

评论

发表评论

相关推荐

无头浏览器，从phantomjs到webkit4j

教您使用DynamicGecco抓取JD全部商品信息

DynamicGecco实现爬取规则的动态加载

Gecco爬虫框架的线程和队列模型

Gecco框架典型案例—闲逛APP

gecco 1.1.0稳定版发布，易用的轻量化爬虫

gecco 1.0.9 发布，易用的轻量化爬虫

java开源爬虫gecco 发布1.0.8版本

java爬虫gecco监控来了，不再裸奔

java开源爬虫gecco发布版本1.0.6，更灵活的配置downloader

java爬虫gecco支持htmlunit

教您使用java爬虫gecco抓取JD全部商品信息（三）

教您使用java爬虫gecco抓取JD全部商品信息（二）

教您使用java爬虫gecco抓取JD全部商品信息（一）

java开源爬虫gecco详细文档新鲜出炉

Java主题爬虫Gecco发布1.0.4版本

最近访客更多访客>>