提高Nutch局域网抓取的速度 -

a280606790

浏览: 486361 次
性别:
来自: 湖南

最近访客更多访客>>

paganini0102

Hello---World

yezhi3514

hellodota

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

提高Nutch局域网抓取的速度

博客分类：

nutch

XML Blog HTML

如果想要提高Nutch局域网抓取的速度，大家第一个想到肯定是-threads .但是那是错误的,如果只是单单增大线程数，那根本于事无补。

通过下面这组测试，我们看看-threads 是否起作用。首先在本地apache2下建立两个网站，写一个简单的Rakefile来帮助完成测试。设定depth=3 ,下面是Rakefile的内容:

threads=1
depth=3
task:default => [:crawl]
task:crawl => [:clean] do
  t=Time.now
  sh "bin/nutch crawl myurl -dir crawl -depth #{depth} -threads #{threads}"
  puts Time.now-t
end
task:clean do
  sh "rm -rf crawl"
end

threads的值分别为1，5，10 结果如下表:

线程数时间

1	891.001462
5	889.560529
10	878.812949

从上面表格可以看出，这根本一点作用都没有。第一种提高速度的方法就是减少抓取之间的延迟时间，我们可以通过修改conf/nutch-default.xml中fetcher.server.delay 来减少延迟时间。

fetcher.server.delay

抓取器在同一服务器的逐次请求所延迟的秒数

我们试试减小它的值为1.0(原先的值为5.0)。经过测试，结果如下:

线程数时间

1	482.807096
5	488.666853
10	486.67904

显然速度提高了，但是线程数还是起没有作用，原因就在于conf/nutch-default.xml中fetcher.threads.per.host 配置为1。那么第二种方法就是同一时刻允许多个线程访问同一主机。

fetcher.threads.per.host

这个值允许同一时刻访问一台主机的最大线程数

如果这个配置为1，同一时刻只允许一个线程，启动多少的线程都没用。下面我们增大这个配置为5,测试结果如下:

线程数时间

1	484.754918
5	384.201041
10	332.934009

很明显随着线程数的增大，抓取速度也在增大。如果还想再提高速度的话，可以减小抓取之间的延迟时间。不过不是修改fetcher.server.delay ,而是修改fetcher.server.min.delay 。这个配置是设定抓取器在同一服务器的逐次请求所延迟最小的秒数，这个值仅当fetcher.threads.per.host 属性值比1大时适用。

hi 朋友，很感谢你。我的问题基本上解决了
我将fetcher.server.delay改成1.0
fetcher.threads.per.host 改成15
在抓取时最高能到到3M/s
很棒，再次感谢

原文：http://hi.baidu.com/java_2009/blog/item/a96f3ea8a40487f01e17a23e.html

分享到：

nutch累积式抓取 | nutch如何才能抓取到动态的url

2010-11-13 22:25
浏览 1611
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

提高Nutch局域网抓取的速度

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

提高Nutch局域网抓取的速度

评论

发表评论

相关推荐

网页去重

nutch 抓取动态网页设置

nutch 中的MapReduce详细分析

提高Nutch局域网抓取的速度

nutch 过滤掉不正确的URL实现方法:

nutch中Nutch-defaul.xml相关配置

nutch的核心流程分析

Nutch中文分词总结

nutch累积式抓取

nutch如何才能抓取到动态的url

Nutch-0.9源代码：Crawl类整体分析

网络爬虫调研报告

配置完成nutch容易出现的错误

Nutch1.0的配置与运行

Nutch1.0的配置与运行

Nutch的资料

nutch的基本工作流程理解

最近访客更多访客>>