Heritrix源码分析(十五) 各种问题总结

guoyunsky

浏览: 865806 次
性别:
来自: 上海

最近访客更多访客>>

sdzhaoweiji

hywa

chen88358323

jinky2004

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Heritrix源码分析
浏览量：208569

: SQL的MapReduce...
浏览量：0

文章分类

社区版块

存档分类

博客分类：

搜索引擎-爬虫-Heritrix

多线程 QQ lucene 交通 Solr

本博客属原创文章,欢迎转载！转载请务必注明出处:http://guoyunsky.iteye.com/blog/802721

欢迎加入Heritrix群(QQ)： 109148319 , 10447185

开博客以及建立Heritrix 群有一段时间了(这里谢谢大家的关注),这篇博客将整理这段时间所遇到的问题.同时由于自己从今年5月份开始就不怎么接触Heritrix,很多东西开始遗忘(不过里面思想没忘),同时目前的工作也没有必要接触Heritrix,所以不可能向之前写博客那样从源码的角度去考虑了.这里就起个抛砖引玉的作用吧,希望能有点用.这篇博客会不断更新,如有其他问题,请留言......

相关问题:

1.Heritrix散列30个DNS后就结束

2.如何用Heritrix实现增量抓取,也就是抓取更新了的网页

1.Heritrix散列30个DNS后就结束:

总体来说,是30个抓取线程去获取网站数据发生交通堵塞,导致无法获取URL内容,最后都卡死在那里.
没读源码真的很难知道这个原因,好好的URL，比如 http://www.heritrix.com ,为什么变成dns:heritrix.com。而且跑上30个Heririx就停止？这里先说下为什么会 http://www.heritrix.com 会变成dns:heritrix.com.大家知道一个URL地址过去都需要通过DNS服务器获取该URL所在的地址,Heritrix也做了这个事情。所以dns:heritrix.com是去进行DNS解析,同时Heritrix会将DNS信息缓存(缓存到BDB数据库),以便下次 http://www.heritrix.com/a.html 这样的URL(同一个host下)无需再去进行类似的解析,提高效率。同时Heritrix还可以配置缓存的DNS信息的有效期,默认为6小时,见order.xml中的<integer name="ip-validity-duration-seconds">86400</integer>接下来说下为什么爬上30个dns:heritrix.com Heritrix就停止。我想你应该改了Heritrix的队列分配策略,也就是order.xml中的<string name="queue-assignmentpolicy">org.archive.crawler.frontier.HostnameQueueAssignmentPolicy</string>
默认的HostnameQueueAssignmentPolicy是以host作为抓取队列分组依据,通一个host(如以上的 www.heritrix.com 和 www.heritrix.com/a.html )下的URL将会分配进同一个抓取队列.Heritrix通过抓取队列来实现对抓取速度的控制，以防止对一个host的过度抓取(后果很严重，可能对方会封你IP)。正常的HostnameQueueAssignmentPolicy,当你从这个host抓取完一个URL后会计算这个URL抓取的速度,同时和你所配置的抓取速度队列,如果过快,则计算该URl所需要抓取的正常时间,让其等待抓取过快的时间差值(比如按照正常配置，你每秒带宽是50K，而计算出来你抓取的是100K，则会让其等待(100-50)*抓取时间秒).则该抓取队列在该段时间内不会再排放URL，如此做到控制抓取速度.而当你采用第三方的队列分配策略,很有可能打破这种机制,比如网上流行的ELHASH,的确可以提高抓取速度.但当你种子比较少的时候,多个线程一窝蜂的去抓取少量种子就很有可能交通堵塞了,最终是大家都获取不了网页内容,如此也就抽取不出新的URL。如此一来,散列30个DNS:url后Heritrix就自动结束了.

2.如何用Heritrix实现增量抓取,也就是抓取更新了的网页

Heritrix从设计角度是一次性整站复制,所以要实现增量抓取需要改动代码。但Heritrix自身保存了判断是否增量抓取的各种参数,所以可以通过这些参数来判断是否需要增量抓取。我判断增量抓取会经过以下4个环节:

1)判断URl是否抓取过,如抓取过跳到2)继续判断

2)从URl的http-header里获取该URl的last-modified,context-length,http-status-code,判断是否有更新.如果有更新则表示需要更新之前的网页.但很多URL可能没有这个值,则跳转到3)

3)该URl内容的MD5值是否更新,如果有更新,则很有可能需要抓取.但很多时候更新了也并不能代表该URl已经更新过,比如里面有广告,广告内容变化.所以进行第四步

4)相似度分析,对他们的网页内容进行相似度分析,这个是最准确的但也是最复杂最耗性能的一步.我目前没有实现.

有了以上4步,我们再来看如何在Heritrix里实现.

更多技术文章、感悟、分享、勾搭，请用微信扫描:

分享到：

Java在多线程IO操作环境下如何高效的将Byte ... | 解决Ubuntu删除/升级Python无法进入桌面以 ...

2010-11-04 13:55
浏览 6997
评论(10)
分类:互联网
查看更多

10 楼 qishanghai123 2012-04-16

楼主，如果非要改成ELFhash来提升效率，正如你提到的“多个线程一窝蜂的去抓取少量种子就很有可能交通堵塞了”，这个问题要怎么解决？

9 楼 zzzz3621 2011-12-14

URl内容的MD5值是否更新，如果有更新,则很有可能需要抓取
那我们要对内容算出MD5值的时候不是已经把内容下载下来了呀，不然怎么算MD5？

8 楼 buyiburao 2011-03-30

楼主我错了，请忽略掉4~7楼得问题，由于我非常傻B的自己写了一个打印的类，由于逻辑错误导致了信息只打印出来一边

7 楼 buyiburao 2011-03-29

FrontierScheduler,line69:innerProcess
===start process===
FetchDNS,line112:innerProcess
FetchHTTP,line440:innerProcess
ExtractorHTTP,line58:innerProcess
ExtractorHTML,line567:extract
FrontierScheduler,line69:innerProcess
FrontierScheduler,line69:innerProcess
===start process===
FetchDNS,line112:innerProcess
FetchHTTP,line440:innerProcess
楼主，上面就是我打印的全部结果，为什么只打印了一遍半，而且FrontierScheduler应该是位于处理链的最后一级，怎么可能第一个先运行它呢

6 楼 buyiburao 2011-03-29

5 楼 buyiburao 2011-03-29

在抓取过程中,每个链接都会过一遍处理链吗(例如ExtractHTTP,ExtractHTML)按理说每经过一个process都会执行innerPrecess方法，但是为什么在我打印到控制台之后，类似于FetchHTTP,:innerProcess的方法只执行了一遍.真是匪夷所思啊，按理说，应该每处理一个链接就打印一遍才对。希望大神能够帮助解答一下，小弟感激不尽

4 楼 buyiburao 2011-03-29

同志们,在抓取过程中,每个链接都会过一遍处理链吗(例如ExtractHTTP,ExtractHTML)按理说每个process都会执行innerPrecess方法，但是为什么在我打印到控制台之后，类似于FetchHTTP,:innerProcess的方法是执行了一遍.真是匪夷所思啊，按理说，应该每处理一个链接就打印一遍才对

3 楼 guoyunsky 2010-12-19

hanyuanbo 写道

不过关于第一个问题，想问下楼主有个固定的解决方法么？按照ELHash进行策略替换的时候，有时候会出现仍然是单线程进行抓取。貌似多试几次，会出现多线程抓取的情况。如何解决这个问题，楼主能帮下忙，解释下么？？

Heritrix的机制,为了温柔抓取,不可避免还是会出现单线程情况.如果ELHASH算法里面将队列分的过多,网上流传的默认是100各,则很容易出现IP被封等情况。所以一般情况下建议还是别使用.

2 楼 hanyuanbo 2010-11-04

1 楼 lin405634383 2010-11-04

楼主辛苦！

发表评论

您还没有登录,请您登录后再发表评论