heritrix设计详解(一) 总述 -

wangwei3

浏览: 122088 次
性别:
来自: 北京

最近访客更多访客>>

jeffkuang

蔚蓝之天空

whut0503

lincolnlee1982

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

heritrix设计详解(一) 总述

博客分类：

heritrix

配置管理框架数据结构 HTML

原创文章:转载请注明出处

读了一段时间的源码，结合网上的文档和自己的理解来详解下heritrix的体系结构，总体来说hertitrix是一个设计优良的框架，扩展性极强，除了无法实现分布式之外，其他部件都可以被扩展。

体系结构
CrawlController（下载控制器）:整个下载过程的总的控制者,整个抓取工作的起点,决定整个抓取任务的开始和结束.从Frontier获取URI,传递给线程池（ToePool）中的ToeThread调用处理器链(Processorchains)处理.
Frontier（边界部件）: 跟踪哪个预定的URI将被收集,和已经被收集的URI,选择下一个 URI,剔除已经处理过的URI.有三个核心方法next(),schedule(),finished().

crawlScope(范围部件):设置应该在什么范围内抓取网页链接.如域限制,不受限制

控制器

中央控制器是抓取的核心组件.它决定抓取的开始、结束和暂停.从Frontier获取URI,传递给ToePool中的ToeThread处理.
类中定义了一下组件
Crawlerorder配置文件对象
Crawlerscope抓取范围控制对象
Processorchainlist处理链对象
Frontier边界部件
Toepool线程池
Servercache缓存,他保存了所有在当前任务重抓取过的host名称和server名称(包括IP地址,历史记录,机器人策略.)

边界部件
跟踪哪个预定的URI将被收集,和已经被收集的URI,选择下一个 URI,剔除已经处理过的URI.
调度器负责从Url库中选择需要抓取的Url列表,它是整个Spider系统的大脑,此模块是实现了优雅抓取的核心,调度器针对URL采用了域散列,可以保证不会同时有两个线程抓取同一个域下的URL,并且对每个域的抓取间隔都有控制；
具体实现得到一个URL通过解析得到他的主域名(例如: http://www.autohome.com.cn/brand/解析后的主域名就为www.autohome.com.cn)把此主域名做key所有此域名下的URL对象都存储在这个key中的BDB中.具体见下图

Key1	Queue1(url1,url2,url3,…)
Key2	Queue2(urlx,…)
Key3	Queue3(…)
…	…

以上key值的生成方式可以根据用户需求拓展,这里提供了两种策略.
域生成: 按域生成则是按域生成key,把同一个域名下的URL都放入这个key值的队列中.按域生成可以很好的控制抓取速度,但是在需要抓取的网站数少的情况下,下载速度明显很慢.
elhash生成:elfhash生成是按散列生成key,这能明显提高抓取速度,可是这样会对服务器照成压力.
每次得到一个url对象的时候就会锁定这个key值,直到其运行完并且过了等待时间（比如配置的是50K/S而实际抓取是100K/S则会让队列睡眠等待成配置的速度+配置文件中配置的间隔上一次访问访问时间）才会解锁,这保证了同一时间内只会有一个线程抓取此域名的URL.
此类里面实现一个过滤器，抓们用来过滤当前需要被加入的链接对象是否已经抓取过.过滤器可以根据用户需求拓展.
此服务还实现了URL抓取的计数（访问,排除,成功,失败）,去重服务,URL备份以及日志服务

处理器链
许多Processor组成一个处理链（processor chains）中,每一个处理链对URI进行一系列的处理.
(1)Pre-fetch processing chain(预处理链)
主要根据下载范围控制信息判断当前URI是否应当处理.
(2)Fetch processing chain（抓取处理链）
从远程服务器获取数据
(3) Extractor processing chain（抽取处理链）
从网页中抽取新的URI
(4)Write/index processing chain（写处理链）
负责把数据写入本地磁盘、DB、DBD
(5)Post-processing chain（后置处理链）
把抽取出来的URL加入到队列

整个处理链由管理员配置,可以每一个processor块都可以由多个处理

Processor类:代表当个的处理器，素有的处理器都是他的子类
ProcessorChain类:此类类似于一个队列,里面包括了同种类型的几个Processor
ProcessorChainList类:此类保存了此次抓取所设置的所有处理器链.
比如fetchHTML用来得到HTML页面,fetchDNS用来得到DNS信息,他们都继承FETCH类,FETCH继承Processor.多个Processor组成ProcessorChainList.

线程池(ToePool)
线城池(ToePool)是一个标准的线程池,他用来管理所有抓取线程(ToeThread),每个抓取线程向frontier要一个URL然后调用处理链.

去重策略
先抓取网页,把URI和网页摘要保存到hash表中.第二次抓取相同URI根据URI查找并比较之前存入hash表中的摘要是否相同

FETCHHTML
这是处理链中的一个实现,用来获取HTML内容.他首先判断能否抓取HTML,在抓取过程中将网页信息写入内存,然后计算网页摘要值sha1或md5,fetchhtml会把每个url访问的cookie存储

配置服务
heritrix编写了一套强大的配置服务系统，所有的配置服务都继承与此服务。其中有个很重要的超类ComplexType，所有配置模块超类，这个类是通用的配置框架的核心，所有可配置的模块都扩展这个类或是他的子类.本类的所有子类都将自动遵循JMX的DynamicMBean

0
顶

0
踩

分享到：

Heritrix中的SURT和SurtPrefixedDecideRule | Java 位运算符

2010-11-17 10:39
浏览 1457
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

heritrix设计详解(一) 总述

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

heritrix设计详解(一) 总述

评论

发表评论

相关推荐

出售分布式网络爬虫程序

Heritrix中的SURT和SurtPrefixedDecideRule

spider技术综述

Heritrix源码之 处理链

Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

爬虫基本原理及概念

heritrix 下载不通过服务器缓存

转 互联网反爬虫策略

爬虫被封原因

网站防爬虫

Heritrix 学习笔记1.Heritrix defined codes

Heritrix去重

heritrix无法抓取中文URL的问题解决方案

heritrix 多个job合并的方案

继续抓取的一些问题及解决方案

heritrix在原有基础上抓取

job配置经验分享

elfhash多线程抓取

heritrix入门及配置

最近访客更多访客>>

Heritrix源码之处理链

转互联网反爬虫策略