Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二) -

wangwei3

浏览: 123423 次
性别:
来自: 北京

最近访客更多访客>>

jeffkuang

蔚蓝之天空

whut0503

lincolnlee1982

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

博客分类：

heritrix

多线程活动正则表达式配置管理嵌入式

转自:http://guoyunsky.iteye.com/blog/650744

1.Heritrix的初始化：

/** * 初始化CrawlController * @param sH 配置文件(order.xml)对象 * @throws InitializationException 初始化异常 */ 
public void initialize(SettingsHandler sH) throws InitializationException { // 给监听器发送状态为准备状态   sendCrawlStateChangeEvent(PREPARING, CrawlJob.STATUS_PREPARING); // 重入锁,保证只有1个线程使用本对象 
this.singleThreadLock = new ReentrantLock(); 
this.settingsHandler = sH;//order.xml对象 // 工具类方法，把爬虫的SettingsHandler填充进本线程global持有人，如此使得接下来本线程的反序列化操作能够找到它 
installThreadContextSettingsHandler(); 
this.order = settingsHandler.getOrder();//获得order.xml管理对象 this.order.setController(this);//设置order.xml由当前控制中心控制
 this.bigmaps = new Hashtable<String, CachedBdbMap<?, ?>>();//初始化备份中心数据装载器 
sExit = ""; 
this.manifest = new StringBuffer();// 初始化所有日志名记录器 
String onFailMessage = ""; 
try { 
onFailMessage = "You must set the User-Agent and From HTTP" + " header values to acceptable strings. \n" + " User-Agent: [software-name](+[info-url])[misc]\n" + " From: [email-address]\n"; order.checkUserAgentAndFrom();// 检查user-agent,主要通过正则表达式进行验证 
onFailMessage = "Unable to setup disk"; 
if (disk == null) { setupDisk();// 创建logs、states、checkpoint等路径(这里只是创建这几个文件夹) 
} 
onFailMessage = "Unable to create log file(s)"; 
setupLogs();// 创建日志文件,并且设置好各种日志文件格式 
onFailMessage = "Unable to test/run checkpoint recover"; this.checkpointRecover = getCheckpointRecover();//获得备份恢复器 
if (this.checkpointRecover == null) {//如果备份恢复器为空则新建一个 this.checkpointer = new Checkpointer(this, this.checkpointsDisk); } else { 
//如果不为空,则先对备份数据进行恢复,主要是构造备份定时器以及填充备份数据到调度中心 
setupCheckpointRecover(); } // 创建DBD环境,这里只创建BDB数据库环境 onFailMessage = "Unable to setup bdb environment."; setupBdb(); // 创建跟踪统计器 
onFailMessage = "Unable to setup statistics"; setupStatTracking(); // 初始化了Scope、Frontier、ServerCache以及ProcessorChain 
onFailMessage = "Unable to setup crawl modules"; setupCrawlModules(); 
} catch (Exception e) {
 String tmp = "On crawl: " + settingsHandler.getSettingsObject(null).getName() + " " + onFailMessage; //异常日志 LOGGER.log(Level.SEVERE, tmp, e); 
throw new InitializationException(tmp, e); } // 创建DNS缓存 
Lookup.getDefaultCache(DClass.IN).setMaxEntries(1); // 设置线程池,从配置文件获取线程个数后初始化 
setupToePool(); // 设置基于crawl order的最大字节数，文档树和时间，这些都是从配置文件中获取 
setThresholds(); // 设置应急处理内存，这里是6M 
reserveMemory = new LinkedList<char[]>(); 
for (int i = 1; i < RESERVE_BLOCKS; i++) { reserveMemory.add(new char[RESERVE_BLOCK_SIZE]); 
} 
}

CrawlController的初始化实际上是创建与之相关的各个不见,如日志文件、BDB、处理器、统计跟踪器等。其中日志文件用于记录各个日志、BDB是个嵌入式数据库用于存放URL以及备份数据、处理器之前的博客有介绍、统计跟踪器则主要用来统计跟踪抓取情况,如多少URL被抓取等。由于这些并不复杂，里就不再陈述...

2.Heritrix的启动：

 

/** * 启动Heritrix,开始抓取 */ 
public void requestCrawlStart() { //初始化各种处理器 runProcessorInitialTasks(); // 将状态置为就绪状态(会发给每一个事件监听器) sendCrawlStateChangeEvent(STARTED, CrawlJob.STATUS_PENDING); 
String jobState; state = RUNNING; 
jobState = CrawlJob.STATUS_RUNNING; // 将状态置为正在运行状态(会发给每一个事件监听器,并记录日志) 
sendCrawlStateChangeEvent(this.state, jobState); //存在状态 this.sExit = CrawlJob.STATUS_FINISHED_ABNORMAL; //初始化统计监听器线程 Thread statLogger = new Thread(statistics); statLogger.setName("StatLogger"); //启动统计监听器 statLogger.start();
 //启动调度器 
frontier.start(); }

启动Heritrix的代码相对较少.可以看见这里主要是初始化处理器，以及发送状态，同时开启统计监听器线程。最后启动调度器,唤醒所有等待线程。如此开始进入抓取。

3.Heritrix的暂停

/** * Stop the crawl temporarly. * 暂停抓取 */ 
public synchronized void requestCrawlPause() { 
if (state == PAUSING || state == PAUSED) { 
// Already about to pause return; 
} 
sExit = CrawlJob.STATUS_WAITING_FOR_PAUSE;// 设置退出状态 
frontier.pause(); 
sendCrawlStateChangeEvent(PAUSING, this.sExit);// 发送状态 
if (toePool.getActiveToeCount() == 0) {// 获取出于活动状态的线程数，如果数字为0，则表示暂停结束 // 
if all threads already held, complete pause now // (no chance to trigger off later held thread) 
completePause(); 
} 
}

可以看到Heritrix的暂停实际上是线程的暂停,不过每一个多线程应用的暂停也都是线程的暂停吧。Heritrix首先暂停调度器,如此使得抓取线程无法获取URL，然后发送暂停命令,使得每个处理器接受到暂停命令后暂停各自的处理工作。最后查看线程池中是否还有活动状态线程，没有的话则表明暂停完成，这些都可以在UI界面中查看到。

4.Heritrix的重启

 /** * Resume crawl from paused state * 从暂停状态恢复抓取 */
 public synchronized void requestCrawlResume() { 
if (state != PAUSING && state != PAUSED && state != CHECKPOINTING) {// 不是暂停火车checkpoing状态 // Can't resume if not been told to pause or if we're in middle of // a checkpoint. return; 
} multiThreadMode();// 回到多线程模式 
frontier.unpause();// frontier取消暂停，这意味着重新开始抓取任务 LOGGER.fine("Crawl resumed."); 
sendCrawlStateChangeEvent(RUNNING, CrawlJob.STATUS_RUNNING);// 发送事件，让所有环节重新启动 }

通过注释可以看到,从暂停状态重启Heritrix实际上是单线程切换到多线程,然后调度器首先要重启，最后也是发送命令给所有处理器让他们重启

5.Heritrix的停止
由于Heritrix有两种停止方式，一种是强制终止，一般是接收WEB UI命令后的强行终止抓取，这时的抓取获取并没有抓取完成。还有一种是自然停止，也就是所有的URL都抓取完毕。所以前一种停止是被谋杀，而后一种是寿寝正终。下面先介绍下强制终止:

       /** * 开始停止抓取 */ 
public void beginCrawlStop() {
 LOGGER.fine("Started."); //发送停止命令 
sendCrawlStateChangeEvent(STOPPING, this.sExit); 
if (this.frontier != null) { 
this.frontier.terminate(); 
this.frontier.unpause(); 
} 
LOGGER.fine("Finished."); }

可以看到和暂停、重启基本雷同。也是调度器的停止和发送停止命令给各个处理器。只不过这里是先要停止各个处理器，然后再停止调度器。只不过这里后面还多了个调度器的重启，有些让人费解。这里我说下自己的理解,由于Heritrix停止后允许让Heritrix暂停,可以通过配置命令配置，所以这里并没有做到大家想象中的那种停止，而是让Heritrix的调度中心启动在那，而所有的处理模块却都停止了,实际上还是无法进行任何抓取。

然后是Heritrix的正常停止

/** * Called when the last toethread exits. * 当没有活动状态的线程，则爬虫终止 * */ 
protected void completeStop() { 
LOGGER.fine("Entered complete stop.");
 runProcessorFinalTasks();// 运行所有处理器的最后处理环节 // Ok, now we are ready to exit. sendCrawlStateChangeEvent(FINISHED, this.sExit); // 发送事件表明爬虫结束 synchronized (this.registeredCrawlStatusListeners) { this.registeredCrawlStatusListeners .removeAll(this.registeredCrawlStatusListeners);//移除所有的监听事件 this.registeredCrawlStatusListeners = null; 
} 
closeLogFiles();// 关闭所有的日志处理器 // Release reference to logger file handler instances. 
this.fileHandlers = null; 
this.uriErrors = null; 
this.uriProcessing = null; 
this.localErrors = null; 
this.runtimeErrors = null;
 this.progressStats = null; 
this.reports = null; 
this.manifest = null; // Do cleanup. this.statistics = null; this.frontier = null; 
this.disk = null; 
this.scratchDisk = null;
 this.order = null; 
this.scope = null; 
if (this.settingsHandler != null) {
 this.settingsHandler.cleanup(); 
} 
this.settingsHandler = null; 
this.reserveMemory = null; 
this.processorChains = null; 
if (this.serverCache != null) { 
this.serverCache.cleanup(); 
this.serverCache = null;
 } 
if (this.checkpointer != null) { // 关闭Checkpointer，这里是关闭CheckPointer定时器 
this.checkpointer.cleanup(); 
this.checkpointer = null; 
} 
if (this.bdbEnvironment != null) { // 关闭BDB数据库 try { this.bdbEnvironment.sync(); 
this.bdbEnvironment.close(); 
} catch (DatabaseException e) { 
e.printStackTrace(); 
} 
this.bdbEnvironment = null; 
} 
this.bigmaps = null; 
if (this.toePool != null) { 
this.toePool.cleanup();// 清理线程 } 
this.toePool = null; LOGGER.fine("Finished crawl."); }

可以看到这段代码是一个清理的过程,同时触发这个方法的缘由是因为没有活动状态的线程.之前说过当Heritrix中的抓取线程ToeThread没有URL可抓取的时候就会自然死亡(不处于活动状态),当没有URL可抓取也就是意味着没有处于活动状态的线程，所以就会触发这个方法，导致抓取的结束。

6.总结：

以上只是介绍了主要的方法和属性，其中还有一些重要的组件没有介绍，如Checkpoint，如果不去看源码可能根本不会注意到Checkpoint。不过以上的介绍大概说明了下Heritrix，你也可以通过这些方法调试一步步深入下去...

分享到：

爬虫 js,flash,ajax网页（JREX） | 爬虫基本原理及概念

2010-11-04 10:58
浏览 978
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

评论

发表评论

相关推荐

出售分布式网络爬虫程序

Heritrix中的SURT和SurtPrefixedDecideRule

heritrix设计详解(一) 总述

spider技术综述

Heritrix源码之 处理链

爬虫基本原理及概念

heritrix 下载不通过服务器缓存

转 互联网反爬虫策略

爬虫被封原因

网站防爬虫

Heritrix 学习笔记1.Heritrix defined codes

Heritrix去重

heritrix无法抓取中文URL的问题解决方案

heritrix 多个job合并的方案

继续抓取的一些问题及解决方案

heritrix在原有基础上抓取

job配置经验分享

elfhash多线程抓取

heritrix入门及配置

最近访客更多访客>>

Heritrix源码之处理链

转互联网反爬虫策略