`
guoyunsky
  • 浏览: 854744 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
3d3a22a0-f00f-3227-8d03-d2bbe672af75
Heritrix源码分析
浏览量:206329
Group-logo
SQL的MapReduce...
浏览量:0
社区版块
存档分类
最新评论

Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

阅读更多

      本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/650744

      欢迎加入Heritrix群(QQ):109148319

 

      上一篇博客主要介绍了CrawlController的各个属性,博客地址:http://guoyunsky.iteye.com/blog/650744 ,以及三个特殊的属性.这里就介绍它的相关方法,首先从初始化开始介绍,主要请看代码以及注释:

         1.Heritrix的初始化:

 

/** * 初始化CrawlController * @param sH 配置文件(order.xml)对象 * @throws InitializationException 初始化异常 */ public void initialize(SettingsHandler sH) throws InitializationException { // 给监听器发送状态为准备状态 sendCrawlStateChangeEvent(PREPARING, CrawlJob.STATUS_PREPARING); // 重入锁,保证只有1个线程使用本对象 this.singleThreadLock = new ReentrantLock(); this.settingsHandler = sH;//order.xml对象 // 工具类方法,把爬虫的SettingsHandler填充进本线程global持有人,如此使得接下来本线程的反序列化操作能够找到它 installThreadContextSettingsHandler(); this.order = settingsHandler.getOrder();//获得order.xml管理对象 this.order.setController(this);//设置order.xml由当前控制中心控制 this.bigmaps = new Hashtable<String, CachedBdbMap<?, ?>>();//初始化备份中心数据装载器 sExit = ""; this.manifest = new StringBuffer();// 初始化所有日志名记录器 String onFailMessage = ""; try { onFailMessage = "You must set the User-Agent and From HTTP" + " header values to acceptable strings. \n" + " User-Agent: [software-name](+[info-url])[misc]\n" + " From: [email-address]\n"; order.checkUserAgentAndFrom();// 检查user-agent,主要通过正则表达式进行验证 onFailMessage = "Unable to setup disk"; if (disk == null) { setupDisk();// 创建logs、states、checkpoint等路径(这里只是创建这几个文件夹) } onFailMessage = "Unable to create log file(s)"; setupLogs();// 创建日志文件,并且设置好各种日志文件格式 onFailMessage = "Unable to test/run checkpoint recover"; this.checkpointRecover = getCheckpointRecover();//获得备份恢复器 if (this.checkpointRecover == null) {//如果备份恢复器为空则新建一个 this.checkpointer = new Checkpointer(this, this.checkpointsDisk); } else { //如果不为空,则先对备份数据进行恢复,主要是构造备份定时器以及填充备份数据到调度中心 setupCheckpointRecover(); } // 创建DBD环境,这里只创建BDB数据库环境 onFailMessage = "Unable to setup bdb environment."; setupBdb(); // 创建跟踪统计器 onFailMessage = "Unable to setup statistics"; setupStatTracking(); // 初始化了Scope、Frontier、ServerCache以及ProcessorChain onFailMessage = "Unable to setup crawl modules"; setupCrawlModules(); } catch (Exception e) { String tmp = "On crawl: " + settingsHandler.getSettingsObject(null).getName() + " " + onFailMessage; //异常日志 LOGGER.log(Level.SEVERE, tmp, e); throw new InitializationException(tmp, e); } // 创建DNS缓存 Lookup.getDefaultCache(DClass.IN).setMaxEntries(1); // 设置线程池,从配置文件获取线程个数后初始化 setupToePool(); // 设置基于crawl order的最大字节数,文档树和时间,这些都是从配置文件中获取 setThresholds(); // 设置应急处理内存,这里是6M reserveMemory = new LinkedList<char[]>(); for (int i = 1; i < RESERVE_BLOCKS; i++) { reserveMemory.add(new char[RESERVE_BLOCK_SIZE]); } }

 

 

 


 

    CrawlController的初始化实际上是创建与之相关的各个不见,如日志文件、BDB、处理器、统计跟踪器等。其中日志文件用于记录各个日志、BDB是个嵌入式数据库用于存放URL以及备份数据、处理器之前的博客有介绍、统计跟踪器则主要用来统计跟踪抓取情况,如多少URL被抓取等。由于这些并不复杂,里就不再陈述...

 

      2.Heritrix的启动:

 

/** * 启动Heritrix,开始抓取 */ public void requestCrawlStart() { //初始化各种处理器 runProcessorInitialTasks(); // 将状态置为就绪状态(会发给每一个事件监听器) sendCrawlStateChangeEvent(STARTED, CrawlJob.STATUS_PENDING); String jobState; state = RUNNING; jobState = CrawlJob.STATUS_RUNNING; // 将状态置为正在运行状态(会发给每一个事件监听器,并记录日志) sendCrawlStateChangeEvent(this.state, jobState); //存在状态 this.sExit = CrawlJob.STATUS_FINISHED_ABNORMAL; //初始化统计监听器线程 Thread statLogger = new Thread(statistics); statLogger.setName("StatLogger"); //启动统计监听器 statLogger.start(); //启动调度器 frontier.start(); }

 

 

 


 

 

    启动Heritrix的代码相对较少.可以看见这里主要是初始化处理器,以及发送状态,同时开启统计监听器线程。最后启动调度器,唤醒所有等待线程。如此开始进入抓取。

    

     3.Heritrix的暂停

/** * Stop the crawl temporarly. * 暂停抓取 */ public synchronized void requestCrawlPause() { if (state == PAUSING || state == PAUSED) { // Already about to pause return; } sExit = CrawlJob.STATUS_WAITING_FOR_PAUSE;// 设置退出状态 frontier.pause(); sendCrawlStateChangeEvent(PAUSING, this.sExit);// 发送状态 if (toePool.getActiveToeCount() == 0) {// 获取出于活动状态的线程数,如果数字为0,则表示暂停结束 // if all threads already held, complete pause now // (no chance to trigger off later held thread) completePause(); } }

 

 

 


  

 

    可以看到Heritrix的暂停实际上是线程的暂停,不过每一个多线程应用的暂停也都是线程的暂停吧。Heritrix首先暂停调度器,如此使得抓取线程无法获取URL,然后发送暂停命令,使得每个处理器接受到暂停命令后暂停各自的处理工作。最后查看线程池中是否还有活动状态线程,没有的话则表明暂停完成,这些都可以在UI界面中查看到。

 

    4.Heritrix的重启

    /** * Resume crawl from paused state * 从暂停状态恢复抓取 */ public synchronized void requestCrawlResume() { if (state != PAUSING && state != PAUSED && state != CHECKPOINTING) {// 不是暂停火车checkpoing状态 // Can't resume if not been told to pause or if we're in middle of // a checkpoint. return; } multiThreadMode();// 回到多线程模式 frontier.unpause();// frontier取消暂停,这意味着重新开始抓取任务 LOGGER.fine("Crawl resumed."); sendCrawlStateChangeEvent(RUNNING, CrawlJob.STATUS_RUNNING);// 发送事件,让所有环节重新启动 } 


 

 

 通过注释可以看到,从暂停状态重启Heritrix实际上是单线程切换到多线程,然后调度器首先要重启,最后也是发送命令给所有处理器让他们重启

 

 

 

   5.Heritrix的停止

   由于Heritrix有两种停止方式,一种是强制终止,一般是接收WEB UI命令后的强行终止抓取,这时的抓取获取并没有抓取完成。还有一种是自然停止,也就是所有的URL都抓取完毕。所以前一种停止是被谋杀,而后一种是寿寝正终。下面先介绍下强制终止:

       /** * 开始停止抓取 */ public void beginCrawlStop() { LOGGER.fine("Started."); //发送停止命令 sendCrawlStateChangeEvent(STOPPING, this.sExit); if (this.frontier != null) { this.frontier.terminate(); this.frontier.unpause(); } LOGGER.fine("Finished."); }


 

 

可以看到和暂停、重启基本雷同。也是调度器的停止和发送停止命令给各个处理器。只不过这里是先要停止各个处理器,然后再停止调度器。只不过这里后面还多了个调度器的重启,有些让人费解。这里我说下自己的理解,由于Heritrix停止后允许让Heritrix暂停,可以通过配置命令配置,所以这里并没有做到大家想象中的那种停止,而是让Heritrix的调度中心启动在那,而所有的处理模块却都停止了,实际上还是无法进行任何抓取。

 

   

   然后是Heritrix的正常停止

 

  

/** * Called when the last toethread exits. * 当没有活动状态的线程,则爬虫终止 * */ protected void completeStop() { LOGGER.fine("Entered complete stop."); runProcessorFinalTasks();// 运行所有处理器的最后处理环节 // Ok, now we are ready to exit. sendCrawlStateChangeEvent(FINISHED, this.sExit); // 发送事件表明爬虫结束 synchronized (this.registeredCrawlStatusListeners) { this.registeredCrawlStatusListeners .removeAll(this.registeredCrawlStatusListeners);//移除所有的监听事件 this.registeredCrawlStatusListeners = null; } closeLogFiles();// 关闭所有的日志处理器 // Release reference to logger file handler instances. this.fileHandlers = null; this.uriErrors = null; this.uriProcessing = null; this.localErrors = null; this.runtimeErrors = null; this.progressStats = null; this.reports = null; this.manifest = null; // Do cleanup. this.statistics = null; this.frontier = null; this.disk = null; this.scratchDisk = null; this.order = null; this.scope = null; if (this.settingsHandler != null) { this.settingsHandler.cleanup(); } this.settingsHandler = null; this.reserveMemory = null; this.processorChains = null; if (this.serverCache != null) { this.serverCache.cleanup(); this.serverCache = null; } if (this.checkpointer != null) { // 关闭Checkpointer,这里是关闭CheckPointer定时器 this.checkpointer.cleanup(); this.checkpointer = null; } if (this.bdbEnvironment != null) { // 关闭BDB数据库 try { this.bdbEnvironment.sync(); this.bdbEnvironment.close(); } catch (DatabaseException e) { e.printStackTrace(); } this.bdbEnvironment = null; } this.bigmaps = null; if (this.toePool != null) { this.toePool.cleanup();// 清理线程 } this.toePool = null; LOGGER.fine("Finished crawl."); }

   可以看到这段代码是一个清理的过程,同时触发这个方法的缘由是因为没有活动状态的线程.之前说过当Heritrix中的抓取线程ToeThread没有URL可抓取的时候就会自然死亡(不处于活动状态),当没有URL可抓取也就是意味着没有处于活动状态的线程,所以就会触发这个方法,导致抓取的结束。

 

 

 6.总结:

  以上只是介绍了主要的方法和属性,其中还有一些重要的组件没有介绍,如Checkpoint,如果不去看源码可能根本不会注意到Checkpoint。不过以上的介绍大概说明了下Heritrix,你也可以通过这些方法调试一步步深入下去...

 

更多技术文章、感悟、分享、勾搭,请用微信扫描:

 

2
2
分享到:
评论
4 楼 Ellaker 2013-05-23  
碎了一地又捡起来
3 楼 moon5284 2013-05-23  
楼主辛苦!没有回车看得蛋碎了一地~
2 楼 wangxiaolongbob 2011-09-12  
这代码没有排版的啊,看这蛋疼啊~
1 楼 roshowl 2010-08-09  
楼主

相关推荐

    heritrix源码

    这个“Heritrix源码”压缩包可能包含了Heritrix项目的完整源代码,以及相关的学习资料,对于深入理解Heritrix的工作原理、定制爬虫功能以及进行二次开发非常有帮助。以下将详细介绍Heritrix的关键知识点。 1. **...

    Heritrix源码分析

    11. `org.archive.crawler.framework`:Heritrix的框架包,定义了核心类如CrawlController(爬虫控制器)和Frontier(调度器),是整个系统架构的基础。 12. `org.archive.crawler.framework.exceptions`:框架异常...

    Lucene+Heritrix 源码

    **Lucene 和 Heritrix 源码分析** 在IT领域,搜索引擎的开发是一项复杂而重要的任务,它涉及到大量的文本处理、索引构建以及高效的查询算法。Lucene 和 Heritrix 是两个开源工具,分别专注于搜索的核心算法和网页...

    Heritrix1.14.4(含源码包)

    Heritrix 1.14.4是该软件的一个较早版本,包含了完整的源码,因此用户可以对其进行深度定制和调试。 在开始使用Heritrix 1.14.4之前,你需要了解以下几个核心知识点: 1. **爬虫基础**:Heritrix是一个Web爬虫,其...

    heritrix的学习-源码分析 1-10

    ### Heritrix源码分析知识点概述 #### 一、Heritrix简介 Heritrix是一款开源的网络爬虫工具,由Internet Archive开发并维护。它主要用于网页归档和大规模网络爬取任务。Heritrix的设计理念是高度可配置性和扩展性,...

    Heritrix 源码和Jar

    在"Heritrix 源码和Jar"这个主题中,我们可以深入探讨以下几个知识点: 1. **Heritrix的架构**: Heritrix采用模块化设计,由多个组件构成,包括URL队列管理器、下载器、解析器、存储模块等。用户可以根据需要定制...

    heritrix3.2源码

    Heritrix 3.2 源码的分析和理解有助于开发者深入掌握爬虫技术,定制自己的爬虫解决方案。 首先,让我们了解一下Heritrix 3.2 的核心特性: 1. **模块化设计**:Heritrix 3.2 采用组件化的架构,使得不同的爬取功能...

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...

    heritrix1.14.4源码+项目

    这个“Heritrix1.14.4源码+项目”压缩包包含的是Heritrix 1.14.4版本的源代码和相关项目文件,对于学习和理解Web爬虫的工作原理,以及进行自定义开发是非常有价值的。 Heritrix的核心功能是通过模拟浏览器行为来...

    开发自己的搜索引擎lucene+heritrix(第2版)(ch13-ch15源码)

    综上所述,"开发自己的搜索引擎lucene+heritrix(第2版)"的源码涵盖了从网络数据抓取到全文检索的全过程,适合开发者深入学习和实践搜索引擎技术。通过研究ch13至ch16的源代码,可以更深入地理解这两个工具的交互和...

    heritrix-1.14.4爬虫框架及源码

    这个版本的源码和编译后的二进制文件分别以"heritrix-1.14.4.zip"和"heritrix-1.14.4-src.zip"的名义提供,允许用户进行深入研究、学习或二次开发。 在Heritrix中,爬虫的主要工作流程包括种子管理、URL过滤、内容...

    Lucene 2.0+Heritrix源码【2】

    最后,"heritrixProject"很可能包含了Heritrix的配置和源码,用于自定义网络爬取的行为和范围。 总结起来,Lucene和Heritrix是构建高效网络搜索系统的关键组件。Lucene提供强大的全文索引和搜索能力,而Heritrix则...

    网络爬虫Heritrix1.14.4可直接用

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...

    Heritrix使用详解与高级开发应用

    运行Heritrix后,你可以通过WebUI来监控和控制爬虫进程。WebUI提供了创建、编辑和启动爬取作业的能力,同时还提供了日志查看、状态检查以及配置调整等功能。对于高级开发者来说,Heritrix的可扩展性允许自定义处理器...

    Heritrix源码详解

    从网上找得应该是中文Heritrix源码最详细的说明了。折腾了好久,没有把网页打成chm,只能打个exe用用。

    heritrix爬虫安装部署

    #### 二、Heritrix下载、安装与配置 ##### 2.1 下载 - **下载地址**: 通常可以从Heritrix的官方网站或GitHub仓库获取最新版本。 - **版本选择**: 根据给定的信息,选择了版本1.14.4进行安装。 ##### 2.2 安装 - **...

    heritrix1.14.0jar包

    3. **lib**:存放jar包,这是Heritrix运行的基础,包括了Heritrix自身的类库和其他依赖的第三方库,如Apache Commons、log4j等。 4. **src**:源代码目录,虽然用户可能不会直接修改,但有助于理解Heritrix的内部...

Global site tag (gtag.js) - Google Analytics