`
guoyunsky
  • 浏览: 854292 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
3d3a22a0-f00f-3227-8d03-d2bbe672af75
Heritrix源码分析
浏览量:206243
Group-logo
SQL的MapReduce...
浏览量:0
社区版块
存档分类
最新评论

Heritrix3.0教程(一) Heritrix 3.0新特性新功能介绍

 
阅读更多

    本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744452

     本人新浪微博:http://weibo.com/guoyunwb

      Heritrix3.0新特性很给力.从性能,功能,灵活配置和灵活控制上都改进很大,可以说更适合垂直抓取了

     一.英文原文,点击查看

          1. Ability to run multiple crawl jobs simultaneously.  The only limit on the number of crawl jobs that can run concurrently is the memory allocated to Heritrix.

          2. Single XML configuration file based on the Spring framework.  This file replaces order.xml and other Heritrix 1.x configuration files.

         3.Ability to browse and modify the configured Spring beans through an easy-to-use browser based utility.  See Bean Browser .

         4. Enhanced extensibility through the Spring framework.  For example, domain overrides can be set at a very fine-grained level.  See Sheets.

         5. More secure user control console.  HTTPS is used to access and manipulate the user control console.

         6. Increased scalability.  Previously, crawls with large seed values (tens or hundreds of millions) might attempt to utilize more memory than allocated to Heritrix.

This would cause the crawl to crash.  Heritrix 3.0 eliminates these problems, allowing stable processing of large scale scrawls.

        7. Increased flexibility when modifying a running crawl.  Running crawls can be modified by using the Bean Browser or by using the Action Directory.

        8. Introduction of parallel queues.  When crawling specific sites that can handle large amounts of traffic, the parallel queues option can be used to open many

concurrent crawling connections to a single site.

        9. A Scripting Console that accepts script input in various formats such as AppleScript and ECMAScript.  Scripting can be used to programmaticly access

and manipulate the core components of Heritrix.

        二.翻译

         1.能够同时运行多个抓取任务,唯一的限制是要给并行运行的抓取任务分配内存.

         2.基于Spring框架去管理XML配置.并且只用这一个XML配置就替换Hertrix1.X的order.xml和其他配置文件.

         3.可以通过浏览器工具很方便易用的浏览和修改Spring Bean.

         4.增强扩展了Spring框架.可以配置得很细致.具体见Sheets.

         5.更安全的控制台限制.通过HTTPS去访问和操作控制台.

         6.增强了扩展性.以前的版本,如果有千万级以上的种子都会先载入内存,如此有可能使得超过分配给Heritrix的内存导致内存溢出.Heririx3.0则解决了这个问题.允许这种大规模抓取.

         7.可以灵活的修改一个正在运行的抓取任务.通过修改Bean和Action Directory两种方式来修改.

         8.引入了并行队列.当抓取指定的站点以前只有一个队列,如此会导致该队列的过于庞大.和抓取缓慢.并行队列的话,会将同一个站点的URL分成多个队列去并行抓取.

        9.增加了脚本控制台,可以通过输入各种各样的脚本,如AppleScript,ECMAScript,Python,JS去控制和访问Heritrix的基本组件运行情况(很有意思).

          三.补充:

        以下只是我的个人理解,从使用和源码的角度来补充Hertrix3.0的改变.刚才的新特性来自维基,我觉得新特性还有以下:

       1.很给力的一项功能,增加了增量抓取.而且可以很好的扩展.

       2.基于REST(Heritrix使用的是Restlet框架)去控制Heritrix运行.以前是基于Servlet,界面是JSP.

       3.可以动态更改抓取,并且不用重启.以前版本更改抓取的话,如增量一些类,更改order.xml配置,都需要停止Heritrix再更改,3.0则可以动态修改,可以从以下几个方面:

       4.更完善的报表功能,各种日志文件,可以更清晰直观的了解抓取情况.这个以后会重点介绍.发现很多人不会通过日志去观察抓取情况.

 

更多技术文章、感悟、分享、勾搭,请用微信扫描:

1
0
分享到:
评论

相关推荐

    Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍.docx

    Heritrix 3.0 是一个强大的网络抓取框架,其设计目的是为了高效、灵活地爬取互联网上的信息。在Heritrix 3.0中,`crawler-beans.cxml` 文件扮演着至关重要的角色,它是整个爬虫的配置中心,负责定义和管理爬虫的行为...

    Heritrix3手册翻译

    它在2009年12月发布了3.0.0版本,并随着时间的推移不断更新,提供了3.0.1补丁版和3.2.0版,增加了新的特性和功能,比如更简单的使用方式、持续爬行以及处理大规模爬行任务的能力。Heritrix 3 的文档包括用户指南和...

    heritrix3.1 官方指导手册

    在 Heritrix 3.0 和 3.1 版本中,加入了一系列新特性以提升用户体验和功能性能: - **增强的用户界面**:提供了更加直观易用的 Web 基础用户界面,便于用户进行任务配置与监控。 - **改进的安全机制**:增强了安全性...

    网络爬虫Heritrix1.14.4可直接用

    总结来说,Heritrix 1.14.4是一个功能丰富的网络爬虫工具,它的模块化设计和灵活的配置使得它适合各种规模的爬虫项目。通过深入学习和实践,开发者可以掌握网络爬虫的基本原理和技术,并能够构建自己的网络数据获取...

    heritrix-3.1.0 最新jar包

    - **扩展性**:Heritrix设计为插件式系统,开发者可以编写自己的模块来扩展其功能,如添加新的解析器、过滤器或存储适配器。 总结来说,Heritrix 3.1.0 是一款功能强大、可定制的网络爬虫工具,适用于学术研究、...

    heritrix1.14.0jar包

    在实际使用中,Heritrix可以通过编写自定义模块来扩展其功能,例如添加新的处理器、过滤器或存储适配器。开发者可以通过实现Heritrix提供的接口或继承已有类,将新功能集成到爬虫流程中。 总的来说,Heritrix1.14.0...

    heritrix爬虫安装部署

    ### Heritrix爬虫安装部署知识点...通过以上详细介绍,我们不仅了解了Heritrix的基本概念和工作原理,还掌握了其安装部署的详细步骤以及如何运行示例项目。这对于初次接触Heritrix的用户来说是非常有价值的参考资料。

    Heritrix使用详解与高级开发应用

    总的来说,Heritrix是一个功能强大的网络爬虫工具,不仅适用于数据挖掘、研究项目,也适合那些需要大规模网络抓取的开发者。其高度的可扩展性和丰富的配置选项,使得Heritrix成为了一个可以满足多样化需求的平台。...

    很好的heritrix学习资料

    标题和描述都表明这是一份关于Heritrix学习的宝贵资料集合,包含了一系列的教程和经验分享。 首先,我们来看"利用Heritrix构建特定站点爬虫.mht"这个文件。这个文件很可能详细介绍了如何定制Heritrix来抓取特定网站...

    heritrix-1.14.2.zip

    总的来说,Heritrix 1.14.2是一个强大的、可定制的网络爬虫,它展示了如何利用编程语言实现大规模的数据抓取,并为开发者提供了深入学习和扩展爬虫功能的机会。尽管现在有更新的版本(如Heritrix 3.x系列)可用,但...

    heritrix系统使用.ppt

    Heritrix的一个特性是其url队列管理机制。默认情况下,所有属于同一hostname的URL会被放入同一个队列,导致只有一个线程在工作。为了解决这个问题,可以使用如ELF哈希算法来平均分配URL到不同的队列,从而实现更有效...

    Heritrix1.14.4(含源码包)

    1. **爬虫基础**:Heritrix是一个Web爬虫,其主要功能是自动遍历互联网上的网页,按照预设的规则抓取内容。它通过模拟浏览器发送HTTP请求,接收服务器响应,并处理返回的数据。 2. **工作流程**:Heritrix的工作...

    Heritrix(windows版)

    Heritrix是一款开源的网络爬虫软件,专为大规模网页抓取而设计。这款工具主要用于构建互联网档案馆、搜索引擎的数据源以及其他需要大量网页数据的项目。Heritrix由Internet Archive开发,支持高度可配置和扩展,能够...

    开发自己的搜索引擎 lucene + heritrix

    总结来说,开发一个基于Lucene和Heritrix的搜索引擎是一个涉及多种技术和步骤的复杂过程。理解Lucene和Heritrix的工作原理和使用方法,以及如何将两者结合构建有效的搜索引擎,对于完成这项工作至关重要。同时,针对...

    heritrix源码

    总的来说,Heritrix是一个强大的工具,它结合了灵活性和稳定性,为网络爬虫开发者提供了丰富的功能和可能性。通过深入研究其源码,你可以了解到网络爬虫技术的诸多细节,提升你的编程技能和对网络数据抓取的理解。

    Heritrix的安装与配置

    总之,Heritrix是一个功能强大的网络爬虫工具,其安装和配置涉及对Java项目的理解和Eclipse的熟练操作。通过以上步骤,你可以成功地搭建起一个运行中的Heritrix实例,进一步探索其丰富的功能和可能性。不过,需要...

Global site tag (gtag.js) - Google Analytics