本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744452
本人新浪微博:http://weibo.com/guoyunwb
Heritrix3.0新特性很给力.从性能,功能,灵活配置和灵活控制上都改进很大,可以说更适合垂直抓取了
一.英文原文,点击查看
1. Ability to run multiple crawl jobs simultaneously. The only limit on the number of crawl jobs that can run concurrently is the memory allocated to Heritrix.
2. Single XML configuration file based on the Spring framework. This file replaces order.xml and other Heritrix 1.x configuration files.
3.Ability to browse and modify the configured Spring beans through an easy-to-use browser based utility. See Bean Browser .
4. Enhanced extensibility through the Spring framework. For example, domain overrides can be set at a very fine-grained level. See Sheets.
5. More secure user control console. HTTPS is used to access and manipulate the user control console.
6. Increased scalability. Previously, crawls with large seed values (tens or hundreds of millions) might attempt to utilize more memory than allocated to Heritrix.
This would cause the crawl to crash. Heritrix 3.0 eliminates these problems, allowing stable processing of large scale scrawls.
7. Increased flexibility when modifying a running crawl. Running crawls can be modified by using the Bean Browser or by using the Action Directory.
8. Introduction of parallel queues. When crawling specific sites that can handle large amounts of traffic, the parallel queues option can be used to open many
concurrent crawling connections to a single site.
9. A Scripting Console that accepts script input in various formats such as AppleScript and ECMAScript. Scripting can be used to programmaticly access
and manipulate the core components of Heritrix.
二.翻译
1.能够同时运行多个抓取任务,唯一的限制是要给并行运行的抓取任务分配内存.
2.基于Spring框架去管理XML配置.并且只用这一个XML配置就替换Hertrix1.X的order.xml和其他配置文件.
3.可以通过浏览器工具很方便易用的浏览和修改Spring Bean.
4.增强扩展了Spring框架.可以配置得很细致.具体见Sheets.
5.更安全的控制台限制.通过HTTPS去访问和操作控制台.
6.增强了扩展性.以前的版本,如果有千万级以上的种子都会先载入内存,如此有可能使得超过分配给Heritrix的内存导致内存溢出.Heririx3.0则解决了这个问题.允许这种大规模抓取.
7.可以灵活的修改一个正在运行的抓取任务.通过修改Bean和Action Directory两种方式来修改.
8.引入了并行队列.当抓取指定的站点以前只有一个队列,如此会导致该队列的过于庞大.和抓取缓慢.并行队列的话,会将同一个站点的URL分成多个队列去并行抓取.
9.增加了脚本控制台,可以通过输入各种各样的脚本,如AppleScript,ECMAScript,Python,JS去控制和访问Heritrix的基本组件运行情况(很有意思).
三.补充:
以下只是我的个人理解,从使用和源码的角度来补充Hertrix3.0的改变.刚才的新特性来自维基,我觉得新特性还有以下:
1.很给力的一项功能,增加了增量抓取.而且可以很好的扩展.
2.基于REST(Heritrix使用的是Restlet框架)去控制Heritrix运行.以前是基于Servlet,界面是JSP.
3.可以动态更改抓取,并且不用重启.以前版本更改抓取的话,如增量一些类,更改order.xml配置,都需要停止Heritrix再更改,3.0则可以动态修改,可以从以下几个方面:
4.更完善的报表功能,各种日志文件,可以更清晰直观的了解抓取情况.这个以后会重点介绍.发现很多人不会通过日志去观察抓取情况.
更多技术文章、感悟、分享、勾搭,请用微信扫描:
相关推荐
它在2009年12月发布了3.0.0版本,并随着时间的推移不断更新,提供了3.0.1补丁版和3.2.0版,增加了新的特性和功能,比如更简单的使用方式、持续爬行以及处理大规模爬行任务的能力。Heritrix 3 的文档包括用户指南和...
在 Heritrix 3.0 和 3.1 版本中,加入了一系列新特性以提升用户体验和功能性能: - **增强的用户界面**:提供了更加直观易用的 Web 基础用户界面,便于用户进行任务配置与监控。 - **改进的安全机制**:增强了安全性...
2. **新功能**:这部分介绍Heritrix 3.0和3.1版本相比之前版本新增的功能,可能包括性能提升、新的处理器或优化的配置选项。 3. **Heritrix安装**:涵盖了下载源码、构建项目以及设置环境变量的步骤,还包括如何...
标题与描述均提到了“heritrixWEB页面详解”,这表明文档旨在深入解析Heritrix这款开源网络爬虫软件的Web界面功能与操作流程。Heritrix由互联网档案馆(Internet Archive)开发,专为归档网页设计,具备高度可定制性...
- **Jetty**:这是一个轻量级的Java编写服务器容器,常用于嵌入式环境,例如开源爬虫Heritrix。Jetty具有可插拔性,易于配置,并且已加入Eclipse项目。 2. **应用服务器**: - **Jboss**:Jboss是一款广受欢迎的...
7. **搜索引擎和工作流**:Lucene用于全文搜索,HTMLParser和Heritrix则涉及网页抓取,JBPM则是工作流程管理工具,学员将学习如何集成这些工具来提升应用功能。 8. **XML处理**:XML作为数据交换格式,学员将学习其...
- Java新特性:了解Java的新功能和技术趋势。 - JDBC:掌握数据库连接和操作的基本方法。 - **JAVA EE WEB**: - HTML/JavaScript:前端网页基础。 - JSP/JavaBean/DAO:服务器端页面处理、业务逻辑封装、数据...