`
zhaohaolin
  • 浏览: 1017915 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

驯服爬虫 Heritrix

阅读更多

驯服爬虫 Heritrix

坛主前些日子罗列一下所有的开源爬虫!    此帖  :   http://www.opensourceforce.org/thread-349-1-1.html

我就来具体介绍一下怎么使用吧!   Heritrix 它不单单是一个爬虫,他还它的 Web 控制端,是通过启动 Web 来控制爬虫的行为的

怎么使用 Web 启动来控制就看这里吧 ! 我不多介绍了    http://www.opensourceforce.org/myhome/space.php?uid=481&do=blog&id=72

现在传统类型的 Heritrix 的最新版本是 heritrix-1.14.0 ,而 heritrix-2.0.0 则是开辟了新的路径,老版本(2.0.0之前的版本)主要是通过 Web

控制,而 2.0.0则在支持 Web 控制的前提下,使用了 jmx 远程控制,同时更新了 heritrix 的配置文件的配置方式。

上面介绍了 heritrix 新版本的信特性,但我想大多数跟我一样,使用 heritrix 之希望使用 Heritrix 的爬虫部分,下面我就来介绍怎么使用通

过程序启动 heritrix , 通过自己的程序来控制 Heritrix 。

有于最近时间比较紧,下学期就大四了,要为自己的工作忙碌了,所以没有太多的时间来研究开源项目了。所以最新的 Heritrix 2.0.0

也只是简单的看了一下,但 Heritrix 的爬虫核心代码并没有改变,只是添加了 jmx 远程控制的功能。

不过我这边还是以  Heritrix 1.14.0 版本为例来使用,这个我更加熟悉一点,呵呵!

首先是去官网下载 Heritrix 1.14.0 的 二进制 版本,解压后取出 heritrix 1.14.0.jar 这个是主要的包,还会以来一些其它的包,根据我

多次的测试,如果单单是解析 html 网页,只需要依赖另外的这 10 个包。

heritrix 1.14.0.jar

httpclient.jar

commons-collections.jar

je.jar                             //   oracle 的  java 版 嵌入式数据库

dnsjava.jar           

mg4j.jar

fastutil.jar

commons-codec.jar

libidn.jar

commons-logging.jar

commons-lang.jar

需要的注意的是在的导入包的时候一定要按照我上面给出的顺序一个一个导入 ,熟悉 Heritrix 的朋友清楚

heritrix 有一个非常重要的配置文件, 那就是 order.xml 文件。 对于这个文件我给一个模板给大家吧! 这个模板文件是具备的最简单

运行要求,也就是当你用这份配置文件的话会将整个目标网站的镜像搬到本地的 Heririx 工作目录。

这份模板看这个联接看把:        http://www.opensourceforce.org/myhome/space.php?uid=481&do=blog&id=73

再上面的一切准备好了就可以开始编程了。

XMLSettingsHandler handler = new XMLSettingsHandler(new File(orderFilePath));

                                       handler.initialize();

CrawlController controller  = new CrawlController();

                             controller.initialize(handler);

CrawlContrller 就之爬虫的控制器了,在这个控制器中定义了控制爬虫的所有行为,因此通过上面的代码片段就完成了 Herireix 的初始化

并获得爬虫的控制对象,现在我们就可以同过这个 controller 对象来驯服  heritrix 了。

注意上面的 orderFilePath 就是 order.xml 的文件路径了。

通过调用  controller.requestCrawlStart();  启动爬虫

        调用   controller.requestCrawlPause();  暂停

        调用   controller.requestCrawlResume();  恢复

       调用   controller.requestCrawlStop();       停止爬虫

具体的使用看 API 吧!

先介绍到这里吧!  如果有说得不明白的地方大家回帖提吧!  我尽量把 Heritrix 的使用说明白!


下面这些图是 heritrix 爬虫部分的核心设计图 ,如果不明白 heritrix 流程的可以看一下下面的图。

分享到:
评论
1 楼 wangxiaolongbob 2011-09-04  
我大三了,在做通用搜索引擎的时候不知道该怎样用heritrix爬网页才能方便后续处理,于是去网上搜了很多,可是关于heritrix的文章千千万,却没有一篇文章是讲到点子上的,好吧!或许说没有一篇文章是能解决我的疑问的,比如说,我在seeds里面设置了很多的种子url(这些url都是主题不同的网站,比如http://www.nbofcw.com/还有http://www.nbhsrs.gov.cn/等等),那我该怎样设置heritrix,是爬的到的数据都是上述站点的子网页,不会给我爬到别的地方去,而且,我希望爬到的网页是以文字为主的文章,楼主能不能给点建议!!

相关推荐

    网络爬虫Heritrix1.14.4可直接用

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...

    web爬虫Heritrix.zip

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

    heritrix网络爬虫

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

    爬虫heritrix资料

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存互联网上的网页内容。这款爬虫以其高度可配置性和扩展性而著名,允许开发者根据需求定制爬取策略。在深入理解...

    网络爬虫heritrix

    ### 网络爬虫Heritrix关键技术与应用解析 #### Heritrix概述 Heritrix作为互联网档案馆(Internet Archive)发起的一项开源项目,旨在为用户提供一个可扩展、网络规模且具有档案质量的网络爬虫工具。它不仅能够帮助...

    heritrix爬虫安装部署

    ### Heritrix爬虫安装部署知识点详解 #### 一、Heritrix爬虫简介 Heritrix是一款由互联网档案馆(Internet Archive)开发的开源网络爬虫框架,它使用Java语言编写,支持高度定制化的需求。Heritrix的设计初衷是为了...

    Heritrix爬虫框架 完整版

    Heritrix爬虫框架是一款基于Java开发的开源网络爬虫工具,专为互联网资源的抓取而设计。这款强大的框架以其高度的可扩展性和灵活性著称,允许开发者根据实际需求定制爬取策略,从而实现对特定网站或网络内容的深度...

    开源的爬虫软件Heritrix3.1.0

    5. **启动爬虫**:运行生成的jar文件,启动Heritrix爬虫服务。 6. **监控与管理**:Heritrix提供了Web界面(通常在本地的8443端口)供用户管理和监控爬虫的运行状态。 Heritrix是一个功能强大且高度定制化的网络...

    网络爬虫(heritrix)代码

    在本主题中,我们重点关注Heritrix,一个开源、可配置且强大的网络爬虫工具,广泛用于构建搜索引擎和其他需要大量网页数据的应用。 标题中的"网络爬虫(heritrix)代码"意味着我们将探讨Heritrix的安装、配置和编程...

    Heritrix网络爬虫

    Heritrix是一款强大的开源网络爬虫工具,由Internet Archive开发并维护,被广泛用于数据挖掘、网站备份和学术研究等领域。这款爬虫以其高度可配置性和模块化设计著称,允许用户根据需求定制爬取策略。 Heritrix的...

    heritrix爬虫工具的使用

    Heritrix是一款开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取互联网上的网页和资源。这个强大的工具允许用户自定义抓取策略,以便于构建自己的网络数据采集系统。Heritrix提供了高度可配置...

    heritrix爬虫,安装tomcat

    Heritrix是一款开源的网络爬虫工具,专为大规模、可定制的网页抓取而设计。它由互联网档案馆(Internet Archive)开发,是互联网数据挖掘和内容存档的重要工具。在本篇中,我们将详细介绍如何安装Heritrix以及如何在...

    heritrix-1.14.4爬虫框架及源码

    Heritrix是一款强大的开源网络爬虫框架,专为大规模网页抓取而设计。它由互联网档案馆(Internet Archive)开发并维护,旨在提供一个灵活、可扩展的平台,用于构建自定义的网络抓取任务。Heritrix的核心理念是允许...

    Heritrix安装详细过程

    找到`org.archive.crawler`包中的`Heritrix.java`文件,这是Heritrix爬虫启动的入口,右键单击选择“Run As > Java Application”。 2. **配置抓取任务** 在Heritrix启动后,可以通过其Web界面配置具体的抓取...

    heritrix1.14.0jar包

    标题中的"heritrix1.14.0jar包"指的是Heritrix的1.14.0版本的Java档案文件(JAR),这是运行或构建Heritrix爬虫项目所必需的库。 Heritrix的工作原理是通过模拟浏览器行为,逐个访问网页并按照预设的策略下载页面。...

    Heritrix爬虫处理方案V1.0

    安装部署好的Heritrix爬虫总共有28个jar包(不包括系统jar包)。关于Heritrix的安装配置及使用方法在文档末尾给出网址链接。在Eclipse中安装配置完成后,运行Heritrix.java启动爬虫,在浏览器地址栏中输入:...

    Heritrix 网络爬虫

    Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project. Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix...

Global site tag (gtag.js) - Google Analytics