`
dreambyheart
  • 浏览: 30690 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

Heritrix初探

阅读更多
转载自:http://jason823.iteye.com/blog/84206


一、框架介绍

公司最近项目要用到全文检索,检索对象是一些网站的网页内容,要使用到网络爬虫工具。

      目前技术选型对象主要有两个:Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地,使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成本地文件及相应的日志信息等。

下面是二者的介绍,摘自网络:

    Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。

    二者的差异:

        * Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌
        * Nutch 可以修剪内容,或者对内容格式进行转换。
        * Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。
        * Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。
        * Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多。


二、关于Heritrix使用的初步总结

目前对Heritrix做了初步选型测试,有了一些总结:

1.关于安装:

      目前的版本号为1.12.1,官网地址为 http://crawler.archive.org/。常规安装,即解压到相关目录,之后配置系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。


2.安装的后续工作:

      将 %HERITRIX_HOME%\heritrix-1.12.1.jar 解压到临时目录,拷贝其中的profiles目录到 %HERITRIX_HOME%\conf\目录下,用来解决Heritrix 关于的Profile默认配置的一个Bug。


3.配置管理帐户:

      拷贝 %HERITRIX_HOME%\conf\jmxremote.password.template 到 %HERITRIX_HOME%\下,并且重命名为"jmxremote.password"。之后编辑该文件内容关于密码的部分:
monitorRole  @PASSWORD@         monitorRole  admin
controlRole  @PASSWORD@  ==>  controlRole  admin
      修改完毕之后,保存该文件。并且需要将该文件的属性改为“只读”。然后有很重要的一步:在该文件jmxremote.password的属性窗口中查看“ 安全”标签,该标签下的第一项“组或用户名称”下要确认该文件的所有权应该只隶属于你当前的系统用户,而不应该是某一个用户组(例如 Administrators),这应该是Heritrix安全机制的一个Bug。否则运行Heritrix的时候会报权限错误,需要你修改jmxremote.password文件的属性为“只读”,但是其实已经做了该项改动。


4.运行Heritrix:

      CMD定位到 %HERITRIX_HOME%\bin,执行 "heritrix --admin=admin:admin" 命令,即可启动 heritrix,有一点需要注意,heritrix默认使用8080端口,要保证系统端口没有冲突。之后便可以访问 http://127.0.0.1:8080 使用 heritrix 提供的WUI,即Web管理端。并且使用"admin/admin"登录。
      该管理端提供了Heritrix默认提供的所有配置功能,并且可以创建一个Job并且执行该Job抓取网站。


5.一个简单的Job:
      Heritrix提供的配置功能非常丰富,但是也很复杂,刚开始的时候很难正确的创建并且执行一个Job去抓取网站,自己阅读了大部分的Heritrix用户文档和多次尝试之后,总结了一个简单的创建执行Job的用例,该用例为抓取www.baidu.com下的网页,但子域(如 news.baidu.com)不抓取,步骤如下,可供参考:

    (1) WUI的上边的导航栏选择"Jobs",呈现的第一项是"Create New Job",选择第四小项"With defaults"。输入项的前两项
         Name和Description随意,Seeds非常重要:http://www.baidu.com/ 注意最后一个反斜杠必须。
    
    (2) 选择下边的"Modules",进入Module配置页(Heritrix的扩展功能都是通过模块概念实现的,可以实现自己的模块完成自己
         想要的功能)。其中第一项 "Select Crawl Scope" 使用默认的 "org.archive.crawler.deciderules.DecidingScope"
         。倒数第三项 "Select Writers " 删除默认的 "org.archive.crawler.writer.ARCWriterProcessor" ,后添加
         "org.archive.crawler.writer.MirrorWriterProcessor",这样执行任务的时候抓取到的页面会以镜像的方式放在本地的
         目录结构中,而不是生成ARC存档文件。
    
    (3) 选择"Modules"右边的"Submodules",在第一项内容中 "crawl-order ->scope->decide-rules->rules" 删除掉其
         中的 "acceptIfTranscluded" (org.archive.crawler.deciderules.TransclusionDecideRule) 的这一项抓取作用域的
         规则。否则当Http请求返回301或者302时Heritrix会去抓取其他域下的网页。
    
    (4) 在WUI的第二行导航栏中选择"Settings"进入Job的配置页面,其中主要修改两项:http-headers 下的user-agent 和
         from,他们的"PROJECT_URL_HERE" 和 "CONTACT_EMAIL_ADDRESS_HERE" 替换为自己的内容
        ("PROJECT_URL_HERE" 要以 "http://" 开头)
    
    (5) 在WUI的第二行导航栏中选择最右边的"Submit job"
    
    (6) 在WUI的第一行导航栏中选择第一项的"Console",点击"Start",抓取任务正式开始,时间长短有网络状况和所抓取网站的
         深度有关。

     按照如上步骤应该可以正确的执行一次网站的抓取任务,抓取页面会存放在你的工作目录下的mirror文件夹内。关于Job的创建和执行过程中的各种设置可以在用户手册中查到,都有详细的说明。
分享到:
评论
1 楼 Mydwr 2012-02-20  
嗯真正学习

相关推荐

    网络爬虫Heritrix1.14.4可直接用

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...

    heritrix1.14.0jar包

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页数据。在IT行业中,爬虫是获取大量网络数据的重要手段,Heritrix因其灵活性、可扩展性和定制性而备受青睐。标题...

    heritrix爬虫安装部署

    ### Heritrix爬虫安装部署知识点详解 #### 一、Heritrix爬虫简介 Heritrix是一款由互联网档案馆(Internet Archive)开发的开源网络爬虫框架,它使用Java语言编写,支持高度定制化的需求。Heritrix的设计初衷是为了...

    Heritrix(windows版)

    Heritrix是一款开源的网络爬虫软件,专为大规模网页抓取而设计。这款工具主要用于构建互联网档案馆、搜索引擎的数据源以及其他需要大量网页数据的项目。Heritrix由Internet Archive开发,支持高度可配置和扩展,能够...

    heritrix-1.14.2.zip

    Heritrix 1.14.2 是一个开源的网络爬虫工具,它主要用于抓取互联网上的网页和其他在线资源。这个版本的Heritrix在2007年左右发布,虽然较旧,但它仍然是理解网络爬虫技术的一个重要参考。 Heritrix是一个由Internet...

    heritrix-3.1.0 最新jar包

    Heritrix 3.1.0 是一个强大的网络爬虫工具,主要用于抓取和存档互联网上的网页。这个最新版本的jar包包含了Heritrix的核心功能,为用户提供了一个高效的网页抓取框架。Heritrix的设计理念是模块化和可配置性,使得它...

    很好的heritrix学习资料

    Heritrix是一款强大的开源网络爬虫工具,专为大规模、深度网页抓取设计。这款工具由互联网档案馆(Internet Archive)开发,旨在提供灵活、可扩展的网页抓取框架,适用于学术研究、数据挖掘和历史记录保存等多种用途...

    Heritrix搭建好的工程

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页内容。这款工具被设计为可扩展和高度配置的,允许用户根据特定需求定制爬取策略。在本工程中,Heritrix已经被预...

    开发自己的搜索引擎 lucene + heritrix

    在这个过程中,Lucene 和 Heritrix 是两个非常关键的工具,它们分别在搜索引擎的构建中扮演着不同的角色。 首先,Lucene 是一个基于 Java 的开源信息检索库,它为开发者提供了一系列用于构建搜索引擎的工具和接口。...

    Heritrix使用详解与高级开发应用

    Heritrix是一个强大的Java开发的开源网络爬虫,主要用于从互联网上抓取各种资源。它由www.archive.org提供,以其高度的可扩展性而著称,允许开发者自定义抓取逻辑,通过扩展其内置组件来适应不同的抓取需求。本文将...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    Heritrix是一个开源的网络爬虫工具,专为大规模网页抓取设计。它是由Internet Archive开发的,允许用户系统地、可配置地抓取互联网上的信息。Heritrix的版本1.4.4是一个较旧但仍然有其价值的版本,因其稳定性而被...

    Heritrix3手册翻译

    Heritrix 3 是一款强大的网络爬虫工具,主要用于网页抓取和互联网存档。它在2009年12月发布了3.0.0版本,并随着时间的推移不断更新,提供了3.0.1补丁版和3.2.0版,增加了新的特性和功能,比如更简单的使用方式、持续...

    heritrix正确完整的配置heritrix正确完整的配置

    Heritrix是一款开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页。它的配置是整个爬虫工作的关键,确保Heritrix正确完整地配置对于实现高效、有针对性的网络抓取至关重要。以下将...

    Heritrix的安装与配置

    Heritrix是一个开源的互联网档案爬虫,用于抓取网页并保存为离线存档。在本文中,我们将深入探讨如何安装和配置Heritrix 1.14.4版本,这是一个基于Java的爬虫工具。 首先,我们需要从SourceForge网站下载Heritrix的...

    Heritrix1.14.4(含源码包)

    Heritrix是一款开源的互联网档案爬虫工具,由Internet Archive开发并维护,广泛应用于数据抓取和网络资源保存。Heritrix 1.14.4是该软件的一个较早版本,包含了完整的源码,因此用户可以对其进行深度定制和调试。 ...

    heritrix源码

    Heritrix是互联网档案(Internet Archive)开发的一款开源网络爬虫工具,用于系统地抓取、存储和归档网页。这个“Heritrix源码”压缩包可能包含了Heritrix项目的完整源代码,以及相关的学习资料,对于深入理解...

Global site tag (gtag.js) - Google Analytics