`
bjxagu
  • 浏览: 166558 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

Heritrix 爬虫与Nutch 爬虫

Web 
阅读更多

在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述:

Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.

没想到过了一会儿,在邮件列表中居然看到了 Gordon Mohr 的发言。看来他也比较关心 Nutch 的发展。

我对 Mohr 的发言整理一下。主要有以下几点:

主要目的不同。 Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。

二者的差异:

  • Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌
  • Nutch 可以修剪内容,或者对内容格式进行转换。
  • Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。
  • Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。
  • Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多。

暂时还没有看到 Doug Cutting 对二者比较的评价.

Heritrix 的架构示意图:

Heritrix Arch.png

Nutch 的架构示意图:

Nutch Architecture.png
分享到:
评论
2 楼 caizhongda 2009-09-21  
不能这么说。。。看你怎么用了,,Heritrix可以选项比较多些。
johnnyhg 写道
Heritrix仅仅是一个网页下载工具而已,跟Nutch那是没法比的。

1 楼 johnnyhg 2008-08-10  
Heritrix仅仅是一个网页下载工具而已,跟Nutch那是没法比的。

相关推荐

    网络爬虫Heritrix1.14.4可直接用

    10. **与其他工具集成**:Heritrix可以与其他数据分析、文本挖掘工具集成,如Apache Nutch、Solr、Hadoop等,实现更复杂的网络数据处理流程。 总结来说,Heritrix 1.14.4是一个功能丰富的网络爬虫工具,它的模块化...

    爬虫技术精髓.pdf

    Java 提供了多种爬虫技术的实现,例如 Nutch、Heritrix 等。 Nutch: Nutch 是 Apache Lucene 的子项目,地址是。Nutch 提供了爬虫的实现,可以爬取大量的文档,并将其存储在一个文件中。Nutch 的优点是性能高、...

    81个Python爬虫源代码+九款开源爬虫工具.doc

    - Heritrix是一个可扩展的Web爬虫,遵循robots.txt规则,适合抓取大量资源。它具有高度定制化能力,便于实现特定的抓取逻辑。 7. **crawler4j**: - crawler4j是简单的Java网络爬虫,提供快速启动多线程爬虫的...

    网络爬虫调研报告.docx

    在本报告中,我们将深入探讨网络爬虫的背景、主要研究对象Nutch和Heritrix,以及爬虫的工作策略和流程。 调研背景: 在项目中,网络爬虫扮演着抓取、存储、分类、索引网络资源的角色,为全文检索数据库如Apache的...

    网络爬虫总体介绍

    Heritrix是一个开源的、可扩展的网络爬虫框架,它由Internet Archive开发,旨在构建大规模、可控的互联网档案。Heritrix的架构由多个模块组成,包括URL调度器、网页下载器、HTML解析器、链接提取器等,这些模块协同...

    网络爬虫设计与实现毕业设计论文.pdf

    10. 相关技术工具:文档还列出了在设计网络爬虫时可能使用到的工具和框架,例如Nutch、Larbin和Heritrix。这些工具和框架各有特点,能够帮助开发者更高效地实现网络爬虫的功能。 综上所述,网络爬虫的设计与实现是...

    分布式网络爬虫关键技术分析与实现.pdf

    分布式网络爬虫是网络数据抓取领域的重要技术,它通过多台计算机...开源项目如Larbin、Nutch和Heritrix提供了参考实现,但每个项目都有其特定的应用场景和优化点,开发者可以根据具体需求选择或定制合适的解决方案。

    Heritrix—开发自己的搜索引擎

    Heritrix本身并不直接提供索引功能,但可以与其他索引工具(如Apache Nutch或Solr)集成,构建完整的搜索引擎解决方案。 7. **日志与监控**:Heritrix提供了丰富的日志记录和性能监控功能,帮助开发者了解爬虫运行...

    网络爬虫调研报告样本.doc

    3. **Heritrix**:同样基于Java,与Nutch类似,是SourceForge上的开源项目。Heritrix和Nutch都采用深度遍历的爬取方式,分析URI并发送HTTP请求获取数据。 这些开源网络爬虫各有特点,选择使用哪种取决于具体需求,...

    爬虫技术精髓.docx

    2. Heritrix:是一个开源的爬虫框架,提供了爬虫技术的实现。 3. Apache Tika:是一个开源的文档解析器,提供了文档解析的实现。 4. JSpider:是一个开源的爬虫引擎,提供了爬虫技术的实现。 5. WebSPHINX:是一个...

    网络爬虫调研报告.doc

    Heritrix 开发语言:Java 简介 与Nutch比较 Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的...

    HW1.1-PB15111604金泽文1

    其次,Nutch是另一个基于Java开发的开源爬虫,它与Google搜索引擎的工作原理相似,采用了Hadoop的分布式处理模型。Nutch分为抓取和搜索两大部分,能够将数据存储在HBase、Cassandra、MySql等多种数据库中。通过其...

    分布式网络爬虫关键技术分析与实现.docx

    最后,开源的网络爬虫项目如Larbin、Nutch和Heritrix提供了基础框架,但构建自定义爬虫仍需要解决特定场景下的问题,如上述的调度、更新和存储策略。 总之,分布式网络爬虫是处理海量互联网信息的有效手段,其设计...

    网络爬虫调研报告(1).doc

    - **Heritrix**:同样基于Java,与Nutch同为开源框架。Heritrix被誉为“档案爬虫”,专注于获取网站的完整、精确副本,包括图像和其他非文本内容。它不对页面内容做修改,对相同URL的再次爬取也不会覆盖原有数据。...

    lukeall index查看器

    Nutch是另一个开源的网络爬虫,与Heritrix类似,它也基于Apache Lucene。Nutch不仅可以抓取网页,还集成了一个搜索引擎,允许用户在抓取的数据上执行搜索。Nutch通常用于大规模的Web抓取项目,其生成的索引同样可以...

    网络爬虫设计与实现毕业设计论文(20210809122719).pdf

    - Nutch、Larbin、Heritrix等是文中提及的网络爬虫软件,它们各自具有不同的功能和特点,被广泛应用于网络数据采集和分析。 此外,文档还提到了一些早期的网络爬虫和搜索引擎项目,包括Archie、Wanderer、Lycos、...

    基于Nutch的Web网站定向

    相比其他几种常见的Web抓取开源软件(如Web-Harvest、WCT、Heritrix),Nutch在抓取过程管理、网页评分、链接解析、内容解析、搜索功能、内容索引功能以及抓取内容完整性等方面表现出色,尤其是在内容索引功能方面,...

Global site tag (gtag.js) - Google Analytics