`
deepfuture
  • 浏览: 4398310 次
  • 性别: Icon_minigender_1
  • 来自: 湛江
博客专栏
073ec2a9-85b7-3ebf-a3bb-c6361e6c6f64
SQLite源码剖析
浏览量:80056
1591c4b8-62f1-3d3e-9551-25c77465da96
WIN32汇编语言学习应用...
浏览量:70003
F5390db6-59dd-338f-ba18-4e93943ff06a
神奇的perl
浏览量:103311
Dac44363-8a80-3836-99aa-f7b7780fa6e2
lucene等搜索引擎解析...
浏览量:285650
Ec49a563-4109-3c69-9c83-8f6d068ba113
深入lucene3.5源码...
浏览量:15001
9b99bfc2-19c2-3346-9100-7f8879c731ce
VB.NET并行与分布式编...
浏览量:67511
B1db2af3-06b3-35bb-ac08-59ff2d1324b4
silverlight 5...
浏览量:32116
4a56b548-ab3d-35af-a984-e0781d142c23
算法下午茶系列
浏览量:45966
社区版块
存档分类
最新评论

网络爬虫-Heritrix 和 Nutch比较与分析

阅读更多

Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地,使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成本地文件及相应的日志信息等。

下面是二者的介绍,摘自网络:

 

Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。

 

二者的差异:

 

  • Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌
  • Nutch 可以修剪内容,或者对内容格式进行转换。
  • Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。
  • Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。
  • Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多
分享到:
评论

相关推荐

    网络爬虫Heritrix1.14.4可直接用

    10. **与其他工具集成**:Heritrix可以与其他数据分析、文本挖掘工具集成,如Apache Nutch、Solr、Hadoop等,实现更复杂的网络数据处理流程。 总结来说,Heritrix 1.14.4是一个功能丰富的网络爬虫工具,它的模块化...

    网络爬虫调研报告.docx

    在本报告中,我们将深入探讨网络爬虫的背景、主要研究对象Nutch和Heritrix,以及爬虫的工作策略和流程。 调研背景: 在项目中,网络爬虫扮演着抓取、存储、分类、索引网络资源的角色,为全文检索数据库如Apache的...

    网络爬虫总体介绍

    Nutch不仅包含爬虫功能,还有一套完整的搜索引擎组件,如文本分析、索引和搜索。Nutch的爬虫部分可以配置为只抓取特定类型的网页,或者遵循特定的抓取策略,比如深度优先或广度优先。 Google AJAX API,全称为...

    网络爬虫调研报告样本.doc

    **常见开源网络爬虫的介绍与比较** 1. **Nutch**:基于Java,是Apache Lucene项目的一部分。Nutch是一个完整的网络搜索引擎解决方案,利用Hadoop的分布式处理能力,支持插件机制,易于定制和集成。 2. **Larbin**...

    网络爬虫设计与实现毕业设计论文.pdf

    10. 相关技术工具:文档还列出了在设计网络爬虫时可能使用到的工具和框架,例如Nutch、Larbin和Heritrix。这些工具和框架各有特点,能够帮助开发者更高效地实现网络爬虫的功能。 综上所述,网络爬虫的设计与实现是...

    81个Python爬虫源代码+九款开源爬虫工具.doc

    Python爬虫技术是数据获取和分析领域的重要工具,尤其在互联网信息海量的今天,爬虫可以帮助我们自动化地从网站上抓取大量数据。以下是一些关于Python爬虫的知识点,以及提到的一些开源爬虫工具: 1. **Python爬虫...

    网络爬虫调研报告.doc

    Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地, 使用的方法都是分析网站每一个...

    分布式网络爬虫关键技术分析与实现.docx

    最后,开源的网络爬虫项目如Larbin、Nutch和Heritrix提供了基础框架,但构建自定义爬虫仍需要解决特定场景下的问题,如上述的调度、更新和存储策略。 总之,分布式网络爬虫是处理海量互联网信息的有效手段,其设计...

    网络爬虫调研报告(1).doc

    - **Heritrix**:同样基于Java,与Nutch同为开源框架。Heritrix被誉为“档案爬虫”,专注于获取网站的完整、精确副本,包括图像和其他非文本内容。它不对页面内容做修改,对相同URL的再次爬取也不会覆盖原有数据。...

    网络爬虫调研报告(2).doc

    总之,网络爬虫是构建搜索引擎和大数据分析的基础工具,它们通过自动化流程抓取、处理和索引网络信息,为用户提供丰富的搜索结果。不同的爬虫工具各有特点,适用于不同场景,开发者可以根据需求选择合适的技术方案。...

    lukeall index查看器

    Nutch是另一个开源的网络爬虫,与Heritrix类似,它也基于Apache Lucene。Nutch不仅可以抓取网页,还集成了一个搜索引擎,允许用户在抓取的数据上执行搜索。Nutch通常用于大规模的Web抓取项目,其生成的索引同样可以...

    HW1.1-PB15111604金泽文1

    本篇将围绕三个主流的开源爬虫框架——Heritrix、Nutch和Scrapy进行深入的调研。 首先,Heritrix是一个由Java编写的开源爬虫框架,它的特点是严格遵循robots.txt协议和META robots标签,确保合法和全面地抓取网站...

    网络爬虫设计与实现毕业设计论文(20210809122719).pdf

    - Nutch、Larbin、Heritrix等是文中提及的网络爬虫软件,它们各自具有不同的功能和特点,被广泛应用于网络数据采集和分析。 此外,文档还提到了一些早期的网络爬虫和搜索引擎项目,包括Archie、Wanderer、Lycos、...

    Heritrix—开发自己的搜索引擎

    7. **日志与监控**:Heritrix提供了丰富的日志记录和性能监控功能,帮助开发者了解爬虫运行状态,如抓取速度、错误报告等,以便进行问题排查和优化。 8. **道德与法规**:使用Heritrix进行网页抓取时,必须遵守...

    爬虫技术精髓.pdf

    Java 提供了多种爬虫技术的实现,例如 Nutch、Heritrix 等。 Nutch: Nutch 是 Apache Lucene 的子项目,地址是。Nutch 提供了爬虫的实现,可以爬取大量的文档,并将其存储在一个文件中。Nutch 的优点是性能高、...

Global site tag (gtag.js) - Google Analytics