`
zhangyi0618
  • 浏览: 61786 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论
阅读更多
Heritrix & Nutch

二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地,使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成本地文件及相应的日志信息等。
Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。
二者的差异:
Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌
Nutch 可以修剪内容,或者对内容格式进行转换。
Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。
Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。
Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多。


Heritrix工作原理:

Heritrix是一个爬虫框架,可加如入一些可互换的组件。它的执行是递归进行的,主要有以下几步:
在预定的URI中选择一个。
获取URI
分析,归档结果
选择已经发现的感兴趣的URI。加入预定队列。
标记已经处理过的URI
分享到:
评论
1 楼 liuxinglanyue 2010-11-19  
Nutch应该是以广度优先 搜索的吧。

相关推荐

    综合搜索引擎与垂直搜索引擎的比较研究

    综合搜索引擎与垂直搜索引擎作为互联网信息服务的两大主要工具,正日益成为人们检索和获取信息的重要途径。在本文中,我们将探讨两者在信息服务模式上的差异,以及它们之间的竞争与合作关系,并展望垂直搜索引擎未来...

    最全的国外搜索引擎提交入口

    ### 最全的国外搜索引擎提交入口知识点详解 #### 一、引言 随着互联网技术的不断发展,搜索引擎成为人们获取信息的主要渠道之一。对于从事外贸业务的企业和个人来说,将网站提交到国外各大搜索引擎及网站目录,是...

    搜索引擎-传统搜索引擎与智能搜索引擎比较研究.pdf

    搜索引擎的发展历程可以分为五个阶段:第一个阶段是传统搜索引擎的诞生和发展,第二个阶段是智能搜索引擎的出现和发展,第三个阶段是搜索引擎的深度学习和整合,第四个阶段是搜索引擎的云计算和大数据整合,第五个...

    走进搜索引擎.pdf

    《走进搜索引擎》是一本搜索引擎原理与技术的入门书籍,面向那些有志从事搜索引擎行业的青年学生、需要完整理解并优化搜索引擎的专业技术人员、搜索引擎的营销人员,以及网站的负责人等,是从事搜索引擎开发的工程...

    搜索引擎基本工作原理.pdf

    搜索引擎是互联网上获取信息的关键工具,其基本工作原理主要包括三个主要步骤:抓取网页、处理网页和提供检索服务。搜索引擎的爬虫程序(Spider)通过网络中的超链接不断抓取网页,形成网页快照。抓取过程中,搜索...

    国外搜索引擎大全!!!

    【搜索引擎概述】 搜索引擎是互联网上用于寻找信息、网站、文件等各类资源的重要工具。它们通过爬取、索引和排名网络上的网页,帮助用户快速、有效地找到所需内容。本篇文章将详细探讨一些知名的国外搜索引擎,包括...

    磁力搜索引擎,一键获取你想要的资源!

    然而,传统搜索引擎的搜索结果往往不够准确,下载速度也慢,让人感到非常烦恼。今天,我要向大家介绍一种新的搜索方式——磁力搜索引擎。 磁力搜索引擎是一种基于P2P技术的搜索工具,它可以帮助我们快速找到各种类型...

    [搜索链接]无极搜索引擎 v1.0_gss.zip

    【无极搜索引擎 v1.0_gss.zip】是一款先进的搜索引擎技术的实现,旨在提供高效、精准的网络数据检索服务。这个压缩包包含了该搜索引擎的核心组件和相关文档,为用户提供了全面了解和使用无极搜索引擎的资源。 在...

    《搜索引擎营销实训》课程教学大纲.docx

    《搜索引擎营销实训》课程教学大纲旨在让学生深入了解互联网营销的基础理论,特别是搜索引擎营销(SEM)的实践操作技巧。课程结合理论与实践,旨在培养学生的实际操作能力和营销策略制定能力。 课程内容分为六个...

    百度google综合搜索引擎源码

    【标题】:“百度google综合搜索引擎源码”涉及的是搜索引擎技术的整合与开发,尤其是将百度和Google这两大主流搜索引擎的功能进行结合。搜索引擎源码通常包括爬虫、索引构建、查询处理、排序算法以及用户界面等多个...

    集合众多搜索引擎 第一搜索网站 万能超级搜索引擎V7.1

    标题中的“集合众多搜索引擎 第一搜索网站 万能超级搜索引擎V7.1”指的是一个集成多种搜索引擎功能的在线平台,可能是一个聚合型的搜索引擎工具,旨在提供一站式的搜索体验。这种工具通常会整合Google、Bing、百度等...

    搜索引擎源代码用java、jsp编写的搜索引擎源代码

    搜索引擎是互联网上至关重要的工具,它使得用户能够高效地找到所需的信息。本项目提供了一套用Java和JSP(JavaServer Pages)编写的搜索引擎源代码,这对于学习和理解搜索引擎的工作原理,以及Java后端开发与Web交互...

    qBittorrent搜索引擎插件.zip

    《qBittorrent搜索引擎插件深度解析》 在数字化时代,高效、便捷的资源获取工具是必不可少的。qBittorrent作为一款免费且开源的BitTorrent客户端,深受广大用户的喜爱。而今天我们要深入探讨的是qBittorrent的一个...

    各大搜索引擎提交入口

    【搜索引擎提交入口】是网站管理员或SEO优化人员用于将新创建或更新的网站提交到各大搜索引擎,以便于被搜索引擎快速收录和索引的关键途径。这些入口是搜索引擎为网站所有者提供的一个官方渠道,通过提交URL,可以...

    java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+数据库).zip

    java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+数据库).zip java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+数据库).zip java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+...

    搜猫搜索引擎源码|仿百度搜索引擎源码

    【标题】"搜猫搜索引擎源码|仿百度搜索引擎源码"揭示了这是一份与搜索引擎相关的源代码,特别提到了“搜猫”品牌,并模仿了知名的百度搜索引擎的某些功能或设计。这个源码可能是用于学习、研究或者开发自己的搜索...

    爬虫搜索,简单的搜索引擎,java爬虫,搜索引擎例子,爬虫demo,java实现互联网内容抓取,搜索引擎大揭密

    在IT领域,爬虫搜索和搜索引擎是至关重要的技术,它们为获取、整理和提供网络上的海量信息提供了有效手段。本文将深入探讨这些概念,并通过一个简单的Java爬虫程序实例进行说明。 首先,让我们理解什么是爬虫。爬虫...

    2019年中国网民搜索引擎使用情况研究报告.pdf

    搜索引擎是一类基础的互联网应用,在网民的日常信息获取活动中占据着十分重要的地位。在 PC 互联网时代,搜索引擎一直是网民使用各类互联网服务的主要入口,而在移动互联网时代,由于受到手机端各类垂直应用的分流...

    搜索引擎源代码中国搜搜索引擎

    【搜索引擎源代码中国搜搜索引擎】 搜索引擎是互联网上用于查找信息的核心技术,其核心在于通过复杂的算法和数据处理,为用户提供最相关、最准确的搜索结果。"中国搜搜索引擎"是针对中文用户设计的一种搜索引擎,...

Global site tag (gtag.js) - Google Analytics