Heritrix & Nutch
二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地,使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成本地文件及相应的日志信息等。
Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。
二者的差异:
Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌
Nutch 可以修剪内容,或者对内容格式进行转换。
Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。
Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。
Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多。
Heritrix工作原理:
Heritrix是一个爬虫框架,可加如入一些可互换的组件。它的执行是递归进行的,主要有以下几步:
在预定的URI中选择一个。
获取URI
分析,归档结果
选择已经发现的感兴趣的URI。加入预定队列。
标记已经处理过的URI
分享到:
相关推荐
综合搜索引擎与垂直搜索引擎作为互联网信息服务的两大主要工具,正日益成为人们检索和获取信息的重要途径。在本文中,我们将探讨两者在信息服务模式上的差异,以及它们之间的竞争与合作关系,并展望垂直搜索引擎未来...
### 最全的国外搜索引擎提交入口知识点详解 #### 一、引言 随着互联网技术的不断发展,搜索引擎成为人们获取信息的主要渠道之一。对于从事外贸业务的企业和个人来说,将网站提交到国外各大搜索引擎及网站目录,是...
搜索引擎的发展历程可以分为五个阶段:第一个阶段是传统搜索引擎的诞生和发展,第二个阶段是智能搜索引擎的出现和发展,第三个阶段是搜索引擎的深度学习和整合,第四个阶段是搜索引擎的云计算和大数据整合,第五个...
《走进搜索引擎》是一本搜索引擎原理与技术的入门书籍,面向那些有志从事搜索引擎行业的青年学生、需要完整理解并优化搜索引擎的专业技术人员、搜索引擎的营销人员,以及网站的负责人等,是从事搜索引擎开发的工程...
搜索引擎是互联网上获取信息的关键工具,其基本工作原理主要包括三个主要步骤:抓取网页、处理网页和提供检索服务。搜索引擎的爬虫程序(Spider)通过网络中的超链接不断抓取网页,形成网页快照。抓取过程中,搜索...
【搜索引擎概述】 搜索引擎是互联网上用于寻找信息、网站、文件等各类资源的重要工具。它们通过爬取、索引和排名网络上的网页,帮助用户快速、有效地找到所需内容。本篇文章将详细探讨一些知名的国外搜索引擎,包括...
然而,传统搜索引擎的搜索结果往往不够准确,下载速度也慢,让人感到非常烦恼。今天,我要向大家介绍一种新的搜索方式——磁力搜索引擎。 磁力搜索引擎是一种基于P2P技术的搜索工具,它可以帮助我们快速找到各种类型...
【无极搜索引擎 v1.0_gss.zip】是一款先进的搜索引擎技术的实现,旨在提供高效、精准的网络数据检索服务。这个压缩包包含了该搜索引擎的核心组件和相关文档,为用户提供了全面了解和使用无极搜索引擎的资源。 在...
《搜索引擎营销实训》课程教学大纲旨在让学生深入了解互联网营销的基础理论,特别是搜索引擎营销(SEM)的实践操作技巧。课程结合理论与实践,旨在培养学生的实际操作能力和营销策略制定能力。 课程内容分为六个...
【搜索引擎网站ASP源码】是一种基于Active Server Pages(ASP)技术构建的网页应用程序,用于实现类似于百度这样的搜索引擎功能。在ASP技术中,开发者可以利用服务器端脚本编写动态网页,处理用户请求并返回相应的...
【标题】:“百度google综合搜索引擎源码”涉及的是搜索引擎技术的整合与开发,尤其是将百度和Google这两大主流搜索引擎的功能进行结合。搜索引擎源码通常包括爬虫、索引构建、查询处理、排序算法以及用户界面等多个...
标题中的“集合众多搜索引擎 第一搜索网站 万能超级搜索引擎V7.1”指的是一个集成多种搜索引擎功能的在线平台,可能是一个聚合型的搜索引擎工具,旨在提供一站式的搜索体验。这种工具通常会整合Google、Bing、百度等...
搜索引擎是互联网上至关重要的工具,它使得用户能够高效地找到所需的信息。本项目提供了一套用Java和JSP(JavaServer Pages)编写的搜索引擎源代码,这对于学习和理解搜索引擎的工作原理,以及Java后端开发与Web交互...
《qBittorrent搜索引擎插件深度解析》 在数字化时代,高效、便捷的资源获取工具是必不可少的。qBittorrent作为一款免费且开源的BitTorrent客户端,深受广大用户的喜爱。而今天我们要深入探讨的是qBittorrent的一个...
【搜索引擎提交入口】是网站管理员或SEO优化人员用于将新创建或更新的网站提交到各大搜索引擎,以便于被搜索引擎快速收录和索引的关键途径。这些入口是搜索引擎为网站所有者提供的一个官方渠道,通过提交URL,可以...
java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+数据库).zip java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+数据库).zip java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+...
【标题】"搜猫搜索引擎源码|仿百度搜索引擎源码"揭示了这是一份与搜索引擎相关的源代码,特别提到了“搜猫”品牌,并模仿了知名的百度搜索引擎的某些功能或设计。这个源码可能是用于学习、研究或者开发自己的搜索...
在IT领域,爬虫搜索和搜索引擎是至关重要的技术,它们为获取、整理和提供网络上的海量信息提供了有效手段。本文将深入探讨这些概念,并通过一个简单的Java爬虫程序实例进行说明。 首先,让我们理解什么是爬虫。爬虫...
搜索引擎是一类基础的互联网应用,在网民的日常信息获取活动中占据着十分重要的地位。在 PC 互联网时代,搜索引擎一直是网民使用各类互联网服务的主要入口,而在移动互联网时代,由于受到手机端各类垂直应用的分流...