网络爬虫-Heritrix 和 Nutch比较与分析

deepfuture

浏览: 4440756 次
性别:
来自: 湛江

最近访客更多访客>>

linxl2011

mars36

jccz_zys

zkm0309

博主相关

博客

微博

相册

留言

关于我

博客专栏

: SQLite源码剖析
浏览量：80503

: WIN32汇编语言学习应用...
浏览量：71113

: 神奇的perl
浏览量：104440

: lucene等搜索引擎解析...
浏览量：288189

: 深入lucene3.5源码...
浏览量：15231

: VB.NET并行与分布式编...
浏览量：68766

: silverlight 5...
浏览量：32730

: 算法下午茶系列
浏览量：46418

文章分类

社区版块

存档分类

博客分类：

搜索引擎

Web 框架 Apache

Heritrix 和 Nutch。二者均为Java开源框架，Heritrix 是 SourceForge上的开源产品，Nutch为Apache的一个子项目，它们都称作网络爬虫/蜘蛛（ Web Crawler），它们实现的原理基本一致：深度遍历网站的资源，将这些资源抓取到本地，使用的方法都是分析网站每一个有效的URI，并提交Http请求，从而获得相应结果，生成本地文件及相应的日志信息等。

下面是二者的介绍，摘自网络：

Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒，不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整，允许弹性的定义要获取的URL。

二者的差异：

Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌

Nutch 可以修剪内容，或者对内容格式进行转换。

Nutch 保存内容为数据库优化格式便于以后索引；刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。

Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。

Nutch 的定制能力不够强，不过现在已经有了一定改进。Heritrix 可控制的参数更多

分享到：

元胞自动机 | 网络爬虫调研报告

2009-12-23 20:38
浏览 2520
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

网络爬虫-Heritrix 和 Nutch比较与分析

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

网络爬虫-Heritrix 和 Nutch比较与分析

评论

发表评论

相关推荐

lucene3.5之Bits

lucene3.5之SmallFloat

lucene 3.5之SimpleStringInterner

lucene3.5之ToStringUtils

lucene3.5之StringHelper

lucene3.5之StringInterner

lucene的until包当前lucene的版本号

LucenePackage 包获取当前lucene包信息

linux下的简单中文分词器-dpSegmentation

搜狗实验室(Sogou Labs)

搜索引擎开发lucene-笔者博客的大部分lucene习作源码

搜索引擎中网络爬虫的设计分析(转)

lucene-内存索引、内存索引保存在硬盘、索引优化

lucene-索引的优化和索引过程查看

lucene-索引信息、索引删除、索引删除恢复、索引物理删除

lucene-内存索引、内存索引保存在硬盘、索引优化

lucene-索引文件格式

lucene-对每个字段指定分析器及较复杂搜索页面(对QQ国内新闻搜索)

lucene-使用lius解析html

lucene-使用lius解析pdf、ppt、rtf、txt、xml

最近访客更多访客>>