`
ibc789
  • 浏览: 5070 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

Nutch框架

 
阅读更多

在接触到一个新的事物的时候,根据人的认知过程,我们势必要知道这个新事物的是什么,即What;然后,便是为什么要认知这个新的事物,如果没有任何理由的话说明完全没有必要去了解它,因为它可能对我们没有一点用处,这就是所谓的Why;接着就是How,该如何认知一个新的事物,使用什么样的方式和手段,只有在通过逐步的迭代执行What这个步骤和实施How,我们才能逐步了解、认识、理解这个新事物,使其为我所使用。

这里,我们主要对What和Why进行阐述。

Nutch简介

Nutch是一个使用Java编写的开源的搜索引擎框架,这就是关于Nutch的What的初步认识。既然是搜索引擎框架,自然而然是实现了类似于搜索引擎的功能,这是在你知道百度、Google等搜索引擎是干什么用的(即搜索引擎的功能)这个基础上理解的。

能否具体一点呢?关于Nutch更加详细的信息,这里要谈到开源框架Lucene,Nutch是Lucene工程的一个子项目,它们之间是存在联系的,引用一段文字说明:

Nutch 是基于 Lucene的。Lucene为 Nutch 提供了文本索引和搜索的API。

一个常见的问题是;我应该使用Lucene还是Nutch?最简单的回答是:如果你不需要抓取数据的话,应该使用Lucene。

常见的应用场合是:你有数据源,需要为这些数据提供一个搜索页面。在这种情况下,最好的方式是直接从数据库中取出数据并用Lucene API建立索引。

通过上面引用的叙述,可以知道,Nutch应该具有抓取数据的功能。在获取到抓取的数据以后,就可以使用Lucene提供的API实现文本索引和信息检索。

Nutch架构

然后,Nutch具有了抓取数据的功能,它还具有那些功能呢?即更深一层的What执行——能做些什么。

Nutch 能够提供了我们运行自己的搜索引擎所需的全部工具。至于提供了哪些工具呢?这就需要从Nutch的架构设计来探讨:

总体上Nutch的架构可以分为2个部分:抓取部分和搜索部分。

1、抓取程序:

抓取程序是被Nutch的抓取工具驱动的。这是一组工具,用来建立和维护几个不同的数据结构: web database, a set of segments, and the index。下面我们逐个解释上面提到的3个不同的数据结构。

(1) web database

The web database,或者WebDB, 是一个特殊存储数据结构,用来映像被抓取网站数据的结构和属性的集合。WebDB 用来存储从抓取开始(包括重新抓取)的所有网站结构数据和属性。WebDB 只是被 抓取程序使用,搜索程序并不使用它。WebDB 存储2种实体:页面 和 链接。页面 表示 网络上的一个网页,这个网页的Url作为标示被索引,同时建立一个对网页内容的MD5 哈希签名。跟网页相关的其它内容也被存储,包括:页面中的链接数量(外链接),页面抓取信息(在页面被重复抓取的情况下),还有表示页面级别的分数 score 。链接 表示从一个网页的链接到其它网页的链接。因此 WebDB 可以说是一个网络图,节点是页面,链接是边。

(2) Segment

Segment 是网页的集合,并且它被索引。 Segment 的 Fetchlist 是抓取程序使用的 url 列表 , 它是从 WebDB中生成的。Fetcher 的输出数据是从 fetchlist 中抓取的网页。Fetcher 的输出数据先被反向索引,然后索引后的结果被存储在segment 中。 Segment 的生命周期是有限制的,当下一轮抓取开始后它就没有用了。默认的 重新抓取间隔是30天。因此删除超过这个时间期限的segment是可以的。而且也可以节省不少磁盘空间。Segment 的命名是 日期加时间 ,因此很直观的可以看出他们的存活周期。

(3) Index

索引库是反向索引所有系统中被抓取的页面,他并不直接从页面反向索引产生,它是合并很多小的 segment 的索引中产生的。Nutch 使用 Lucene 来建立索引,因此所有 Lucene 相关的工具 API 都用来建立索引库。需要说明的是 Lucene 的 segment 的概念 和 Nutch 的 segment 概念是完全不同的,不要混淆哦。 可以参考车东(www.chedong.com)的相关文章。简单来说 Lucene 的 segment 是 Lucene 索引库的一部分,而 Nutch 的 Segment 是 WebDB 中 被 抓取和索引的一部分。

2、搜索程序

搜索程序是在索引库建立以后,在此基础上实现从索引库中检索,满足用户的检索需求。搜索程序需要操作索引库,同时响应客户端用户。

架构综述

抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引。两者都使用索引中的字段。

实际上搜索程序和抓取程序可以分别位于不同的机器上。

Nutch安装

扩展一下关于Nutch:

Nutch 的安装分为3个层次:

基于本地文件系统,基于局域网,或者基于 internet 。

不同的安装方式具有不同的特色。

比如:索引一个本地文件系统相对于其他两个来说肯定是要稳定多了,因为没有网络错误也不同缓存文件的拷贝。基于Internet 的搜索又是另一个极端:抓取数以千计的网页有很多技术问题需要解决:我们从哪些页面开始抓取?我们如何分配抓取工作?何时需要重新抓取?我们如何解决失效的链接,没有响应的站点和重复的内容?还有如何解决对大型数据的上百个并发访问?搭建这样一个搜索引擎是一笔不小的投资呀!在 " Building Nutch: Open Source Search 的作者 Mike Cafarella 和 Doug Cutting 总结如下:

……一个具有完全功能的搜索系统:1亿页面索引量,每秒2个并发索引,需要每月800美元。10亿页面索引量,每秒50个页面请求,大概需要每月30000美元。

可见,Nutch支持分布式处理。

选择Nutch的理由

这里,通过上面已经对Nutch有了一定的了解,在这个基础上,可以执行Why了,即为什么要选择Nutch。引用一段文字:

1、透明度

Nutch是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允许竞价排名,比如百度,这样的索引结果并不是和站点内容相关的。因此 Nutch 对学术搜索和政府类站点的搜索来说,是个好选择。因为一个公平的排序结果是非常重要的。

2、对搜索引擎的理解

我们并没有google的源代码,因此学习搜索引擎Nutch是个不错的选择。了解一个大型分布式的搜索引擎如何工作是一件让人很受益的事情。在写Nutch的过程中,从学院派和工业派借鉴了很多知识:比如:Nutch的核心部分目前已经被重新用 Map Reduce 实现了。看过开复演讲的人都知道 Map Reduce 的一点知识吧。Map Reduce 是一个分布式的处理模型,最先是从 Google 实验室提出来的。你也可以从下面获得更多的消息。
http://www.domolo.com/bbs/list.asp?boardid=29
http://domolo.oicp.net/bbs/list.asp?boardid=29
并且 Nutch 也吸引了很多研究者,他们非常乐于尝试新的搜索算法,因为对Nutch 来说,这是非常容易实现扩展的。

3、扩展性

你是不是不喜欢其他的搜索引擎展现结果的方式呢?那就用 Nutch 写你自己的搜索引擎吧。 Nutch 是非常灵活的:他可以被很好的客户订制并集成到你的应用程序中:使用Nutch 的插件机制,Nutch 可以作为一个搜索不同信息载体的搜索平台。当然,最简单的就是集成Nutch到你的站点,为你的用户提供搜索服务。

具备了上面的认识,应该可以通过更加深化的迭代What来实现How,即如何部署运行Nutch。

分享到:
评论
1 楼 kimmking 2010-01-11  
<div class="quote_title">剽窃 <a href="http://hi.baidu.com/shirdrn/blog/item/f92312ef46bc62e9ce1b3ed7.html">http://hi.baidu.com/shirdrn/blog/item/f92312ef46bc62e9ce1b3ed7.html</a>
</div>
<div class="quote_title">ibc789 写道</div>
<div class="quote_div">
<p>在接触到一个新的事物的时候,根据人的认知过程,我们势必要知道这个新事物的是什么,即What;然后,便是为什么要认知这个新的事物,如果没有任何理由的话说明完全没有必要去了解它,因为它可能对我们没有一点用处,这就是所谓的Why;接着就是How,该如何认知一个新的事物,使用什么样的方式和手段,只有在通过逐步的迭代执行What这个步骤和实施How,我们才能逐步了解、认识、理解这个新事物,使其为我所使用。</p>
<p>这里,我们主要对What和Why进行阐述。</p>
<p><strong>Nutch简介</strong></p>
<p>Nutch是一个使用Java编写的开源的搜索引擎框架,这就是关于Nutch的What的初步认识。既然是搜索引擎框架,自然而然是实现了类似于搜索引擎的功能,这是在你知道百度、Google等搜索引擎是干什么用的(即搜索引擎的功能)这个基础上理解的。</p>
<p>能否具体一点呢?关于Nutch更加详细的信息,这里要谈到开源框架Lucene,Nutch是Lucene工程的一个子项目,它们之间是存在联系的,引用一段文字说明:</p>
<p> </p>
<table border="1" cellspacing="0" cellpadding="3" width="100%"><tbody><tr>
<td>
<p>Nutch 是基于 Lucene的。Lucene为 Nutch 提供了文本索引和搜索的API。</p>
<p>一个常见的问题是;我应该使用Lucene还是Nutch?最简单的回答是:如果你不需要抓取数据的话,应该使用Lucene。</p>
<p>常见的应用场合是:你有数据源,需要为这些数据提供一个搜索页面。在这种情况下,最好的方式是直接从数据库中取出数据并用Lucene API建立索引。</p>
</td>
</tr></tbody></table>
<p>通过上面引用的叙述,可以知道,Nutch应该具有抓取数据的功能。在获取到抓取的数据以后,就可以使用Lucene提供的API实现文本索引和信息检索。</p>
<p><strong>Nutch架构</strong></p>
<p>然后,Nutch具有了抓取数据的功能,它还具有那些功能呢?即更深一层的What执行——能做些什么。</p>
<p>Nutch 能够提供了我们运行自己的搜索引擎所需的全部工具。至于提供了哪些工具呢?这就需要从Nutch的架构设计来探讨:</p>
<p> </p>
<table border="1" cellspacing="0" cellpadding="3" width="100%"><tbody><tr>
<td>
<p>总体上Nutch的架构可以分为2个部分:抓取部分和搜索部分。</p>
<p>1、抓取程序: <br><br>抓取程序是被Nutch的抓取工具驱动的。这是一组工具,用来建立和维护几个不同的数据结构: web database, a set of segments, and the index。下面我们逐个解释上面提到的3个不同的数据结构。 <br><br>(1) web database</p>
<p>The web database,或者WebDB, 是一个特殊存储数据结构,用来映像被抓取网站数据的结构和属性的集合。WebDB 用来存储从抓取开始(包括重新抓取)的所有网站结构数据和属性。WebDB 只是被 抓取程序使用,搜索程序并不使用它。WebDB 存储2种实体:页面 和 链接。页面 表示 网络上的一个网页,这个网页的Url作为标示被索引,同时建立一个对网页内容的MD5 哈希签名。跟网页相关的其它内容也被存储,包括:页面中的链接数量(外链接),页面抓取信息(在页面被重复抓取的情况下),还有表示页面级别的分数 score 。链接 表示从一个网页的链接到其它网页的链接。因此 WebDB 可以说是一个网络图,节点是页面,链接是边。 <br><br>(2) Segment</p>
<p>Segment 是网页的集合,并且它被索引。 Segment 的 Fetchlist 是抓取程序使用的 url 列表 , 它是从 WebDB中生成的。Fetcher 的输出数据是从 fetchlist 中抓取的网页。Fetcher 的输出数据先被反向索引,然后索引后的结果被存储在segment 中。 Segment 的生命周期是有限制的,当下一轮抓取开始后它就没有用了。默认的 重新抓取间隔是30天。因此删除超过这个时间期限的segment是可以的。而且也可以节省不少磁盘空间。Segment 的命名是 日期加时间 ,因此很直观的可以看出他们的存活周期。 <br><br>(3) Index</p>
<p>索引库是反向索引所有系统中被抓取的页面,他并不直接从页面反向索引产生,它是合并很多小的 segment 的索引中产生的。Nutch 使用 Lucene 来建立索引,因此所有 Lucene 相关的工具 API 都用来建立索引库。需要说明的是 Lucene 的 segment 的概念 和 Nutch 的 segment 概念是完全不同的,不要混淆哦。 可以参考车东(<a href="http://www.chedong.com/">www.chedong.com</a>)的相关文章。简单来说 Lucene 的 segment 是 Lucene 索引库的一部分,而 Nutch 的 Segment 是 WebDB 中 被 抓取和索引的一部分。</p>
<p>2、搜索程序</p>
<p>搜索程序是在索引库建立以后,在此基础上实现从索引库中检索,满足用户的检索需求。搜索程序需要操作索引库,同时响应客户端用户。</p>
<p>架构综述</p>
<p>抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引。两者都使用索引中的字段。</p>
<p>实际上搜索程序和抓取程序可以分别位于不同的机器上。</p>
</td>
</tr></tbody></table>
<p><strong>Nutch安装</strong></p>
<p>扩展一下关于Nutch:</p>
<p> </p>
<table border="1" cellspacing="0" cellpadding="3" width="100%"><tbody><tr>
<td>
<p>Nutch 的安装分为3个层次:</p>
<p>基于本地文件系统,基于局域网,或者基于 internet 。</p>
<p>不同的安装方式具有不同的特色。</p>
<p>比如:索引一个本地文件系统相对于其他两个来说肯定是要稳定多了,因为没有网络错误也不同缓存文件的拷贝。基于Internet 的搜索又是另一个极端:抓取数以千计的网页有很多技术问题需要解决:我们从哪些页面开始抓取?我们如何分配抓取工作?何时需要重新抓取?我们如何解决失效的链接,没有响应的站点和重复的内容?还有如何解决对大型数据的上百个并发访问?搭建这样一个搜索引擎是一笔不小的投资呀!在 " Building Nutch: Open Source Search 的作者 Mike Cafarella 和 Doug Cutting 总结如下:<br><br>……一个具有完全功能的搜索系统:1亿页面索引量,每秒2个并发索引,需要每月800美元。10亿页面索引量,每秒50个页面请求,大概需要每月30000美元。</p>
</td>
</tr></tbody></table>
<p>可见,Nutch支持分布式处理。</p>
<p><strong>选择Nutch的理由</strong></p>
<p>这里,通过上面已经对Nutch有了一定的了解,在这个基础上,可以执行Why了,即为什么要选择Nutch。引用一段文字:</p>
<p> </p>
<table border="1" cellspacing="0" cellpadding="3" width="100%"><tbody><tr>
<td>
<p>1、透明度</p>
<p>Nutch是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允许竞价排名,比如百度,这样的索引结果并不是和站点内容相关的。因此 Nutch 对学术搜索和政府类站点的搜索来说,是个好选择。因为一个公平的排序结果是非常重要的。</p>
<p>2、对搜索引擎的理解</p>
<p>我们并没有google的源代码,因此学习搜索引擎Nutch是个不错的选择。了解一个大型分布式的搜索引擎如何工作是一件让人很受益的事情。在写Nutch的过程中,从学院派和工业派借鉴了很多知识:比如:Nutch的核心部分目前已经被重新用 Map Reduce 实现了。看过开复演讲的人都知道 Map Reduce 的一点知识吧。Map Reduce 是一个分布式的处理模型,最先是从 Google 实验室提出来的。你也可以从下面获得更多的消息。 <br>http://www.domolo.com/bbs/list.asp?boardid=29 <br>http://domolo.oicp.net/bbs/list.asp?boardid=29 <br>并且 Nutch 也吸引了很多研究者,他们非常乐于尝试新的搜索算法,因为对Nutch 来说,这是非常容易实现扩展的。</p>
<p>3、扩展性</p>
<p>你是不是不喜欢其他的搜索引擎展现结果的方式呢?那就用 Nutch 写你自己的搜索引擎吧。 Nutch 是非常灵活的:他可以被很好的客户订制并集成到你的应用程序中:使用Nutch 的插件机制,Nutch 可以作为一个搜索不同信息载体的搜索平台。当然,最简单的就是集成Nutch到你的站点,为你的用户提供搜索服务。</p>
</td>
</tr></tbody></table>
<p>具备了上面的认识,应该可以通过更加深化的迭代What来实现How,即如何部署运行Nutch。</p>
</div>
<p> </p>

相关推荐

    nutch框架 搜索引擎

    ### Nutch框架:一个灵活与可扩展的开源搜索引擎 #### 基本概念与起源 Nutch是一款由Nutch组织发起、多个实验室如CommerceNet Labs共同研发的开源Web搜索引擎。其设计初衷旨在提供一个透明、公正的全球网络搜索...

    基于Nutch框架的农业信息垂直搜索引擎研究与设计.docx

    基于Nutch框架的农业信息垂直搜索引擎研究与设计.docx

    Nutch相关框架视频教程

    资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

    Nutch+solr + hadoop相关框架搭建教程

    在 Nutch 框架中,Solr 作为索引和搜索的后端,接收 Nutch 生成的索引数据,提供高级的查询和过滤功能,支持实时搜索。 【Nutch 脚本】 Nutch 的运行主要依赖于一系列脚本,这些脚本控制着爬虫的工作流程,包括生成...

    Nutch相关框架视频教程(20集)

    教程名称:Nutch相关框架视频教程(20集)课程目录:【】Nutch相关框架视频教程01【】Nutch相关框架视频教程02【】Nutch相关框架视频教程03【】Nutch相关框架视频教程04【】Nutch相关框架视频教程05【】Nutch相关...

    Nutch相关框架视频教程 讲义 杨尚川

    ### Nutch相关框架知识点概述 #### 一、Nutch与Hadoop、Tika、Gora的关系 **Nutch**是一个开源的Web抓取框架,它不仅能够帮助开发者抓取网络上的数据,还促进了多个重要开源项目的诞生和发展。通过Nutch项目,衍生...

    Nutch插件开发文档

    1. **Pluggable接口**:这是所有扩展点必须实现的一个通用接口,用于确定一个类是否能够作为插件集成到Nutch框架中。该接口定义了插件与Nutch框架交互的基本规则。 2. **扩展点(Extension Points)**:这些是在...

    nutch2.2.1-src

    1. **Nutch框架**:Nutch的核心框架提供了爬虫的基本架构,包括种子URL的管理、网页抓取、分词、链接分析等。框架设计灵活,支持插件机制,方便开发者根据需求定制。 2. **Fetcher模块**:负责从Web上下载网页。它...

    Nutch入门教程.pdf

    以上内容构成了Nutch入门教程的核心知识点,从简介、安装配置、初体验、基本原理、分析方法、分布式文件系统以及应用等多方面,详细介绍了Nutch框架及其使用方法,为对搜索引擎感兴趣的用户提供了一个全面的学习资源...

    基于Java Nutch的搜索引擎设计与实现毕业设计论文 共52页 2W+字.pdf

    《基于Java Nutch的搜索引擎设计与实现》这篇毕业设计论文主要探讨了如何利用Nutch框架构建第四代搜索引擎,深入分析了搜索引擎的关键技术和策略。Nutch是一个开源的Web爬虫项目,它为构建大规模搜索引擎提供了基础...

    Nutch相关框架视频教程 (1-20)(PDF)

    ### Nutch相关框架知识点概述 #### 一、Nutch与Hadoop、Tika、Gora的关系 1. **Nutch的衍生项目**:Nutch不仅仅是一个独立的项目,它的研究和发展过程中孕育出了多个重要的开源项目,包括Hadoop、Tika和Gora。这...

    全文搜索引擎的设计与实现-学位论文(20210809123240).pdf

    文章采用了Java Web平台和B/S模型,并利用了Nutch框架,包括Nutch、Solr、 Hadoop以及基于Lucene的全网信息的搜集与检查。Nutch基于Lucene构建,是全文搜索引擎开发的一个重要技术栈。 全文搜索引擎的设计与实现,...

    nutch学习视频

    nutch框架视频,20集 ,百度网盘,万一度娘抽疯屏蔽掉的话,评论留Email,我在分享

    nutch

    Hadoop 提供了分布式计算框架,使得 Nutch 能够处理海量的网页数据。Nutch 利用 Hadoop MapReduce 进行分布式任务执行,同时,HBase 通常用于存储 Nutch 的索引数据,提供实时查询功能。 **Nutch 的使用** 学习 ...

    eclipse配置nutch,eclipse配置nutch

    Nutch是一个基于Hadoop的框架,用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页,还能进行内容分析、链接分析以及全文搜索。然而,Nutch的安装和配置可能对初学者来说有些复杂,尤其是在不同的操作系统和开发...

    全文搜索引擎的设计与实现-学位论文.pdf

    Nutch框架 Nutch是一个开源的网络爬虫框架,它允许开发者构建高度可定制的爬虫,用于从互联网上收集数据。Nutch不仅有基本的网页爬取功能,还包括了URL管理、网页内容解析、内容索引、搜索等功能。通过Nutch,可以很...

    nutch2.2.1安装步骤.docx

    Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 2.2.1 是一个稳定版本,它依赖于其他几个组件来完成其功能,包括 Apache Ant、Apache Tomcat、Java 开发工具包...

    Apache Nutch 1.7 学习总结

    Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并进行索引,为搜索引擎提供数据基础。Nutch 1.7 版本是其稳定的一个分支,适用于学习和实际项目应用。本文将详细介绍在Windows和Linux环境下如何...

Global site tag (gtag.js) - Google Analytics