`

nutch的基本工作流程理解

阅读更多

(一): Nutch 的工作流程:

Crawdb linkdb

web link 目录,存放 url url 的互联关系,作为爬行与重新爬行的依据。

segments

是主目录,存放抓回来的网页。页面内容有 bytes[] raw content parsed text 的形式。 nutch 以广度优先的原则来爬行,因此每爬完一轮会生成一个 segment 目录。

index

lucene 的索引目录,是 indexes 目录里所有 index 合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问 segments 目录才能获得页面内容。

(一):流程综述:

1 】: inject start urls

注入抓取 URL 。因为 Nutch 的抓取程序是要抓取网页,而定位到某个网页需要制定一个 URL, 所以 Nutch 按照广度遍历策略进行抓取,会根据一开始指定的 URL, 也可以是一个 URLS 集合,以此基础进行抓取工作。

2 】: generate segment

生成 segment Nutch 抓取程序需要抓取到很多的页面,那么具体是哪些页面的?当然,在互联网上是通过 URL 来定位的。这一步骤主要是对上一步提交的 URL 集合进行分析,确定抓取任务的详细信息。

3 fetch list

分析提交的 URL 集合之后,建立一个抓取任务列表。在以后的抓取工作中就可以根据预处理的此列表进行工作了。

4 】: www

这是通过访问万维网 (www) ,实现抓取工作。

5 】: fetch content

开始根据前面生成的抓取任务列表中指定的 URL 对应的页面,这时候开始抓取工作了。

6 】: fetched content

需要将抓取到的这些页面文件存放到指定的位置,这些页面文件可以是经过简单预处理以后而被存储到文件系统中,也可以是原生的网页文件,以备后继流程基于这些文件来进一步处理,比如分词,建立索引。

content parser

内容解析器。抓取到的页面文件被提交到这里,实现对页面文件的处理,包括页面文件的分析和处理。

7 】: parse content

当然,我们抓取的数据是结构和内容非常复杂的数据,而我们感兴趣的主要是文件的内容,因为基于关键字检索的搜索引擎的实现,都是根据文本内容来实现的。

8 】: parsed text & data

通过 content parser 解析器,最终获取到的就是文本内容和其它一些可能需要用到的数据。有了这些可以识别的文本内容和数据,就可以基于此来建立索引库,而且需要将本次抓取任务的详细信息登录到 crawlDB ,为下次抓取任务提供有用的信息 ( 比如:避免重复抓取相同的 URL 指定的页面 )

因此接下来分为两个方向:一个是索引,一个是更新 crawlDB 并继续执行抓取任务:

9 】: indexing

这是一个索引的过程,对分析处理完成并提交的文本及其数据建立索引,通过索引文件就可以实现信息的检索功能了。建立索引过程中,由于是基于 Lucene 的,所以用到了 Analyzer 分析器,对预处理的文件进行分析、过滤、分词等等,最后将写入到索引库,供搜索程序工作使用。

10 】: update crawlDB with new extracted urls

根据网页分析处理获取到的信息,更新 crawlDB( 爬行数据库 ) ,并根据提取到的抓取任务已经注入的 URLs 循环执行抓取任务。

(二): Nutch 工作流程总结

上面的流程已经分析地非常透彻了,参考一些资料做个总结吧。通过下面总结的工作流程,理清思路,很有帮助的,如下所示, Nutch 的工作流程描述:

抓取程序工作流程

(1.) 建立初始 URL

(2.) URL 集注入 crawldb 数据库 ---inject

这一步骤,上面的图中没有涉及到。既然需要维护一个 crawlDB ,那么在任何时候只要与抓取任务有关的而且是有用的信息都会被写入 crawlDB

(3.) 根据 crawldb 数据库创建抓取列表 ---generate

(4.) 执行抓取,获取网页信息 ---fetch

(5.) 更新数据库,把获取到的页面信息存入数据库中 ---updatedb

(6.) 重复进行 3 5 的步骤,直到预先设定的抓取深度。 --- 这个循环过程被称为“产生 / 抓取 / 更新”循环

(7.) 根据 sengments 的内容更新 linkdb 数据库 ---invertlinks

(8.) 建立索引 ---index

搜索程序工作流程

(1.) 用户通过用户接口进行查询操作

(2.) 将用户查询转化为 lucene 查询

(3.) 从索引库中提取满足用户检索需求的结果集

(4.) 返回结果


原文件出自:http://p-x1984.iteye.com/blog/521828

分享到:
评论

相关推荐

    Nutch爬虫工作流程及文件格式详细分析

    本文将详细分析Nutch爬虫的工作流程和涉及的主要文件格式。 首先,Nutch爬虫(Crawler)的核心任务是抓取互联网上的网页,并构建一个链接结构的数据库,称为WebDB。WebDB包含两类实体:Page和Link。Page实体记录了...

    nutch使用&Nutch;入门教程

    入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务。 一、Nutch简介 Nutch是一个基于Java的开源搜索引擎,其主要功能包括网页抓取、链接分析、网页排名和索引。Nutch的设计...

    nutch入门.pdf

    Nutch基本原理分析包括Nutch的基本组成和工作流程。它解释了Nutch如何组成、如何工作以及工作流程的细节。 工作流程分析部分进一步深入讲解了Nutch的各个组成部分,包括爬虫、索引、搜索和分析等。爬虫部分讨论了...

    nutch帮助文档;nutch学习 入门

    - **学习源码**:深入阅读Nutch的源码,理解其内部机制和工作流程。 - **实践项目**:尝试建立自己的小规模搜索引擎项目,应用Nutch解决实际问题。 5. **参考资料** - 官方文档:Apache Nutch官网提供了详细的...

    eclipse配置nutch,eclipse配置nutch

    因此,利用Eclipse作为开发工具,可以简化Nutch的配置流程,提供一个友好的图形界面来管理项目和代码,同时利用其强大的调试功能,帮助开发者快速定位和解决问题。 ### 二、Eclipse配置Nutch的步骤详解 #### 步骤1...

    分享一个Nutch入门学习的资料

    标签“源码”意味着这个学习资料可能涉及Nutch的源代码分析,这对于深入理解Nutch的工作原理至关重要。通过阅读源码,学习者可以了解Nutch如何实现URL的发现、页面下载、解析、分词、索引等关键功能。此外,源码分析...

    nutch入门教程

    Nutch基本原理分析 **4.1 Nutch的基本组成** Nutch由多个核心组件构成,包括爬虫(负责网页抓取)、索引器(负责建立和更新索引)、以及搜索服务(负责响应用户的搜索请求)。 **4.2 Nutch工作流程** Nutch的...

    nutch初体验

    2. **《nutch入门学习.pdf》**:这可能是更深入的学习资料,可能包含实战案例和高级特性的讲解,帮助进阶者理解Nutch的内在工作机制。 **五、实践操作** 学习Nutch通常包括以下步骤: 1. **环境准备**:安装Java...

    Nutch入门教程 高清 带书签

    这个“Nutch入门教程 高清 带书签”的资源,很显然是为了帮助初学者快速理解并掌握Nutch的基本操作和核心概念。下面,我们将深入探讨Nutch的相关知识点。 一、Nutch简介 Nutch是一个强大的Web爬虫框架,它提供了从...

    nutch2.2.1

    通过学习和研究Nutch 2.2.1的源码,你可以了解到网络爬虫的基本工作流程,理解如何处理大量网页数据,以及如何使用Hadoop进行分布式计算。这对于想要从事大数据处理、搜索引擎开发或网络信息采集的开发者来说,是一...

    Nutch搜索引擎·Nutch浅入分析(第5期)

    Nutch搜索引擎的基本原理和组成是互联网搜索引擎开发领域的重要知识点。...在理解Nutch的基本原理和工作流程后,开发者可以更好地掌握其运行机制,进而利用Nutch进行更加深入的搜索引擎开发和研究。

    nutch-1.5.1源码

    1. **网络爬虫的设计与实现**:理解网页抓取的基本流程,包括URL管理、下载策略和网页解析。 2. **大规模文本处理**:了解如何使用Hadoop进行分布式计算,处理大量网页数据。 3. **全文检索技术**:深入学习Apache ...

    nutch架构图

    Nutch的架构图可以帮助我们理解其工作流程和组件间的交互,这对于学习和入门Nutch至关重要。 首先,让我们从"Injector.png"开始,这个组件是Nutch工作流程的起点。Injector的作用是将初始URL种子注入到CrawlDB...

    nutch工具包

    这个"nutch工具包"包含了Nutch 1.5的源代码,对于想要深入理解Nutch工作原理或者进行二次开发的人员来说非常有价值。 1. **Nutch 概述**:Nutch 是基于Java开发的,它集成了Hadoop框架,用于分布式爬虫任务。Nutch...

    nutch2.2.1-src

    通过学习和研究Nutch源码,开发者不仅可以了解网络爬虫的工作流程,还可以学习到分布式计算、文本处理、搜索算法等多方面的知识。这对于构建自己的搜索引擎系统,或者在大数据领域进行深度开发有着极大的帮助。同时...

    Nutch_插件深入研究

    通过深入了解和掌握Nutch插件开发流程,结合Mysql数据存储方案,开发者可以轻松定制和扩展Nutch的功能,满足各种复杂的需求。无论是对于个人开发者还是企业级应用,Nutch都提供了丰富的可能性和无限的潜力。

    nutch-analysis.rar_nutch

    在这个文档中,我们将深入探讨Nutch的数据集基本组成以及其工作流程。 **一、Nutch数据集的基本组成** 1. **Segments**: Nutch将抓取的网页数据存储在称为Segment的文件夹中,每个Segment包含了一组在特定时间抓取...

    Nutch入门教程

    6. Nutch基本原理分析 Nutch的基本组成和工作流程被详细讲解,包括爬虫的策略和流程、索引的主要过程、倒排索引等原理性内容。 7. Nutch工作流程分析 工作流程分析进一步深入到爬虫的工作策略和流程、索引过程、...

Global site tag (gtag.js) - Google Analytics