`
peigang
  • 浏览: 172147 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch segment目录结构说明

 
阅读更多

content

    包含下载页面的原始数,存储为map文件,格式是<url,Content>。为了展示缓存也页的视图,这里使用文件存储数据,因为Nutch需要对文件做快速随机的访问。

crawl_generate

    它包含将要爬取的URL列表以及从CrawlDb取到的与这些URL页相关的当前状态信息,对应的顺序文件的格式<url,CrawlDatum>。这个数据采用顺序文件存储原因有二:第一,这些数据是按顺序逐个处理的;第二,map文件排序值的不变性不能满足我们的要求。我们需要尽量分散属于同一台主机的URL,以此减少每个目标主机的负载,这就意味着激烈信息基本上是随机排列的。

crawl_fetch

    它包含数据爬取的状态信息,即爬取是否成功相应码是什么,等等。这个数据存储在map文件里,格式是<url,CrawlDatum>。

crawl_parse

     每个成功爬取并解析的页面的出链接列表都保存在这里,因此Nutch通过学习新的URL可以扩展它的爬取前端页。

parse_date

    解析过程中收集的元数据,其中还有页面的出链接(frontier)列表。这些信息对于建立反向图(入链接-ink)是相当关键的。

parse_text

    页面的纯文本内容适合用Lucene进行索引。这些纯文本存储成map文件,格式是<url,ParseText>,因此要展示搜索结果列表的概要信息(摘要)的时候,Nutch可以快速地访问这些文件。

分享到:
评论

相关推荐

    Nutch 0.8笔记NUTCHNUTCH

    Nutch 的日志信息现在被默认输出到 `/logs` 目录下,除非在配置文件中将 `fetcher.verbose` 设置为 `true`。Luke 工具对于查看和理解索引内容非常有用,而 Nutch 在 Windows 上运行需要借助 Cygwin。此外,Nutch 0.8...

    Nutch爬虫工作流程及文件格式详细分析.doc

    Nutch使用Lucene技术进行索引,但Nutch的Segment与Lucene的Segment概念不同。Nutch的Segment仅存储单次抓取的网页信息,而合并后的Index才是完整的索引库。 5. **循环抓取**: - 此过程被称为“产生/抓取/更新”...

    nutch2.2.1

    在解压`nutch-branch-2.2.1`后,你可以看到以下目录结构: - `src`: 源代码目录,包含了所有Nutch的Java源码。 - `conf`: 配置文件,如`nutch-default.xml`和`nutch-site.xml`,需要根据实际需求进行调整。 - `bin`:...

    分布式搜索引擎nutch开发

    - **Segments生成**:抓取的网页被分组到Segment中,每个Segment包含一组网页。 - **Fetcher**:下载网页内容。 - **Parser**:解析HTML,提取文本和元数据。 - **Analyzer**:对文本进行分词和词干化。 - **...

    nutch根据URL来查找快照

    Nutch 是一个开源的搜索引擎项目,它主要用于抓取和索引网页内容,为用户提供搜索功能。在Nutch的工作流程中,"快照"扮演着重要角色。...记住,理解Nutch的工作原理和数据结构是高效利用它的关键。

    nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling

    《Nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling》一文深入介绍了Nutch这一开源网络爬虫框架的基本概念、体系结构及其关键组件,为初学者提供了全面的理解视角。以下是对该文章核心知识点的详细解读...

    nutch入门教程

    Segment是Nutch用于组织和管理抓取数据的单元,每个segment代表一次抓取活动,包含了该次抓取的所有数据和元数据。 **6.4 Index** Index是Nutch中存储索引信息的部分,包括文档的索引项、词频、位置等,用于快速...

    nutch架构图

    Fetcher负责网络通信,下载网页,并将其存储为Segment,这是Nutch的基本处理单元。 "Parse segment.png"可能涉及Parse阶段,Segment被送入Parser进行处理,提取出内容、元数据等,然后形成解析段。 "LinkDb ...

    nutch使用文档

    Nutch 爬取内容解析是指 Nutch 爬虫爬取网页内容并将其解析成结构化数据的过程。Nutch 的输出文件包括 Crawldb、Linkdb、Segments 和 Indexes 等。 Crawldb Crawldb 是 Nutch 的爬虫数据库,用于存储爬虫爬取的...

    Nutch搜索引擎·Nutch浅入分析(第5期)

    2. 生成段落(Segment):对提交的URL集合进行分析,确定具体的抓取任务细节,然后生成一个包含抓取任务列表的段落。 3. 获取内容(Fetch Content):根据上一步生成的抓取任务列表,访问互联网并获取页面内容,...

    nutch-analysis.rar_nutch

    1. **Segments**: Nutch将抓取的网页数据存储在称为Segment的文件夹中,每个Segment包含了一组在特定时间抓取的网页。Segments是Nutch处理网页的基本单位,它们包含了原始的HTML内容、元数据以及链接信息。 2. **...

    Nutch爬虫工作流程及文件格式详细分析

    首先,Nutch爬虫(Crawler)的核心任务是抓取互联网上的网页,并构建一个链接结构的数据库,称为WebDB。WebDB包含两类实体:Page和Link。Page实体记录了网页的基本信息,如URL、内容的MD5摘要、抓取时间以及网页的...

    Nutch使用总结 信息检索 建立索引 搜索引擎

    - **segread TOOL**: 这个工具用于读取Nutch生成的segment文件,展示其内容,帮助开发者理解数据结构。 - **nutch analyze db**: 分析数据库中的数据,提供有关抓取和索引的信息。 - **分词插件**: Nutch支持使用第...

    nutch0。9版本

    2. **分块(Segment)**:Nutch 抓取的网页被分成称为“块”的逻辑单位,每个块包含一定数量的页面。这种分块策略有助于管理和并行化数据处理,提高整体性能。 3. **链接分析(Link Analysis)**:Nutch 包含 ...

    学习lucene和nutch爬虫代码

    Nutch的索引数据结构直接基于Lucene,使得搜索结果能够快速返回。同时,Nutch还提供了丰富的插件机制,可以扩展其功能,例如支持其他格式的文件解析、自定义分词器等。 **学习资源与实践** 对于初学者来说,"学习...

    大数据第一次作业1

    在大数据领域,Nutch是一个广泛使用的...理解Nutch的数据结构和工作原理对于优化爬虫性能、提高搜索引擎质量至关重要。在实际应用中,可能需要根据具体需求调整Nutch的配置,如爬行策略、索引参数等,以达到最佳效果。

Global site tag (gtag.js) - Google Analytics