nutch segment目录结构说明 - Programme Experience - ITeye博客

`

peigang

浏览: 174801 次
性别:
来自: 北京

最近访客更多访客>>

yxmzhg

yexiaoshunfeier

wd1282988143

the12thwolf

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

小桔子： u 棒棒哒！按照你的搞定了，之前搞了好久！u 棒棒哒！！！ ...
Ubuntu为Tomcat启用80端口
u011938035：我用的是nutch1.7，org.apache.nutch.n ...
nutch1.4 URLNormalizers 详解
peigang：试试跟踪一下脚本，应该是环境变量的问题。
nutch1.4：爬虫定时抓取设置
zhangmj10：你好，看这帖子是好久以前的，不知道你能不能看到。不知道能不能帮 ...
nutch1.4：爬虫定时抓取设置
shinide1989：楼主你好，我正需要修改html的解析，并想把结果存为其他格 ...
nutch1.4插件开发

nutch segment目录结构说明

阅读更多

content

包含下载页面的原始数，存储为map文件，格式是<url,Content>。为了展示缓存也页的视图，这里使用文件存储数据，因为Nutch需要对文件做快速随机的访问。

crawl_generate

它包含将要爬取的URL列表以及从CrawlDb取到的与这些URL页相关的当前状态信息，对应的顺序文件的格式<url,CrawlDatum>。这个数据采用顺序文件存储原因有二：第一，这些数据是按顺序逐个处理的；第二，map文件排序值的不变性不能满足我们的要求。我们需要尽量分散属于同一台主机的URL，以此减少每个目标主机的负载，这就意味着激烈信息基本上是随机排列的。

crawl_fetch

它包含数据爬取的状态信息，即爬取是否成功相应码是什么，等等。这个数据存储在map文件里，格式是<url,CrawlDatum>。

crawl_parse

每个成功爬取并解析的页面的出链接列表都保存在这里，因此Nutch通过学习新的URL可以扩展它的爬取前端页。

parse_date

解析过程中收集的元数据，其中还有页面的出链接(frontier)列表。这些信息对于建立反向图(入链接-ink)是相当关键的。

parse_text

页面的纯文本内容适合用Lucene进行索引。这些纯文本存储成map文件，格式是<url,ParseText>，因此要展示搜索结果列表的概要信息(摘要)的时候，Nutch可以快速地访问这些文件。

分享到：

Ubuntu开启root用户及其它登录问题的解决 | JSTL 1.2.x guide

2011-08-15 11:19
浏览 1520
评论(0)
分类:行业应用
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Nutch 0.8笔记NUTCHNUTCH: Nutch 的日志信息现在被默认输出到 `/logs` 目录下，除非在配置文件中将 `fetcher.verbose` 设置为 `true`。Luke 工具对于查看和理解索引内容非常有用，而 Nutch 在 Windows 上运行需要借助 Cygwin。此外，Nutch 0.8...

nutch的源码解读和nutch入门: Nutch 的源码结构清晰，适合学习和定制，可以方便地集成到自己的应用程序中。 Nutch 的主要组成部分包括以下几个方面： 1. **Crawling（爬行）**：Nutch 的爬行过程由 `Crawl` 类控制，遵循广度优先的策略。它从...

Nutch爬虫工作流程及文件格式详细分析.doc: Nutch使用Lucene技术进行索引，但Nutch的Segment与Lucene的Segment概念不同。Nutch的Segment仅存储单次抓取的网页信息，而合并后的Index才是完整的索引库。 5. **循环抓取**： - 此过程被称为“产生/抓取/更新”...

nutch2.2.1: 在解压`nutch-branch-2.2.1`后，你可以看到以下目录结构： - `src`: 源代码目录，包含了所有Nutch的Java源码。 - `conf`: 配置文件，如`nutch-default.xml`和`nutch-site.xml`，需要根据实际需求进行调整。 - `bin`:...

分布式搜索引擎nutch开发: - **Segments生成**：抓取的网页被分组到Segment中，每个Segment包含一组网页。 - **Fetcher**：下载网页内容。 - **Parser**：解析HTML，提取文本和元数据。 - **Analyzer**：对文本进行分词和词干化。 - **...

nutch根据URL来查找快照: Nutch 是一个开源的搜索引擎项目，它主要用于抓取和索引网页内容，为用户提供搜索功能。在Nutch的工作流程中，"快照"扮演着重要角色。...记住，理解Nutch的工作原理和数据结构是高效利用它的关键。

nutch入门经典翻译1：Introduction to Nutch, Part 1: Crawling: 《Nutch入门经典翻译1：Introduction to Nutch, Part 1: Crawling》一文深入介绍了Nutch这一开源网络爬虫框架的基本概念、体系结构及其关键组件，为初学者提供了全面的理解视角。以下是对该文章核心知识点的详细解读...

nutch入门教程: Segment是Nutch用于组织和管理抓取数据的单元，每个segment代表一次抓取活动，包含了该次抓取的所有数据和元数据。 **6.4 Index** Index是Nutch中存储索引信息的部分，包括文档的索引项、词频、位置等，用于快速...

nutch架构图: Fetcher负责网络通信，下载网页，并将其存储为Segment，这是Nutch的基本处理单元。 "Parse segment.png"可能涉及Parse阶段，Segment被送入Parser进行处理，提取出内容、元数据等，然后形成解析段。 "LinkDb ...

nutch使用文档: Nutch 爬取内容解析是指 Nutch 爬虫爬取网页内容并将其解析成结构化数据的过程。Nutch 的输出文件包括 Crawldb、Linkdb、Segments 和 Indexes 等。 Crawldb Crawldb 是 Nutch 的爬虫数据库，用于存储爬虫爬取的...

Nutch搜索引擎·Nutch浅入分析（第5期）: 2. 生成段落（Segment）：对提交的URL集合进行分析，确定具体的抓取任务细节，然后生成一个包含抓取任务列表的段落。 3. 获取内容（Fetch Content）：根据上一步生成的抓取任务列表，访问互联网并获取页面内容，...

nutch-analysis.rar_nutch: 1. **Segments**: Nutch将抓取的网页数据存储在称为Segment的文件夹中，每个Segment包含了一组在特定时间抓取的网页。Segments是Nutch处理网页的基本单位，它们包含了原始的HTML内容、元数据以及链接信息。 2. **...

Nutch爬虫工作流程及文件格式详细分析: 首先，Nutch爬虫（Crawler）的核心任务是抓取互联网上的网页，并构建一个链接结构的数据库，称为WebDB。WebDB包含两类实体：Page和Link。Page实体记录了网页的基本信息，如URL、内容的MD5摘要、抓取时间以及网页的...

Nutch使用总结信息检索建立索引搜索引擎: - **segread TOOL**: 这个工具用于读取Nutch生成的segment文件，展示其内容，帮助开发者理解数据结构。 - **nutch analyze db**: 分析数据库中的数据，提供有关抓取和索引的信息。 - **分词插件**: Nutch支持使用第...

nutch0。9版本: 2. **分块（Segment）**：Nutch 抓取的网页被分成称为“块”的逻辑单位，每个块包含一定数量的页面。这种分块策略有助于管理和并行化数据处理，提高整体性能。 3. **链接分析（Link Analysis）**：Nutch 包含 ...

学习lucene和nutch爬虫代码: Nutch的索引数据结构直接基于Lucene，使得搜索结果能够快速返回。同时，Nutch还提供了丰富的插件机制，可以扩展其功能，例如支持其他格式的文件解析、自定义分词器等。 **学习资源与实践** 对于初学者来说，"学习...

Nutch，第2部分：搜索(译文): 这可以通过创建一个名为`nutch-site.xml`的配置文件实现，指定`searcher.dir`属性为包含索引和段的目录。一旦配置完成，重启Tomcat，通过Web应用程序的URL访问Nutch搜索界面，用户可以输入查询并得到搜索结果。...

大数据第一次作业1: 在大数据领域，Nutch是一个广泛使用的...理解Nutch的数据结构和工作原理对于优化爬虫性能、提高搜索引擎质量至关重要。在实际应用中，可能需要根据具体需求调整Nutch的配置，如爬行策略、索引参数等，以达到最佳效果。

开源搜索引擎比较: Nutch的核心组件包括webDb、segment和index，这些组件共同协作，实现了高效的网页抓取与索引构建。 #### 数据结构 - **webDb**：用于保存网页链接结构信息，在爬虫过程中起到关键作用。 - **segment**：存储网页...

Global site tag (gtag.js) - Google Analytics