LinkDb
map :LinkDb
输入目录为segments目录里面所有segment下面的parse_data目录
1 首先对key:url 如果配置filter和normalize 则进行filter和normalize
2 如果url不为空 则分析他的外链,db.ignore.internal.links配置为true,如果源链接和外链都是同一个host name 则忽略
3 如果配置filter和normalize ,对外链进行,则进行filter和normalize
4 写入,key:外链的url,value:源url
reduce LinkDbMerger key:Text url value:Inlinks,入链
1 合并相同的key的value.为list 这里有个db.max.inlinks这个配置最大的外链数目,如果超过这个,则其余的抛弃。
2 写入 输出目录为 Path newLinkDb =
new Path("linkdb-" +
Integer.toString(new Random().nextInt(Integer.MAX_VALUE)));
如果存在linkdb则需要合并
合并的job:createMergeJob
map :LinkDbFilter 输入目录上个job的输出 ,linkdb/current
1 首先对key:url 如果配置filter和normalize 则进行filter和normalize
2 如果key 不为空,遍历value,对每个value 也是url,如果配置filter和normalize 则进行filter和normalize ,如果不为空加入Inlinks,,如果Inlinks 不为空写入key:Text url,value:Inlinks
reduce: LinkDbMerger 同job1
LinkDb.install(job, linkDb); 替换原来的linkdb。如果linkdb/old 存在,则删除,把linkdb/current 重命名为linkdb/old ,把上个job的输出变成linkdb/current,删除linkdb/old
linkdb/old
- 大小: 26.5 KB
分享到:
相关推荐
nutcher 是 Apache Nutch 的中文教程,在... Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit 文档截图:
四、Nutch工作流详解 Nutch的工作流程包括多个步骤,如生成段(Segments)、迭代抓取(Fetch)、解析(Parse)、更新链接数据库(Update)、生成新的种子(Generate)、选择待抓取页面(Select)、重定向处理(Fetch...
### 二、Eclipse配置Nutch的步骤详解 #### 步骤1:创建Nutch项目 首先,在Eclipse中创建一个新的Java项目,选择“File > New > Project > Java project”,然后点击“Next”。在创建项目时,选择“Create project ...
Nutch各个配置项的详细说明,非常详细的说明了每一项
【Nutch 0.8 知识点详解】 Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了...
Nutch的工作流程主要包括以下几个阶段:注入(Injector)、生成抓取URL(Generator)、网页抓取(Fetcher)、网页解析(ParseSegment)、数据库更新(CrawlDb)、链接数据库处理(LinkDb)以及索引构建(Indexer)。...
Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并生成索引,以便于搜索引擎使用。本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **...
【Nutch 知识点详解】 Nutch 是一个开源的 Java 搜索引擎,它提供了从爬虫到搜索的全套工具,使用户能够构建自己的搜索引擎。Nutch 的主要组成部分包括两个关键角色:Crawler 和 Searcher。 1. **Crawler**: ...
#### Nutch架构详解 Nutch的架构设计可以分为两个主要部分:抓取器(Crawler)和搜索器(Searcher)。抓取器负责抓取网页内容,而搜索器则负责处理用户的查询请求。具体来说: 1. **抓取器**:抓取器的工作流程...
bin/nutch index crawldb -linkdb linkdb crawldb ``` 将解析后的数据索引到HDFS或本地文件系统。 5. **启动Web UI**: 在Nutch源代码根目录下,运行以下命令启动Web界面: ``` bin/nutch solrindex ...
#### 二、Nutch插件开发详解 Nutch插件的开发涉及到以下几个关键步骤: 1. **创建插件目录结构**:插件源代码通常位于`src/plugin`目录下,目录名称通常与插件ID一致。例如,如果插件ID为`index-field`,则目录...
6.2 Linkdb........35 6.3 Segments....35 6.4 Index..39 7. nutch分布式文件系统........41 2007-8-26 北京邮电大学-李阳 Nutch入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件...
Nutch 的输出文件包括 Crawldb、Linkdb、Segments 和 Indexes 等。 Crawldb Crawldb 是 Nutch 的爬虫数据库,用于存储爬虫爬取的网页信息。Crawldb 的主要字段包括 URL、标题、内容、链接等。 Linkdb Linkdb 是 ...
2. **Linkdb**:Linkdb 存储了 URL 之间的链接关系,有助于确定网页的重要性,并为爬虫提供抓取顺序的线索。 3. **Segments**:Nutch 抓取的网页被分割成多个 Segment,每个 Segment 包含一组相关的网页。Segment 是...