nutch LinkDb invert 详解 - chengqianl - ITeye博客

`

chengqianl

浏览: 53658 次
性别:
来自: 杭州

最近访客更多访客>>

ForLove_ForYOU

阿祥哥

dj78337323

donchiang709

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

aixuebo：写的非常不错，看后很清晰。谢谢了，解决了我很多疑问
nutch generator 详解

nutch LinkDb invert 详解

博客分类：

nutch

nutch LinkDb invert

阅读更多

LinkDb

map :LinkDb
    输入目录为segments目录里面所有segment下面的parse_data目录
    1 首先对key：url 如果配置filter和normalize 则进行filter和normalize
    2 如果url不为空则分析他的外链，db.ignore.internal.links配置为true，如果源链接和外链都是同一个host name 则忽略
    3 如果配置filter和normalize ，对外链进行，则进行filter和normalize
    4 写入，key:外链的url，value：源url

reduce LinkDbMerger key：Text url value:Inlinks，入链
     1   合并相同的key的value.为list 这里有个db.max.inlinks这个配置最大的外链数目，如果超过这个，则其余的抛弃。
      2 写入输出目录为    Path newLinkDb =
      new Path("linkdb-" +
               Integer.toString(new Random().nextInt(Integer.MAX_VALUE)));


如果存在linkdb则需要合并
合并的job：createMergeJob
map :LinkDbFilter 输入目录上个job的输出，linkdb/current
     1 首先对key：url 如果配置filter和normalize 则进行filter和normalize
     2 如果key 不为空，遍历value,对每个value 也是url，如果配置filter和normalize 则进行filter和normalize ，如果不为空加入Inlinks，,如果Inlinks 不为空写入key:Text url,value:Inlinks

reduce： LinkDbMerger 同job1

LinkDb.install(job, linkDb); 替换原来的linkdb。如果linkdb/old 存在，则删除，把linkdb/current 重命名为linkdb/old ，把上个job的输出变成linkdb/current,删除linkdb/old
    linkdb/old

查看图片附件

分享到：

nutch1.2 index 详解 | nutch crawdb update 详解

2012-07-18 14:19
浏览 1733
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Windows下使用Eclipse配置Nutch2图文详解: ### Windows下使用Eclipse配置Nutch2图文详解 #### 一、引言随着大数据时代的到来，网络爬虫技术越来越受到人们的重视。Apache Nutch是一款开源的网页抓取与索引构建工具，它基于Hadoop分布式计算框架。本文将...

nutch分布是详解: ### Nutch 分布式详解 #### 一、Nutch 概述 Nutch 是一个开源的网络爬虫项目，主要用于抓取互联网上的网页并进行索引。它基于Hadoop平台，利用MapReduce来处理大规模数据集。Nutch的核心组件包括Injector、...

nutch平台的搭建过程: ### nutch平台的搭建过程详解 #### 一、Nutch平台概述 Nutch是一个高度可扩展且开放源代码的Web抓取与搜索平台，它基于Hadoop构建，能够处理大量网页数据。Nutch的设计旨在抓取网页并将这些网页转换成可供搜索引擎...

Nutch中文教程nutcher.zip: nutcher 是 Apache Nutch 的中文教程，在... Nutch流程控制源码详解（bin/crawl中文注释版） Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit 文档截图：

nutch使用&Nutch;入门教程: 四、Nutch工作流详解 Nutch的工作流程包括多个步骤，如生成段（Segments）、迭代抓取（Fetch）、解析（Parse）、更新链接数据库（Update）、生成新的种子（Generate）、选择待抓取页面（Select）、重定向处理（Fetch...

eclipse配置nutch，eclipse配置nutch: ### 二、Eclipse配置Nutch的步骤详解 #### 步骤1：创建Nutch项目首先，在Eclipse中创建一个新的Java项目，选择“File > New > Project > Java project”，然后点击“Next”。在创建项目时，选择“Create project ...

Nutch的各项配置详解: Nutch各个配置项的详细说明，非常详细的说明了每一项

Nutch 0.8笔记NUTCHNUTCH: 【Nutch 0.8 知识点详解】 Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目，它提供了一套完整的搜索引擎解决方案，包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注，因为它完全使用 Hadoop 进行了...

Nutch 1.2源码阅读: Nutch的工作流程主要包括以下几个阶段：注入（Injector）、生成抓取URL（Generator）、网页抓取（Fetcher）、网页解析（ParseSegment）、数据库更新（CrawlDb）、链接数据库处理（LinkDb）以及索引构建（Indexer）。...

nutch的源码解读和nutch入门: 2. **Link Database（链接数据库）**：`crawldb` 和 `linkdb` 存储了 URL 及其相互链接的关系，这些数据用于决定爬行的顺序和频率。页面的过期时间默认为 30 天。 3. **Segments**：这是 Nutch 存储抓取网页的主要...

Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx: Apache Nutch 是一个开源的网络爬虫框架，用于抓取互联网上的网页并生成索引，以便于搜索引擎使用。本文将详细介绍如何在Windows环境下配置Nutch 1.4，并使用Eclipse进行开发。以下是你需要知道的关键步骤： 1. **...

Windows下配置nutch: 【Nutch 知识点详解】 Nutch 是一个开源的 Java 搜索引擎，它提供了从爬虫到搜索的全套工具，使用户能够构建自己的搜索引擎。Nutch 的主要组成部分包括两个关键角色：Crawler 和 Searcher。 1. **Crawler**： ...

开发基于 Nutch 的集群式搜索引擎: #### Nutch架构详解 Nutch的架构设计可以分为两个主要部分：抓取器（Crawler）和搜索器（Searcher）。抓取器负责抓取网页内容，而搜索器则负责处理用户的查询请求。具体来说： 1. **抓取器**：抓取器的工作流程...

搭建nutch web开发环境: bin/nutch index crawldb -linkdb linkdb crawldb ``` 将解析后的数据索引到HDFS或本地文件系统。 5. **启动Web UI**：在Nutch源代码根目录下，运行以下命令启动Web界面： ``` bin/nutch solrindex ...

windows下安装nutch: 【知识点详解】在Windows环境下安装Nutch涉及到多个步骤和组件，包括系统配置、软件依赖以及Nutch本身的安装和测试。以下是对这些知识点的详细说明： 1. **操作系统**：Nutch可以在Windows XP或Windows 2000+上...

Nutch_插件深入研究: #### 二、Nutch插件开发详解 Nutch插件的开发涉及到以下几个关键步骤： 1. **创建插件目录结构**：插件源代码通常位于`src/plugin`目录下，目录名称通常与插件ID一致。例如，如果插件ID为`index-field`，则目录...

nutch 初学文档教材: 6.2 Linkdb........35 6.3 Segments....35 6.4 Index..39 7. nutch分布式文件系统........41 2007-8-26 北京邮电大学－李阳 Nutch入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件...

nutch使用文档: Nutch 的输出文件包括 Crawldb、Linkdb、Segments 和 Indexes 等。 Crawldb Crawldb 是 Nutch 的爬虫数据库，用于存储爬虫爬取的网页信息。Crawldb 的主要字段包括 URL、标题、内容、链接等。 Linkdb Linkdb 是 ...

图解搜索引擎nutch配置: ### 图解搜索引擎Nutch配置详解 #### 一、前言 Nutch 是一款开源的网络爬虫项目，它能够从互联网上抓取网页并构建索引。本文将通过图文结合的方式，详细介绍如何在Windows环境下配置Nutch搜索引擎。由于网上关于...

nutch网页爬取总结: 2. **Linkdb**：Linkdb 存储了 URL 之间的链接关系，有助于确定网页的重要性，并为爬虫提供抓取顺序的线索。 3. **Segments**：Nutch 抓取的网页被分割成多个 Segment，每个 Segment 包含一组相关的网页。Segment 是...

Global site tag (gtag.js) - Google Analytics