`
chengqianl
  • 浏览: 52958 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

nutch LinkDb invert 详解

阅读更多
LinkDb

map :LinkDb 
    输入目录为segments目录里面所有segment下面的parse_data目录
    1 首先对key:url 如果配置filter和normalize 则进行filter和normalize
    2 如果url不为空 则分析他的外链,db.ignore.internal.links配置为true,如果源链接和外链都是同一个host name 则忽略
    3 如果配置filter和normalize ,对外链进行,则进行filter和normalize
    4 写入,key:外链的url,value:源url

reduce LinkDbMerger key:Text  url value:Inlinks,入链
     1   合并相同的key的value.为list 这里有个db.max.inlinks这个配置最大的外链数目,如果超过这个,则其余的抛弃。
      2 写入 输出目录为    Path newLinkDb =
      new Path("linkdb-" +
               Integer.toString(new Random().nextInt(Integer.MAX_VALUE)));

   
如果存在linkdb则需要合并
合并的job:createMergeJob
map :LinkDbFilter 输入目录上个job的输出 ,linkdb/current
     1  首先对key:url 如果配置filter和normalize 则进行filter和normalize
     2  如果key 不为空,遍历value,对每个value 也是url,如果配置filter和normalize 则进行filter和normalize ,如果不为空加入Inlinks,,如果Inlinks 不为空写入key:Text url,value:Inlinks

reduce: LinkDbMerger  同job1

LinkDb.install(job, linkDb);  替换原来的linkdb。如果linkdb/old 存在,则删除,把linkdb/current  重命名为linkdb/old ,把上个job的输出变成linkdb/current,删除linkdb/old
    linkdb/old
  • 大小: 26.5 KB
分享到:
评论

相关推荐

    Nutch中文教程nutcher.zip

    nutcher 是 Apache Nutch 的中文教程,在... Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit 文档截图:

    nutch使用&Nutch;入门教程

    四、Nutch工作流详解 Nutch的工作流程包括多个步骤,如生成段(Segments)、迭代抓取(Fetch)、解析(Parse)、更新链接数据库(Update)、生成新的种子(Generate)、选择待抓取页面(Select)、重定向处理(Fetch...

    eclipse配置nutch,eclipse配置nutch

    ### 二、Eclipse配置Nutch的步骤详解 #### 步骤1:创建Nutch项目 首先,在Eclipse中创建一个新的Java项目,选择“File > New > Project > Java project”,然后点击“Next”。在创建项目时,选择“Create project ...

    Nutch的各项配置详解

    Nutch各个配置项的详细说明,非常详细的说明了每一项

    Nutch 1.2源码阅读

    Nutch的工作流程主要包括以下几个阶段:注入(Injector)、生成抓取URL(Generator)、网页抓取(Fetcher)、网页解析(ParseSegment)、数据库更新(CrawlDb)、链接数据库处理(LinkDb)以及索引构建(Indexer)。...

    Nutch 0.8笔记NUTCHNUTCH

    【Nutch 0.8 知识点详解】 Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并生成索引,以便于搜索引擎使用。本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **...

    Windows下配置nutch

    【Nutch 知识点详解】 Nutch 是一个开源的 Java 搜索引擎,它提供了从爬虫到搜索的全套工具,使用户能够构建自己的搜索引擎。Nutch 的主要组成部分包括两个关键角色:Crawler 和 Searcher。 1. **Crawler**: ...

    开发基于 Nutch 的集群式搜索引擎

    #### Nutch架构详解 Nutch的架构设计可以分为两个主要部分:抓取器(Crawler)和搜索器(Searcher)。抓取器负责抓取网页内容,而搜索器则负责处理用户的查询请求。具体来说: 1. **抓取器**:抓取器的工作流程...

    搭建nutch web开发环境

    bin/nutch index crawldb -linkdb linkdb crawldb ``` 将解析后的数据索引到HDFS或本地文件系统。 5. **启动Web UI**: 在Nutch源代码根目录下,运行以下命令启动Web界面: ``` bin/nutch solrindex ...

    Nutch_插件深入研究

    #### 二、Nutch插件开发详解 Nutch插件的开发涉及到以下几个关键步骤: 1. **创建插件目录结构**:插件源代码通常位于`src/plugin`目录下,目录名称通常与插件ID一致。例如,如果插件ID为`index-field`,则目录...

    nutch 初学文档教材

    6.2 Linkdb........35 6.3 Segments....35 6.4 Index..39 7. nutch分布式文件系统........41 2007-8-26 北京邮电大学-李阳 Nutch入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件...

    nutch使用文档

    Nutch 的输出文件包括 Crawldb、Linkdb、Segments 和 Indexes 等。 Crawldb Crawldb 是 Nutch 的爬虫数据库,用于存储爬虫爬取的网页信息。Crawldb 的主要字段包括 URL、标题、内容、链接等。 Linkdb Linkdb 是 ...

    nutch网页爬取总结

    2. **Linkdb**:Linkdb 存储了 URL 之间的链接关系,有助于确定网页的重要性,并为爬虫提供抓取顺序的线索。 3. **Segments**:Nutch 抓取的网页被分割成多个 Segment,每个 Segment 包含一组相关的网页。Segment 是...

Global site tag (gtag.js) - Google Analytics