`
coderplay
  • 浏览: 580091 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论

nutch源代码分析之Injector

阅读更多
Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。
参见Injector.inject(Path crawlDb, Path urlDir)方法

MapReduce1: 把输入数据转换为数据库所需的格式
  •   输入:未处理的,包含url信息的文本文件
  •   Map(line) -> <url, CrawlDatum>; status=db_unfetched
  •   Reduce()是同一化(即具有相同key值的key-value对根据key值排序后,连续写在SequenceFile中,这是Hadoop默认的Reducer)
  •   输出: 包含临时文件的目录

MapReduce2: 合并到已有数据库
  • 输入:第一步的输出和已存在的数据库
  • Map是同一化
  • Reduce: 合并CrawlDatum成单个入口
  • 输出: 新版本的数据库
3
1
分享到:
评论

相关推荐

    nutch的源代码解析

    Nutch 的源代码解析对于深入理解搜索引擎的工作原理以及自定义搜索引擎的实现非常有帮助。下面我们将详细探讨 Nutch 的注入(Injector)过程,这是整个爬取流程的第一步。 Injector 类在 Nutch 中的作用是将输入的 ...

    Nutch 1.2源码阅读

    ### Nutch 1.2 源码阅读深入解析 #### Crawl类核心作用与流程概览 在深入了解Nutch 1.2源码之前,我们先明确Nutch的架构和工作流程。Nutch作为一款开源搜索引擎框架,其功能涵盖网页抓取、索引构建以及查询处理。...

    nutch crawl代码解析

    通过理解和分析 `Crawl` 类的源码,开发者可以更好地掌握 Nutch 如何处理输入,以及如何根据这些输入配置和执行复杂的网络抓取任务。对于想要深入了解 Nutch 或者想要定制 Nutch 功能的人来说,研究 `Crawl` 类的...

    Nutch简要文档

    7. **Indexing**:Nutch 可以与 Solr 结合,通过 `solrindex` 命令将解析后的数据索引到 Solr 中,便于快速查询和分析。 8. **Search**:最后,用户可以通过 Solr 的搜索接口查询索引数据,得到搜索结果。 Nutch ...

    apache-nutch-1.7-src.tar.gz

    在“apache-nutch-1.7-src.tar.gz”这个压缩包中,你将获得Nutch 1.7的源代码,这使得开发者可以深入了解其工作原理,并对其进行定制和扩展。解压后的文件夹“apache-nutch-1.7”包含了所有必要的组件和配置文件。 ...

    apache-nutch-2.3-src.zip

    1. **源码目录结构**:解压后的apache-nutch-2.3目录包含了源代码、配置文件、构建脚本等。主要目录有`src/main/`,其中`src/main/java`存放Java源码,`src/main/resources`存储配置文件,`src/main/webapp`包含Web...

    nutch-param-set

    本篇将基于提供的文件内容对 Nutch 的参数设置进行深入解析,帮助读者更好地理解 Nutch 中各个组件的工作原理及配置方式。 #### Injector.java **功能概述:** Injector 主要负责将待爬取的 URL 注入到 CrawlDB...

    网络爬虫教程

    **Nutch** 是一个高度可扩展且开放源代码的网络爬虫项目,它可以抓取整个互联网上的网页,并对其进行索引。Nutch基于Hadoop构建,非常适合大规模的数据处理。本教程旨在介绍如何搭建Nutch环境以及执行基本的爬虫任务...

Global site tag (gtag.js) - Google Analytics