`
coderplay
  • 浏览: 577970 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论

nutch源代码分析之Fetcher

阅读更多

MapReduce:获取的urls集

  • 输入:<url,CrawlDatum>, 按主机分块, 按hash排序
  • Map(url,CrawlDatum) $\to$ <url,FetcherOutput>
      通过多线程、异步map实现
      调用已有的Nutch协议插件
  • FetcherOutput: <CrawlDatum, 网页内容Content>
  • Reduce()是同一化
  • 输出: 两种文件: <url,CrawlDatum>, <url,Content>

 

分享到:
评论

相关推荐

    apache-nutch的源码

    1. **源代码结构**:Nutch 的源代码通常分为几个主要模块,包括`conf`(配置文件)、`bin`(脚本和可执行文件)、`src`(源代码)以及`lib`(库文件)。`src`目录下进一步细分为`java`和`python`,分别包含Java 和 ...

    nutch_src 源码 tar—zip格式

    Nutch源码中的关键组件包括爬虫(Fetcher)、解析器(Parser)、索引器(Indexer)和搜索器(Searcher),这些组件协同工作,实现从互联网抓取数据,到建立索引,再到执行查询的全过程。 总的来说,Nutch的源码对于...

    Nutch 1.2源码阅读

    ### Nutch 1.2 源码阅读深入解析 #### Crawl类核心作用与流程概览 在深入了解Nutch 1.2源码之前,我们先明确Nutch的架构和工作流程。Nutch作为一款开源搜索引擎框架,其功能涵盖网页抓取、索引构建以及查询处理。...

    nutch2.2.1-src

    1. **Nutch框架**:Nutch的核心框架提供了爬虫的基本架构,包括种子URL的管理、网页抓取、分词、链接分析等。框架设计灵活,支持插件机制,方便开发者根据需求定制。 2. **Fetcher模块**:负责从Web上下载网页。它...

    nutch 1.5的源代码

    在`apache-nutch-1.5.1`这个压缩包中,你将找到源代码、构建脚本、文档、配置文件以及示例数据。通过对这些内容的阅读和实践,你可以深入了解搜索引擎的运作机制,进一步提升你的Java编程和分布式系统技能。同时,...

    nutch crawl代码解析

    通过理解和分析 `Crawl` 类的源码,开发者可以更好地掌握 Nutch 如何处理输入,以及如何根据这些输入配置和执行复杂的网络抓取任务。对于想要深入了解 Nutch 或者想要定制 Nutch 功能的人来说,研究 `Crawl` 类的...

    nutch爬虫资料

    在源码分析方面,Nutch的源代码结构清晰,适合学习和扩展。主要组件如Fetcher负责下载网页,Parser解析HTML内容,Analyzer进行文本处理,Indexer建立倒排索引。通过阅读源码,可以了解到如何实现分布式爬虫,如何...

    nutch帮助文档;nutch学习 入门

    Nutch最初设计的目标是创建一个与商业搜索引擎相媲美的开放源代码搜索解决方案,用于企业内部或特定领域的信息检索。 2. **Nutch的功能** - **网页抓取**:Nutch使用爬虫技术,通过种子URL开始,遍历互联网上的...

    Nutch2.3.1 环境搭建

    2. 解压下载的源代码到你选择的工作目录,例如`/usr/local/src/nutch-2.3.1`。 **三、配置Nutch** 打开Nutch的`conf`目录,修改以下几个关键配置文件: 1. `build.gradle`:确保`nutchVersion`设置为你当前的Nutch...

    nutch开发资料 搜索引擎

    5. **Nutch源码结构**:压缩包中的"src"目录很可能包含了Nutch的源代码,这包括了各种模块,如爬虫模块(fetcher)、解析模块(parser)、索引模块(indexer)等。开发者可以通过阅读源码理解其内部机制,并进行二次...

    Nutch源码研究

    要抓取这个页面,那么就...通过深入分析源码,开发者可以自定义抓取策略、优化性能,甚至开发新的协议插件以支持更多数据源。同时,Nutch 的设计思路也可以为其他分布式系统提供参考,比如大数据处理、网络爬虫项目等。

    分享一个Nutch入门学习的资料

    标签“源码”意味着这个学习资料可能涉及Nutch的源代码分析,这对于深入理解Nutch的工作原理至关重要。通过阅读源码,学习者可以了解Nutch如何实现URL的发现、页面下载、解析、分词、索引等关键功能。此外,源码分析...

    Nutch 0.8笔记NUTCHNUTCH

    1. **文档阅读**:深入了解 Nutch 需要阅读官方提供的文档,如 "Introduction to Nutch, Part 1 Crawling" 和 "Introduction to Nutch, Part 2 Searching",以及源代码。Nutch 的源码结构清晰,便于理解和学习。 2....

    nutch1.2 java project

    2. **项目结构**:Nutch 1.2 的项目结构包括源代码、配置文件、工作目录等。主要的代码集中在 `src` 目录下,包括 `java` 和 `conf` 子目录,其中 `conf` 包含了各种配置文件。 3. **配置文件**:`conf` 目录下的 `...

    搜索引擎nutch配置

    从Apache官方网站下载Nutch的最新源代码,通常通过Git克隆仓库。解压后,进入Nutch的工作目录。 3. **配置Nutch** 打开`conf/nutch-site.xml`文件,这是Nutch的主要配置文件。以下是一些关键配置项: - `...

    java Nutch项目

    接着,导入Nutch源代码到Eclipse工程,按照“使用说明.txt”中的步骤设置项目依赖和运行配置。通常,这会涉及到配置Nutch的配置文件(如`conf/nutch-site.xml`),以及指定爬虫的种子URL。 5. **Nutch的应用场景** ...

    nutch2.2.1

    - `src`: 源代码目录,包含了所有Nutch的Java源码。 - `conf`: 配置文件,如`nutch-default.xml`和`nutch-site.xml`,需要根据实际需求进行调整。 - `bin`: 包含运行Nutch的各种脚本。 - `build.xml`: Ant构建文件,...

    apache-nutch-2.3.1-src.tar.gz

    `apache-nutch-2.3.1-src.tar.gz` 是 Apache Nutch 的源代码包,版本号为 2.3.1,以 tar.gz 格式压缩。 这个压缩包中包含的主要文件和目录结构如下: 1. **src**: 这是 Nutch 的源代码存放位置,分为多个子目录,...

    Nutch简要文档

    3. **Fetcher**:`Fetcher` 根据 `Generator` 生成的抓取列表下载网页,`Fetcher` 命令可设置线程数来控制并发抓取,下载后的网页源码存放在 `content` 文件夹,状态信息存放在 `crawl_fetch` 文件夹。 4. **Parse*...

Global site tag (gtag.js) - Google Analytics