Nutch爬取效率非常重要的一点 - - ITeye博客

`

羊羊羊

浏览: 13568 次

最近访客更多访客>>

sunshinejava

发的发的

cslwoaini2010

vctyou

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

羊羊羊： smileyboy2009 写道1.8 怎么配置到2.2上面， ...
nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0
smileyboy2009： 1.8 怎么配置到2.2上面，怎么用是，是存在在hdfs上面， ...
nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0
羊羊羊：不用换，直接编译好，放到hadoop2.2.0上就能跑，我已经 ...
nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0
phlianthropy： nutch1.8不需要替换掉里面的hadoop-core-1. ...
nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0

Nutch爬取效率非常重要的一点

博客分类：

hadoop nutch 爬取效率爬取效率 fetch

nutch fetch 优化效率 hadoop

阅读更多

关于nutch爬取的优化有同猿已经说的很清楚了，有兴趣的可以看看下面这个博客。
http://my.oschina.net/junfrank/blog/290404

除此之外我补充本猿在实践过程中遇见的重要的一点，Nutch版本选取的是1.8的版本+hadoop2.2.0。经过测试发现，不论怎么修改配置文件，在fetch阶段还是只启动了两个map，解决此问题结论如下：
一、修改Generator.java文件，注释掉如下代码（这段代码会吧下文中修改的numSlaves修改为1，具体原因本猿未求甚解，单纯加log得到的结果，有仁猿有结论还望告知本猿）
    if ("local".equals(job.get("mapred.job.tracker")) && numLists != 1) {
      // override
      LOG.info("Generator: jobtracker is 'local', generating exactly one partition.");
      numLists = 1;
    }
二、编译之后修改crawl脚本中的numSlaves变量，将此变量改为实际的hadoop节点数，这样在fetch阶段就是产生随节点数*2的map数量了。
具体机制原理课参考上面博客，大致就是这么改完后generate时就会产生多个文件了，这样每个文件作输入启动一个map就有多个map启动了。

1
顶

0
踩

分享到：

java身份证校验类，直接拿去用

2015-06-09 14:22
浏览 1404
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

nutch网页爬取总结: **Nutch 网页爬取总结** **前言** Nutch 是一个开源的网络爬虫项目，由 Apache 基金会维护，主要用于构建大规模的搜索引擎。它提供了从互联网抓取网页、分析链接关系、生成倒排索引等一系列功能。Nutch 的设计目标...

提高nutch运行效率的原理与方法: 在提供的文件中，"提高nutch运行效率的优化方法1.png"和"提高nutch运行效率的优化方法2.png"可能是展示具体优化步骤的图表，而"提高nutch运行效率的原理.png"则可能解释了Nutch运行的基本原理，这些图像可以帮助读者...

如何通过java程序获得Nutch中网页的详细信息: Nutch是一个开源的Web爬虫框架，它能够抓取互联网上的网页并进行索引，非常适合用于大数据分析和搜索引擎的构建。本篇文章将深入探讨如何使用Java来获取Nutch中存储的网页信息。首先，我们需要理解Nutch的工作流程...

nutch使用文档: Nutch 爬取内容解析是指 Nutch 爬虫爬取网页内容并将其解析成结构化数据的过程。Nutch 的输出文件包括 Crawldb、Linkdb、Segments 和 Indexes 等。 Crawldb Crawldb 是 Nutch 的爬虫数据库，用于存储爬虫爬取的...

Lucene+Nutch本书源码+详细说明: 《Lucene+Nutch：搜索引擎开发深度解析》一书的源码及详细说明是搜索引擎开发者和爱好者的重要参考资料。这本书深入探讨了如何使用Apache Lucene和Nutch构建一个完整的搜索引擎系统，涵盖了从网页抓取到索引建立，再...

nutch搜索引擎数据获取: 1. **全网搜索引擎**：侧重于尽可能多地抓取网页，确保不会遗漏重要的网站。 2. **垂直搜索引擎**：更注重信息的实时性和内容的准确性，以便更快地获取特定信息。 3. **企业搜索引擎**：旨在以最小的成本完成指定...

Nutch搜索引擎·Nutch简单应用（第3期）: 对于希望构建个人搜索引擎或对互联网内容进行深入研究的用户来说，Nutch是一个非常实用的工具。由于Nutch的开源特性和强大的社区支持，它能持续得到更新和维护，这使得Nutch成为了许多搜索引擎开发者和网站管理员...

nutch使用&Nutch;入门教程: 入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务。一、Nutch简介 Nutch是一个基于Java的开源搜索引擎，其主要功能包括网页抓取、链接分析、网页排名和索引。Nutch的设计...

Nutch入门教程.pdf: Nutch的分析方法和工具包括了Crawldb（爬虫数据库，用于存储网页的URL、元数据和抓取状态等信息）、Linkdb（链接数据库，用于存储网页间的链接关系）、Segments（索引段，将索引数据分片存储以提高效率）以及Index...

Nutch使用指南(英文): 这一步骤对于提高搜索效率至关重要。 ##### 5.5 全网爬取：搜索最后一步是实现搜索功能，允许用户通过关键词查询来检索已索引的信息。通过以上步骤，可以使用 Nutch 实现内部网和全网的爬取与搜索功能。需要...

Web Crawling and Data Mining with Apache Nutch: 除了搜索引擎功能外，Nutch还能够对爬取到的数据进行分析，挖掘潜在的商业智能或市场趋势，这在市场分析和竞争情报方面非常有用。自定义搜索功能是Nutch的另一个亮点。用户可以通过配置Nutch的搜索管道（search ...

eclipse配置nutch，eclipse配置nutch: 通过上述步骤，你可以在Eclipse中成功配置并运行Nutch，从而利用其强大的网络爬取和数据处理能力。这不仅为学习和研究Nutch提供了便利，也为实际应用中的数据采集和分析打下了坚实的基础。记住，配置过程中遇到任何...

基于Apache Nutch和Solr的AJAX页面内容爬取与处理设计源码: 本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码，主要使用Java进行开发。项目共包含1064个文件，其中Java源代码文件458个，XML配置文件181个，文本文件81个，HTML页面文件56个，JPG图片文件56...

nutch2.2.1-src: 7. **配置文件**：Nutch的配置文件非常重要，它们定义了爬虫的行为、抓取策略、抓取间隔、存储路径等参数。开发者可以通过修改配置文件来调整Nutch的行为。配合博客文章`...

Nutch中文教程nutcher.zip: Nutch教程——导入Nutch工程，执行完整爬取 Nutch流程控制源码详解（bin/crawl中文注释版） Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit ...

nutch2.2.1安装步骤.docx: Apache Nutch 是一个开源的网络爬虫框架，用于抓取互联网上的网页并建立索引，以便进行全文搜索。...理解这些组件的作用以及它们之间的交互是掌握 Nutch 的关键，这将帮助你在大数据爬取和搜索引擎领域迈开重要的一步。

nutch架构图: Nutch的架构图可以帮助我们理解其工作流程和组件间的交互，这对于学习和入门Nutch至关重要。首先，让我们从"Injector.png"开始，这个组件是Nutch工作流程的起点。Injector的作用是将初始URL种子注入到CrawlDB...

nutch_1.4配置: ### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch...通过以上步骤，用户不仅能够实现对目标网站的自动化爬取，还能利用Solr进行高效的数据管理和检索，极大地提升了数据处理的效率和便利性。

Global site tag (gtag.js) - Google Analytics