关于nutch爬取的优化有同猿已经说的很清楚了,有兴趣的可以看看下面这个博客。
http://my.oschina.net/junfrank/blog/290404
除此之外我补充本猿在实践过程中遇见的重要的一点,Nutch版本选取的是1.8的版本+hadoop2.2.0。经过测试发现,不论怎么修改配置文件,在fetch阶段还是只启动了两个map,解决此问题结论如下:
一、修改Generator.java文件,注释掉如下代码(这段代码会吧下文中修改的numSlaves修改为1,具体原因本猿未求甚解,单纯加log得到的结果,有仁猿有结论还望告知本猿)
if ("local".equals(job.get("mapred.job.tracker")) && numLists != 1) {
// override
LOG.info("Generator: jobtracker is 'local', generating exactly one partition.");
numLists = 1;
}
二、编译之后修改crawl脚本中的numSlaves变量,将此变量改为实际的hadoop节点数,这样在fetch阶段就是产生随节点数*2的map数量了。
具体机制原理课参考上面博客,大致就是这么改完后generate时就会产生多个文件了,这样每个文件作输入启动一个map就有多个map启动了。
分享到:
相关推荐
**Nutch 网页爬取总结** **前言** Nutch 是一个开源的网络爬虫项目,由 Apache 基金会维护,主要用于构建大规模的搜索引擎。它提供了从互联网抓取网页、分析链接关系、生成倒排索引等一系列功能。Nutch 的设计目标...
在提供的文件中,"提高nutch运行效率的优化方法1.png"和"提高nutch运行效率的优化方法2.png"可能是展示具体优化步骤的图表,而"提高nutch运行效率的原理.png"则可能解释了Nutch运行的基本原理,这些图像可以帮助读者...
Nutch是一个开源的Web爬虫框架,它能够抓取互联网上的网页并进行索引,非常适合用于大数据分析和搜索引擎的构建。本篇文章将深入探讨如何使用Java来获取Nutch中存储的网页信息。 首先,我们需要理解Nutch的工作流程...
Nutch 爬取内容解析是指 Nutch 爬虫爬取网页内容并将其解析成结构化数据的过程。Nutch 的输出文件包括 Crawldb、Linkdb、Segments 和 Indexes 等。 Crawldb Crawldb 是 Nutch 的爬虫数据库,用于存储爬虫爬取的...
《Lucene+Nutch:搜索引擎开发深度解析》一书的源码及详细说明是搜索引擎开发者和爱好者的重要参考资料。这本书深入探讨了如何使用Apache Lucene和Nutch构建一个完整的搜索引擎系统,涵盖了从网页抓取到索引建立,再...
总的来说,Nutch 爬虫数据提供了对互联网内容的深入洞察,对于搜索引擎开发者、数据分析人员以及网络研究者来说具有重要的价值。通过理解和分析这些数据,我们可以了解Nutch如何工作,如何改进其性能,以及如何利用...
Nutch搜索引擎数据获取1、 基本原理2、网络蜘蛛3、局域网抓取
入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务。 一、Nutch简介 Nutch是一个基于Java的开源搜索引擎,其主要功能包括网页抓取、链接分析、网页排名和索引。Nutch的设计...
本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码,主要使用Java进行开发。项目共包含1064个文件,其中Java源代码文件458个,XML配置文件181个,文本文件81个,HTML页面文件56个,JPG图片文件56...
7. **配置文件**:Nutch的配置文件非常重要,它们定义了爬虫的行为、抓取策略、抓取间隔、存储路径等参数。开发者可以通过修改配置文件来调整Nutch的行为。 配合博客文章`...
Nutch教程——导入Nutch工程,执行完整爬取 Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit ...
Nutch的架构图可以帮助我们理解其工作流程和组件间的交互,这对于学习和入门Nutch至关重要。 首先,让我们从"Injector.png"开始,这个组件是Nutch工作流程的起点。Injector的作用是将初始URL种子注入到CrawlDB...
Apache Nutch 1.7 是一个开源的网络爬虫和搜索引擎项目,它可以对互联网上的网页进行爬取、索引和搜索。本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的安装过程,包括安装前的准备工作、安装 Cygwin、...
通过Nutch的爬取和预处理,以及Lucene的索引和查询机制,我们可以快速定位到包含目标关键词的文档,这对于信息检索和数据分析有着广泛的应用价值。对于开发者来说,深入理解这两个工具的工作原理和使用方法,将有助...
Nutch的很多核心功能都是基于Java的并发和网络编程实现的,所以掌握这些技能对于深入学习Nutch至关重要。 此外,Nutch与Hadoop的结合是其强大之处。了解Hadoop的MapReduce模型、HDFS文件系统以及YARN资源调度器,能...
8. **配置文件**:Nutch的配置文件(如`conf/nutch-site.xml`)非常重要,它们定义了爬虫的行为,如抓取策略、存储路径等。 在Eclipse中设置Nutch 1.2项目,你需要以下步骤: 1. **导入项目**:在Eclipse中选择...
1. **更好的爬取策略**:Nutch 1.2优化了URL的抓取优先级算法,使得重要的网页能更快被发现和抓取。 2. **性能提升**:通过优化代码和更新依赖库,提高了爬取和索引的速度。 3. **增强的可配置性**:增加了更多的...
Nutch 的源代码解析对于深入理解搜索引擎的工作原理以及自定义搜索引擎的实现非常有帮助。下面我们将详细探讨 Nutch 的注入(Injector)过程,这是整个爬取流程的第一步。 Injector 类在 Nutch 中的作用是将输入的 ...
Nutch 1.5.1 是 Nutch 的一个重要版本,尽管它可能已经有些年代,但在当时它具有很高的稳定性和实用性。 Nutch 的核心功能包括: 1. **网络爬虫**:Nutch 使用一种分布式爬虫策略,它可以自动发现新的网页并通过...
爬行过程中,Nutch 使用 `Fetcher` 类进行页面抓取,`FetcherThread` 多线程运行,提高抓取效率。`Fetcher` 根据 URL 的协议类型调用相应的 `Protocol` 插件,如 HTTP 或 FTP。抓取到的页面内容由 `Parser` 分析为...