`
saiyaren
  • 浏览: 228473 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch集群,威力很大,哈哈!!

 
阅读更多

今天用公司的服务器测试了一把nutch集群很好很强大!

之前也测试过,估计和网络的带宽有关系吧,效果不是很好,今天测试了一下,确实比单机的速度要快很多!

我测试的是用3台虚拟机

每台是8核心cpu 一个6g内存2个4g内存

然后爬的网址是180个,深度4层,开启线程200,完成时间是2个多小时,而且资源占用率也就达到20%

 

之前用8核心6g内存单机爬取 180个网址,深度4层 开启线程50个,爬取1星期没有爬取完,资源占用cpu全部100%,内存占用800M左右

 

所以集群的威力还是很大的,这么一看就可以看出来威力了,所以我打算把这3台再拆成6台,让服务器能够把资源利用到最大,下面要好好研究一下hadoop的存储结构和nutch的具体内容和lucene这块了!

 

下面是我截的图,用集群完成的开始和结束时间,还有搜索了一个关键词的搜索数量,现在研究一下如何用luke去查看

hdfs,所有的数量应该在这个查询数量之上。

 

 

 

 

图1

图2

 

图3 查询结果

 

  • 大小: 61.1 KB
  • 大小: 93.4 KB
  • 大小: 5.5 KB
分享到:
评论
3 楼 ct518lovepwj 2015-09-15  
楼主,请教一下,我的nutch集群只有一个节点运行,并且在抓取的时候只有一个map执行抓取任务,请问一下如何配置?
2 楼 saiyaren 2011-10-09  
erliang20088 写道
你好,我想问一下,我也搭建了nutch集群环境,可是不知怎么地,集群的爬取数据的速度确是比单机慢个十倍左右,整了一天多了,依然还是那么慢,很费解,敬请帮忙,~

你需要去调一些配置,把你的nutch-site.xml中的对于单站的爬取线程和其他的参数往上调调,还有就是增加机器数量,我现在再改代码利用单机实现最大化爬取。
<!-- 调整单站最大爬取线程,最好设置为5,因为太多容易被封IP-->
        <property>
  <name>fetcher.threads.per.host</name>
  <value>100</value>
  <description></description>
</property>

<property>
  <name>fetcher.server.delay</name>
  <value>1.0</value>
  <description></description>
</property>

<property>
  <name>fetcher.server.min.delay</name>
  <value>0.0</value>
  <description>The minimum number of seconds the fetcher will delay between
  successive requests to the same server. This value is applicable ONLY
  if fetcher.threads.per.host is greater than 1 (i.e. the host blocking
  is turned off).</description>
</property>
1 楼 erliang20088 2011-10-08  
你好,我想问一下,我也搭建了nutch集群环境,可是不知怎么地,集群的爬取数据的速度确是比单机慢个十倍左右,整了一天多了,依然还是那么慢,很费解,敬请帮忙,~

相关推荐

    开发基于 Nutch 的集群式搜索引擎

    自Nutch 0.8.0版本起,它完全运行在Hadoop平台上,这使Nutch能够利用Hadoop的分布式文件系统(HDFS)以及MapReduce编程模型来实现大规模数据处理能力。Hadoop不仅提供了分布式文件存储功能,还实现了Google的...

    nutch常见问题归总(原创)

    nutch常见问题归总,对初学nutch的一些问题做出的整理

    nutch1.4帮助文档

    nutch1.4帮助文档,学习nutch1.4必备,最新nutch1.4核心类解读!

    nutch

    **Nutch 概述** Nutch 是一个开源的网络爬虫项目,主要设计用于抓取、索引和搜索互联网...学习和使用 Nutch 可以帮助开发者深入了解 Web 数据抓取和搜索引擎的工作原理,对于大数据处理和信息提取有着重要的实践价值。

    搭建nutch开发环境步骤

    1. 操作系统:Nutch可以在Linux、Mac OS X或Windows上运行,但推荐使用Linux环境,因为大部分Nutch用户和开发者都在这个平台上工作。 2. Java环境:Nutch依赖Java,因此需要安装JDK 8或更高版本,并确保`JAVA_HOME`...

    Apache Nutch v1.15

    Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是...学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?

    nutch使用&Nutch;入门教程

    总结,Nutch是一个强大且灵活的网络爬虫工具,对于需要进行大规模网页抓取和搜索的项目来说,是一个理想的解决方案。通过学习和实践这个入门教程,你将能够熟练地运用Nutch进行数据采集和分析。

    nutch开发资料 搜索引擎

    5. **Nutch源码结构**:压缩包中的"src"目录很可能包含了Nutch的源代码,这包括了各种模块,如爬虫模块(fetcher)、解析模块(parser)、索引模块(indexer)等。开发者可以通过阅读源码理解其内部机制,并进行二次...

    Nutch入门教程 高清 带书签

    这个“Nutch入门教程 高清 带书签”的资源,很显然是为了帮助初学者快速理解并掌握Nutch的基本操作和核心概念。下面,我们将深入探讨Nutch的相关知识点。 一、Nutch简介 Nutch是一个强大的Web爬虫框架,它提供了从...

    eclipse配置nutch,eclipse配置nutch

    在IT领域,Apache Nutch是一款开源的Web爬虫项目,用于抓取网页并进行索引。而Eclipse作为一款流行的集成开发环境(IDE),被广泛应用于Java开发中。本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地...

    Nutch相关框架视频教程

    资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

    nutch帮助文档;nutch学习 入门

    Nutch的架构基于Hadoop,可以很好地处理大规模数据。主要组件包括: - **Crawler**:负责网页的抓取工作。 - **Fetcher**:下载抓取到的网页。 - **Parser**:解析HTML,提取内容和元数据。 - **Indexer**:将...

    Apache Nutch 1.7 学习总结

    **Apache Nutch 1.7 学习...同时,Nutch与Hadoop结合可以处理大规模的数据抓取和索引,这在大数据领域有着广泛的应用。通过深入学习,你可以掌握网络爬虫的基本技术和搜索引擎的基础架构,为你的IT事业打下坚实的基础。

    nutch-1.9 源码

    6. **数据存储**:Nutch默认使用Hadoop的HDFS作为数据存储系统,这使得它能够在大规模集群上运行。此外,Nutch还支持其他数据存储解决方案,如Cassandra或MongoDB。 7. **索引与搜索**:Nutch不仅抓取网页,还会将...

    Nutch 0.8笔记NUTCHNUTCH

    【Nutch 0.8 知识点详解】 Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了...

    nutch2.2.1安装步骤.docx

    Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 2.2.1 是一个稳定版本,它依赖于其他几个组件来完成其功能,包括 Apache Ant、Apache Tomcat、Java 开发工具包...

    nutch网页爬取总结

    - **配置 Nutch 查询索引**:配置 Nutch 的 `conf/gora.properties` 和 `conf/hadoop-site.xml` 文件,以便连接到 Hadoop 集群(如果需要的话),并指定索引的存储位置。 **Nutch 爬取内容解析** 1. **Crawldb**...

Global site tag (gtag.js) - Google Analytics