`

Nutch fetch job中时间的分配比例

XML 
阅读更多

下面是nutch fetch job中map shuffle reduce的时间花费的一个列表:

server name Fri Mar 05 09:45:13 GMT 2010 job_201003050945_0006 fetch crawl/segments/20100305102846 user name


User : username   --用户名
JobName : fetch crawl/segments/20100305102846  --job的名称
JobConf : hdfs://servername:9000/opt/crawler/data/mapred/system /job_201003050945_0006/job.xml --使用的配置文件位置
Submitted At : 5/03 10:30:29 --提交时间
Launched At : 5/03 10:30:30 (0sec) --开始时间
Finished At : 6/03 17:04:09 (30hrs, 33mins, 38sec) --结束时间
Status : SUCCESS  --结束状态

---从下面的分析可以得出map时间 22hrs avg
---从下面的分析可以得出shuffle时间 30hrs avg
---从下面的分析可以得出reduce时间 29mins avg

Time taken by best performing Map task task_201003050945_0006_m_000014 : 14hrs, 5mins, 23sec

Average time taken by Map tasks: 22hrs, 6mins, 40sec

Worse performing map tasks

Task Id Time taken
task_201003050945_0006_m_000010 24hrs, 47mins, 14sec
task_201003050945_0006_m_000011 24hrs, 44mins, 1sec
task_201003050945_0006_m_000013 24hrs, 42mins, 23sec
task_201003050945_0006_m_000012 24hrs, 29mins, 6sec
task_201003050945_0006_m_000007 24hrs, 19mins, 44sec
task_201003050945_0006_m_000006 24hrs, 18mins, 54sec
task_201003050945_0006_m_000001 24hrs, 18mins, 41sec
task_201003050945_0006_m_000008 24hrs, 18mins, 26sec
task_201003050945_0006_m_000000 24hrs, 17mins, 7sec
task_201003050945_0006_m_000005 24hrs, 16mins, 2sec

The last Map task task_201003050945_0006_m_000016 finished at (relative to the Job launch time): 6/03 16:32:44 (30hrs, 2mins, 14sec)


Time taken by best performing shuffle task_201003050945_0006_r_000004 : 30hrs, 2mins, 0sec

Average time taken by Shuffle: 30hrs, 2mins, 10sec

Worse performing Shuffle(s)

Task Id Time taken
task_201003050945_0006_r_000000 30hrs, 2mins, 26sec
task_201003050945_0006_r_000002 30hrs, 2mins, 18sec
task_201003050945_0006_r_000001 30hrs, 2mins, 18sec
task_201003050945_0006_r_000003 30hrs, 2mins, 4sec
task_201003050945_0006_r_000005 30hrs, 2mins, 3sec
task_201003050945_0006_r_000006 30hrs, 2mins, 2sec
task_201003050945_0006_r_000004 30hrs, 2mins, 0sec

The last Shuffle task_201003050945_0006_r_000000 finished at (relative to the Job launch time): 6/03 16:33:08 (30hrs, 2mins, 37sec)


Time taken by best performing Reduce task : task_201003050945_0006_r_000002 : 27mins, 43sec

Average time taken by Reduce tasks: 29mins, 38sec

Worse performing reduce tasks

Task Id Time taken
task_201003050945_0006_r_000000 31mins, 9sec
task_201003050945_0006_r_000001 30mins, 36sec
task_201003050945_0006_r_000003 29mins, 54sec
task_201003050945_0006_r_000005 29mins, 27sec
task_201003050945_0006_r_000004 29mins, 22sec
task_201003050945_0006_r_000006 29mins, 14sec
task_201003050945_0006_r_000002 27mins, 43sec
分享到:
评论

相关推荐

    基于Nutch的中文搜索引擎的构建

    ### 基于Nutch的中文搜索引擎的构建 #### 概述 随着互联网技术的快速发展,互联网已经成为人们日常生活中不可或缺的一部分。在这个信息爆炸的时代,如何有效地获取和利用所需信息成为了一个亟待解决的问题。搜索...

    Nutch中文教程nutcher.zip

    nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: ...

    Nutch在Windows中安装之细解

    然后,可以执行抓取流程,如`bin/nutch fetch`、`bin/nutch update`、`bin/nutch generate`、`bin/nutch index`等,按照Nutch的工作流程一步步操作。 在Windows环境下搭建和运行Nutch搜索引擎需要对Cygwin和Unix...

    nutch中文分词

    nutch应用,nutch中文分词,nutch中文乱码

    nutch使用&Nutch;入门教程

    Nutch的工作流程包括多个步骤,如生成段(Segments)、迭代抓取(Fetch)、解析(Parse)、更新链接数据库(Update)、生成新的种子(Generate)、选择待抓取页面(Select)、重定向处理(Fetch)以及索引(Index)...

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    Nutch 的爬虫数据通常包括了它在抓取过程中收集到的网页URL、网页内容、元数据以及爬取日志等信息。 在Nutch的数据流程中,主要涉及以下几个关键步骤: 1. **种子URL生成**:爬虫的起点是种子URL列表,这些URL决定...

    搭建nutch开发环境步骤

    bin/nutch fetch bin/nutch update bin/nutch parse bin/nutch index ``` 以上命令将生成新的抓取批次、从Web服务器获取页面、更新数据库、解析页面内容并创建索引。 **步骤九:使用Solr或Elasticsearch建立索引** ...

    搜索引擎nutch配置

    编译完成后,可以运行Nutch的命令行工具,如`bin/nutch inject`来注入种子URL,`bin/nutch fetch`执行抓取,`bin/nutch update`更新已抓取的页面,`bin/nutch generate`生成待抓取的URL列表,以及`bin/nutch crawl`...

    关于Nutch的安装

    在完成爬行后,你可以继续使用Nutch进行索引和搜索,如`bin/nutch fetch`、`bin/nutch update`、`bin/nutch index`等命令来管理抓取的数据。 总之,Nutch的安装和使用涉及多个步骤,包括环境配置、源代码获取、配置...

    Nutch爬虫工作流程及文件格式详细分析.doc

    - **抓取网页**(bin/nutch fetch) - **更新WebDB**(bin/nutch updatedb) - **生成新的索引**(bin/nutch index) 每个子操作都有对应的命令行工具,允许用户根据需要独立执行。 Nutch的这种设计使得爬虫和搜索...

    nutch的源码解读和nutch入门

    Nutch 的源码结构清晰,适合学习和定制,可以方便地集成到自己的应用程序中。 Nutch 的主要组成部分包括以下几个方面: 1. **Crawling(爬行)**:Nutch 的爬行过程由 `Crawl` 类控制,遵循广度优先的策略。它从...

    Nutch中文分词插件的编写与配置

    Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...

    eclipse配置nutch,eclipse配置nutch

    本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地理解和操作这一过程。 ### 一、理解Nutch与Eclipse的结合 Nutch是一个基于Hadoop的框架,用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页,还...

    nutch 初学文档教材

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....

    Nutch搜索引擎·Nutch简单应用(第3期)

    - [-threads]:参数用于设定Fetcher线程数,覆盖默认配置文件中的fetcher.threads.fetch值,默认为10。 - [-depth]:参数用于设定Nutch爬虫迭代的深度,默认值为5,表示爬虫会访问每个页面上的链接,达到预设的层数...

    搭建nutch web开发环境

    bin/nutch fetch crawldb ``` 这会从CrawlDB中获取URL并下载网页。 3. **解析内容**: ``` bin/nutch parse crawldb ``` 解析下载的HTML内容。 4. **创建索引**: ``` bin/nutch index crawldb -linkdb ...

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    在Nutch 1.2中集成IKAnalyzer,需要修改NutchAnalysis.jj文件,将SIGRAM规则调整为支持连续的汉字,然后在代码中初始化IKTokenizer,使其能够处理输入的文本流。通过这种方式,Nutch现在能够对抓取的网页内容进行...

    Nutch 1.2源码阅读

    - **`nutch-default.xml`**:包含Nutch的所有默认配置,如`fetcher.threads.fetch`参数控制抓取线程数,决定了同时处理的请求数量。 - **`crawl-tool.xml`**:针对爬虫工具的特定配置,可根据需求选择加载。 - **`...

    nutch

    8. **搜索**:最后,Nutch 提供了一个简单的搜索接口,用户可以通过关键词搜索索引库中的内容。 **Nutch 和 Hadoop 的关系** Nutch 与 Hadoop 密切相关,因为 Nutch 是 Hadoop 生态系统的一部分。Hadoop 提供了...

Global site tag (gtag.js) - Google Analytics