Nutch fetch job中时间的分配比例 - 心如大海 - ITeye博客

`

p_x1984

浏览: 1189182 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

清风_秋雨

sun80264629

shaoaj

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

pandaball：支持一下，心如大海
做有气质的男人
recall992：山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的
zhangsasa： -services "services-config ...
flex中endpoint的作用是什么？
来利强：非常感谢
java使用json所需要的几个包
zhanglian520：有参考价值。
hadoop部署错误之一：java.lang.IllegalArgumentException: Wrong FS

Nutch fetch job中时间的分配比例

博客分类：

nutch

阅读更多

下面是nutch fetch job中map shuffle reduce的时间花费的一个列表：

server name

Fri Mar 05 09:45:13 GMT 2010

job_201003050945_0006

fetch crawl/segments/20100305102846

user name

User : username --用户名
JobName : fetch crawl/segments/20100305102846 --job的名称
JobConf : hdfs://servername:9000/opt/crawler/data/mapred/system /job_201003050945_0006/job.xml --使用的配置文件位置
Submitted At : 5/03 10:30:29 --提交时间
Launched At : 5/03 10:30:30 (0sec) --开始时间
Finished At : 6/03 17:04:09 (30hrs, 33mins, 38sec) --结束时间
Status : SUCCESS --结束状态

---从下面的分析可以得出map时间 22hrs avg
---从下面的分析可以得出shuffle时间 30hrs avg
---从下面的分析可以得出reduce时间 29mins avg

Time taken by best performing Map task task_201003050945_0006_m_000014 : 14hrs, 5mins, 23sec

Average time taken by Map tasks: 22hrs, 6mins, 40sec

Worse performing map tasks

Task Id	Time taken
task_201003050945_0006_m_000010	24hrs, 47mins, 14sec
task_201003050945_0006_m_000011	24hrs, 44mins, 1sec
task_201003050945_0006_m_000013	24hrs, 42mins, 23sec
task_201003050945_0006_m_000012	24hrs, 29mins, 6sec
task_201003050945_0006_m_000007	24hrs, 19mins, 44sec
task_201003050945_0006_m_000006	24hrs, 18mins, 54sec
task_201003050945_0006_m_000001	24hrs, 18mins, 41sec
task_201003050945_0006_m_000008	24hrs, 18mins, 26sec
task_201003050945_0006_m_000000	24hrs, 17mins, 7sec
task_201003050945_0006_m_000005	24hrs, 16mins, 2sec

The last Map task task_201003050945_0006_m_000016 finished at (relative to the Job launch time): 6/03 16:32:44 (30hrs, 2mins, 14sec)

Time taken by best performing shuffle task_201003050945_0006_r_000004 : 30hrs, 2mins, 0sec

Average time taken by Shuffle: 30hrs, 2mins, 10sec

Worse performing Shuffle(s)

Task Id	Time taken
task_201003050945_0006_r_000000	30hrs, 2mins, 26sec
task_201003050945_0006_r_000002	30hrs, 2mins, 18sec
task_201003050945_0006_r_000001	30hrs, 2mins, 18sec
task_201003050945_0006_r_000003	30hrs, 2mins, 4sec
task_201003050945_0006_r_000005	30hrs, 2mins, 3sec
task_201003050945_0006_r_000006	30hrs, 2mins, 2sec
task_201003050945_0006_r_000004	30hrs, 2mins, 0sec

The last Shuffle task_201003050945_0006_r_000000 finished at (relative to the Job launch time): 6/03 16:33:08 (30hrs, 2mins, 37sec)

Time taken by best performing Reduce task : task_201003050945_0006_r_000002 : 27mins, 43sec

Average time taken by Reduce tasks: 29mins, 38sec

Worse performing reduce tasks

Task Id	Time taken
task_201003050945_0006_r_000000	31mins, 9sec
task_201003050945_0006_r_000001	30mins, 36sec
task_201003050945_0006_r_000003	29mins, 54sec
task_201003050945_0006_r_000005	29mins, 27sec
task_201003050945_0006_r_000004	29mins, 22sec
task_201003050945_0006_r_000006	29mins, 14sec
task_201003050945_0006_r_000002	27mins, 43sec

分享到：

readdb导致fetch job中断的问题 | Linux压缩打包命令使用方法

2011-02-16 13:38
浏览 1342
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Nutch中文教程nutcher.zip: nutcher 是 Apache Nutch 的中文教程，在github上托管。nutch社区目前缺少教程和文档，而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档，供开发者学习。 github地址： ...

Nutch在Windows中安装之细解: 然后，可以执行抓取流程，如`bin/nutch fetch`、`bin/nutch update`、`bin/nutch generate`、`bin/nutch index`等，按照Nutch的工作流程一步步操作。在Windows环境下搭建和运行Nutch搜索引擎需要对Cygwin和Unix...

Apache Nutch 1.7 学习总结: - 运行Nutch的基本命令，如抓取种子URL (`bin/nutch inject`), 分析网页 (`bin/nutch fetch`), 解析内容 (`bin/nutch parse`), 更新数据库 (`bin/nutch updatedb`)，生成索引 (`bin/nutch index`). 5. **Nutch 与 ...

nutch中文分词: nutch应用，nutch中文分词，nutch中文乱码

nutch使用&Nutch;入门教程: Nutch的工作流程包括多个步骤，如生成段（Segments）、迭代抓取（Fetch）、解析（Parse）、更新链接数据库（Update）、生成新的种子（Generate）、选择待抓取页面（Select）、重定向处理（Fetch）以及索引（Index）...

搭建nutch开发环境步骤: bin/nutch fetch bin/nutch update bin/nutch parse bin/nutch index ``` 以上命令将生成新的抓取批次、从Web服务器获取页面、更新数据库、解析页面内容并创建索引。 **步骤九：使用Solr或Elasticsearch建立索引** ...

搜索引擎nutch配置: 编译完成后，可以运行Nutch的命令行工具，如`bin/nutch inject`来注入种子URL，`bin/nutch fetch`执行抓取，`bin/nutch update`更新已抓取的页面，`bin/nutch generate`生成待抓取的URL列表，以及`bin/nutch crawl`...

关于Nutch的安装: 在完成爬行后，你可以继续使用Nutch进行索引和搜索，如`bin/nutch fetch`、`bin/nutch update`、`bin/nutch index`等命令来管理抓取的数据。总之，Nutch的安装和使用涉及多个步骤，包括环境配置、源代码获取、配置...

Nutch爬虫工作流程及文件格式详细分析.doc: - **抓取网页**（bin/nutch fetch） - **更新WebDB**（bin/nutch updatedb） - **生成新的索引**（bin/nutch index）每个子操作都有对应的命令行工具，允许用户根据需要独立执行。 Nutch的这种设计使得爬虫和搜索...

Nutch中文分词插件的编写与配置: Nutch中文分词插件的编写与配置，由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...

eclipse配置nutch，eclipse配置nutch: 本文将详细解析如何在Eclipse中配置Nutch，以便于开发者更好地理解和操作这一过程。 ### 一、理解Nutch与Eclipse的结合 Nutch是一个基于Hadoop的框架，用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页，还...

nutch 初学文档教材: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。目录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....

Nutch搜索引擎·Nutch简单应用（第3期）: - [-threads]：参数用于设定Fetcher线程数，覆盖默认配置文件中的fetcher.threads.fetch值，默认为10。 - [-depth]：参数用于设定Nutch爬虫迭代的深度，默认值为5，表示爬虫会访问每个页面上的链接，达到预设的层数...

搭建nutch web开发环境: bin/nutch fetch crawldb ``` 这会从CrawlDB中获取URL并下载网页。 3. **解析内容**： ``` bin/nutch parse crawldb ``` 解析下载的HTML内容。 4. **创建索引**： ``` bin/nutch index crawldb -linkdb ...

实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎): 在Nutch 1.2中集成IKAnalyzer，需要修改NutchAnalysis.jj文件，将SIGRAM规则调整为支持连续的汉字，然后在代码中初始化IKTokenizer，使其能够处理输入的文本流。通过这种方式，Nutch现在能够对抓取的网页内容进行...

Nutch 1.2源码阅读: - **`nutch-default.xml`**：包含Nutch的所有默认配置，如`fetcher.threads.fetch`参数控制抓取线程数，决定了同时处理的请求数量。 - **`crawl-tool.xml`**：针对爬虫工具的特定配置，可根据需求选择加载。 - **`...

nutch: 8. **搜索**：最后，Nutch 提供了一个简单的搜索接口，用户可以通过关键词搜索索引库中的内容。 **Nutch 和 Hadoop 的关系** Nutch 与 Hadoop 密切相关，因为 Nutch 是 Hadoop 生态系统的一部分。Hadoop 提供了...

Nutch2.3.1 环境搭建: 在本文中，我们将深入探讨如何搭建Nutch2.3.1的运行环境，以便进行网页抓取和分析。 **一、系统需求** 首先，确保你的系统满足以下基本要求： 1. 操作系统：Nutch可以在Linux、Unix或Mac OS X等类Unix系统上运行，...

Global site tag (gtag.js) - Google Analytics