- 浏览: 1185351 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (350)
- Ajax研究 (2)
- javascript (22)
- struts (15)
- hibernate (12)
- spring (8)
- 我的生活 (28)
- jsp (2)
- 我的随笔 (84)
- 脑筋急转弯 (1)
- struts2 (2)
- ibatis (1)
- groovy (1)
- json (4)
- flex (20)
- Html Css (5)
- lucene (11)
- solr研究 (2)
- nutch (25)
- ExtJs (3)
- linux (6)
- 正则表达式 (2)
- xml (1)
- jetty (0)
- 多线程 (1)
- hadoop (40)
- mapreduce (5)
- webservice (2)
- 云计算 (8)
- 创业计划 (1)
- android (8)
- jvm内存研究 (1)
- 新闻 (2)
- JPA (1)
- 搜索技术研究 (2)
- perl (1)
- awk (1)
- hive (7)
- jvm (1)
最新评论
-
pandaball:
支持一下,心如大海
做有气质的男人 -
recall992:
山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的 -
zhangsasa:
-services "services-config ...
flex中endpoint的作用是什么? -
来利强:
非常感谢
java使用json所需要的几个包 -
zhanglian520:
有参考价值。
hadoop部署错误之一:java.lang.IllegalArgumentException: Wrong FS
下面是nutch fetch job中map shuffle reduce的时间花费的一个列表:
server name | Fri Mar 05 09:45:13 GMT 2010 | job_201003050945_0006 | fetch crawl/segments/20100305102846 | user name |
User : username
--用户名
JobName :
fetch crawl/segments/20100305102846 --job的名称
JobConf :
hdfs://servername:9000/opt/crawler/data/mapred/system /job_201003050945_0006/job.xml --使用的配置文件位置
Submitted At :
5/03 10:30:29 --提交时间
Launched At :
5/03 10:30:30 (0sec) --开始时间
Finished At :
6/03 17:04:09 (30hrs, 33mins, 38sec) --结束时间
Status :
SUCCESS --结束状态
---从下面的分析可以得出map时间 22hrs avg
---从下面的分析可以得出shuffle时间 30hrs avg
---从下面的分析可以得出reduce时间 29mins avg
Time taken by best performing Map task task_201003050945_0006_m_000014 : 14hrs, 5mins, 23sec
Average time taken by Map tasks: 22hrs, 6mins, 40sec
Worse performing map tasks
Task Id | Time taken |
task_201003050945_0006_m_000010 | 24hrs, 47mins, 14sec |
task_201003050945_0006_m_000011 | 24hrs, 44mins, 1sec |
task_201003050945_0006_m_000013 | 24hrs, 42mins, 23sec |
task_201003050945_0006_m_000012 | 24hrs, 29mins, 6sec |
task_201003050945_0006_m_000007 | 24hrs, 19mins, 44sec |
task_201003050945_0006_m_000006 | 24hrs, 18mins, 54sec |
task_201003050945_0006_m_000001 | 24hrs, 18mins, 41sec |
task_201003050945_0006_m_000008 | 24hrs, 18mins, 26sec |
task_201003050945_0006_m_000000 | 24hrs, 17mins, 7sec |
task_201003050945_0006_m_000005 | 24hrs, 16mins, 2sec |
The last Map task task_201003050945_0006_m_000016 finished at (relative to the Job launch time): 6/03 16:32:44 (30hrs, 2mins, 14sec)
Time taken by best performing shuffle task_201003050945_0006_r_000004 : 30hrs, 2mins, 0sec
Average time taken by Shuffle: 30hrs, 2mins, 10sec
Worse performing Shuffle(s)
Task Id | Time taken |
task_201003050945_0006_r_000000 | 30hrs, 2mins, 26sec |
task_201003050945_0006_r_000002 | 30hrs, 2mins, 18sec |
task_201003050945_0006_r_000001 | 30hrs, 2mins, 18sec |
task_201003050945_0006_r_000003 | 30hrs, 2mins, 4sec |
task_201003050945_0006_r_000005 | 30hrs, 2mins, 3sec |
task_201003050945_0006_r_000006 | 30hrs, 2mins, 2sec |
task_201003050945_0006_r_000004 | 30hrs, 2mins, 0sec |
The last Shuffle task_201003050945_0006_r_000000 finished at (relative to the Job launch time): 6/03 16:33:08 (30hrs, 2mins, 37sec)
Time taken by best performing Reduce task : task_201003050945_0006_r_000002 : 27mins, 43sec
Average time taken by Reduce tasks: 29mins, 38sec
Worse performing reduce tasks
Task Id | Time taken |
task_201003050945_0006_r_000000 | 31mins, 9sec |
task_201003050945_0006_r_000001 | 30mins, 36sec |
task_201003050945_0006_r_000003 | 29mins, 54sec |
task_201003050945_0006_r_000005 | 29mins, 27sec |
task_201003050945_0006_r_000004 | 29mins, 22sec |
task_201003050945_0006_r_000006 | 29mins, 14sec |
task_201003050945_0006_r_000002 | 27mins, 43sec |
发表评论
-
nutch-1.2结合hadoop分布式搜索
2011-07-13 10:50 2664nutch-1.2结合hadoop分布式搜索。 1、网上关于 ... -
nutch-1.x分布式索引指定
2011-07-04 17:15 12801、nutch-1.x中在crawl.java中。最后有这么一 ... -
在nuthc中加入中文分词
2011-05-15 11:41 605nutch实用的分词是默认的,对中文支持的不是很好。 网上有 ... -
nutch1.2中加入中文分词以及搜索错误解决
2011-03-02 12:15 1435在nutch当中加入中文分词。这里我使用的IK_Analyze ... -
使用ant编译时错误:Specify at least one source--a file or resource
2011-02-22 11:12 2462将命令环境切换到Nutch目录下,执行ant命令。出现如下错误 ... -
readdb导致fetch job中断的问题
2011-02-16 13:39 1659Nutch readdb命令可以用来统计目前crawldb库里 ... -
nutch UI 多台机子部署有关jetty配置servlet的问题
2010-01-18 17:35 2469我们jetty是一个小型的web服务器,可以嵌入到程序当中去, ... -
nutch中plugin.folders的配置
2009-12-21 18:07 2426今天在公司做nutch的调试时,犯了一个低级的错误,在这里记录 ... -
把另外的一个项目加入了nutch中来
2009-12-20 23:59 1093周末在家闲的慌,把在公司搞的nutch拿回来在家里试着做了下, ... -
今天来用一个例子来详细讲解下nutch当中到底是如何自定义插件的
2009-12-17 10:29 1663接上面一篇,今天来用一个例子来详细讲解下nutch当中到底是如 ... -
nutch plugin详细分析
2009-12-16 18:06 1394当某个插件需要被加载时, Nutch 会加载所有插件的相关接口 ... -
nutch plugin的流程以及如何自定义plugin
2009-12-16 18:04 1994PluginRepository 是plugin的入口,保存了 ... -
如何读取nutch抓取数据
2009-12-16 17:43 3608如何读取nutch抓取数据 1.首先nutch的配置已经在博 ... -
Nutch1.0 Ui启动在tomcat中的配置
2009-12-07 14:09 1354<!-- @pa ... -
nutch如何才能抓取到动态的url
2009-11-25 15:27 5351http://www.tianya.cn/new/Tianya ... -
配置完成nutch容易出现的错误
2009-11-25 11:50 24841.1.2 运行crawl报错Job failed Ex ... -
在eclipse中如何配置nutch1.0
2009-11-25 11:44 1433<1>: 首先从http://apache.eto ... -
nutch的基本工作流程理解
2009-11-21 00:17 1900(一):Nutch的工作流程: Crawdb、l ... -
cygwin配置说明
2009-11-21 00:15 2363开始,一步一步来:了解Cygwin的人都知道,就是到 : ht ... -
第一次使用nutch
2009-11-19 23:13 1258Nutch 是一个基于Lucene开发的诞生不久的开放源代码( ...
相关推荐
nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: ...
然后,可以执行抓取流程,如`bin/nutch fetch`、`bin/nutch update`、`bin/nutch generate`、`bin/nutch index`等,按照Nutch的工作流程一步步操作。 在Windows环境下搭建和运行Nutch搜索引擎需要对Cygwin和Unix...
- 运行Nutch的基本命令,如抓取种子URL (`bin/nutch inject`), 分析网页 (`bin/nutch fetch`), 解析内容 (`bin/nutch parse`), 更新数据库 (`bin/nutch updatedb`),生成索引 (`bin/nutch index`). 5. **Nutch 与 ...
nutch应用,nutch中文分词,nutch中文乱码
Nutch的工作流程包括多个步骤,如生成段(Segments)、迭代抓取(Fetch)、解析(Parse)、更新链接数据库(Update)、生成新的种子(Generate)、选择待抓取页面(Select)、重定向处理(Fetch)以及索引(Index)...
bin/nutch fetch bin/nutch update bin/nutch parse bin/nutch index ``` 以上命令将生成新的抓取批次、从Web服务器获取页面、更新数据库、解析页面内容并创建索引。 **步骤九:使用Solr或Elasticsearch建立索引** ...
编译完成后,可以运行Nutch的命令行工具,如`bin/nutch inject`来注入种子URL,`bin/nutch fetch`执行抓取,`bin/nutch update`更新已抓取的页面,`bin/nutch generate`生成待抓取的URL列表,以及`bin/nutch crawl`...
在完成爬行后,你可以继续使用Nutch进行索引和搜索,如`bin/nutch fetch`、`bin/nutch update`、`bin/nutch index`等命令来管理抓取的数据。 总之,Nutch的安装和使用涉及多个步骤,包括环境配置、源代码获取、配置...
- **抓取网页**(bin/nutch fetch) - **更新WebDB**(bin/nutch updatedb) - **生成新的索引**(bin/nutch index) 每个子操作都有对应的命令行工具,允许用户根据需要独立执行。 Nutch的这种设计使得爬虫和搜索...
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...
本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地理解和操作这一过程。 ### 一、理解Nutch与Eclipse的结合 Nutch是一个基于Hadoop的框架,用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页,还...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....
- [-threads]:参数用于设定Fetcher线程数,覆盖默认配置文件中的fetcher.threads.fetch值,默认为10。 - [-depth]:参数用于设定Nutch爬虫迭代的深度,默认值为5,表示爬虫会访问每个页面上的链接,达到预设的层数...
bin/nutch fetch crawldb ``` 这会从CrawlDB中获取URL并下载网页。 3. **解析内容**: ``` bin/nutch parse crawldb ``` 解析下载的HTML内容。 4. **创建索引**: ``` bin/nutch index crawldb -linkdb ...
在Nutch 1.2中集成IKAnalyzer,需要修改NutchAnalysis.jj文件,将SIGRAM规则调整为支持连续的汉字,然后在代码中初始化IKTokenizer,使其能够处理输入的文本流。通过这种方式,Nutch现在能够对抓取的网页内容进行...
- **`nutch-default.xml`**:包含Nutch的所有默认配置,如`fetcher.threads.fetch`参数控制抓取线程数,决定了同时处理的请求数量。 - **`crawl-tool.xml`**:针对爬虫工具的特定配置,可根据需求选择加载。 - **`...
8. **搜索**:最后,Nutch 提供了一个简单的搜索接口,用户可以通过关键词搜索索引库中的内容。 **Nutch 和 Hadoop 的关系** Nutch 与 Hadoop 密切相关,因为 Nutch 是 Hadoop 生态系统的一部分。Hadoop 提供了...
在本文中,我们将深入探讨如何搭建Nutch2.3.1的运行环境,以便进行网页抓取和分析。 **一、系统需求** 首先,确保你的系统满足以下基本要求: 1. 操作系统:Nutch可以在Linux、Unix或Mac OS X等类Unix系统上运行,...