论坛首页 入门技术论坛

配置完成nutch容易出现的错误

浏览 7887 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-11-25  

1.1.2   运行crawl报错Job failed

Exception in thread "main" java.io.IOException: Job failed!

        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)

        at org.apache.nutch.indexer.DeleteDuplicates.dedup(DeleteDuplicates.java

:439)

        at org.apache.nutch.crawl.Crawl.main(Crawl.java:135)

问题解决:

此多为crawl-urlfilter.txt:MY.DOMAIN.NAME的修改不正确

1.1.3   又一个Job failed

Exception in thread "main" java.io.IOException: Job failed!

        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)

        at org.apache.nutch.indexer.DeleteDuplicates.dedup(DeleteDuplicates.java

:439)

        at org.apache.nutch.crawl.Crawl.main(Crawl.java:135)

问题解决:

多为crawl-urlfilter.txt的MY.DOMAIN.NAME修改不正确

1.1.4   Eclipse中运行nutch:Job failed

Exception in thread "main" java.io.IOException: Job failed!

       at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)

       at org.apache.nutch.crawl.Injector.inject(Injector.java:162)

       at org.apache.nutch.crawl.Crawl.main(Crawl.java:115)

问题解决:

此问题是eclipse的java版本设置问题,解决方法:

如原来使用java1.4,需要改为1.6

project-》properties-》java compiler

右 jdk compliance

compiler compliance level:改为6.0

   发表时间:2009-11-26  
NUTCH对磁盘空间的使用有什么特点吗? 比如说最大可以使用多大的空间?
0 请登录后投票
   发表时间:2010-01-21  
Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1232)
        at org.apache.nutch.indexer.Indexer.index(Indexer.java:72)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:147
请教 这个是哪的问题呢?
0 请登录后投票
   发表时间:2010-01-22  
你这个问题我这两天也经常碰见,在做测试的时候,我是现把合并索引的几行代码注释掉了,在单机上测试没有什么问题。在多台机子上跑的时候也出现这个问题。我在网上看到一篇文章说是:在nutch-site.xml中加上 (你可以现试试)----------
http.agent.name、http.agent.description、http.agent.url、http.agent.email。这个几个选项。在试试吧!
0 请登录后投票
   发表时间:2010-10-23  
Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1232)
        at org.apache.nutch.indexer.Indexer.index(Indexer.java:72)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:147

我也遇到此问题. 
可能的问题:
1.中断过正在抓取的程序
2.刚集合了庖丁分词
0 请登录后投票
论坛首页 入门技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics