nutch搏斗之一

yuhai.china

浏览: 161684 次
性别:
来自: 北京

最近访客更多访客>>

erpaoshouling

leiwuhenfan

clanmei

CURRY_LI

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Java Apache 互联网 Servlet JSP

问题描述：
在用nutch1.0做generate 包括5亿url的crawldb时，它默认按照64M分块，分成777个map task，在运行的后期出现
Could not find taskTracker/jobcache/job_200903231519_0017/attempt_200903231519_0017_r_000051_0/output/file.out in any of the configured local directories
异常。
解决办法：
减小task数目，改成按照crawldb里面文件个数划分的策略：

  public static class InputFormat extends SequenceFileInputFormat<WritableComparable, Writable> {
	    /** Don't split inputs, to keep things polite. */
	    public InputSplit[] getSplits(JobConf job, int nSplits)
	      throws IOException {
	      FileStatus[] files = listStatus(job);
	      FileSystem fs = FileSystem.get(job);
	      InputSplit[] splits = new InputSplit[files.length];
	      for (int i = 0; i < files.length; i++) {
	        FileStatus cur = files[i];
	        splits[i] = new FileSplit(cur.getPath(), 0,
	            cur.getLen(), (String[])null);
	      }
	      return splits;
	    }
	  }

这次出现了新问题，有数个task因为十分钟无反应而导致整个任务failed
解决办法：
修改hadoop-site.xml

<property>
  <name>mapred.task.timeout</name>
  <value>3600000</value>
  <description>The number of milliseconds before a task will be
  terminated if it neither reads an input, writes an output, nor
  updates its status string.
  </description>
</property>

总结：
大与小，多与少，长与短，在不同的情况下是不断变化的，对于大数据量而言，更要跟具实际情况灵活变化，所谓运用之刀，存乎一心是也！

分享到：

python url编码 | 设计python版的爬虫

2009-03-26 19:01
浏览 1514
评论(2)
查看更多

2 楼 952222 2009-08-04

我想问个问题，就是NUTCH在搜索具有交叉字的词语时，会有错误。查询其它的词语的时候没有问题。不知道为什么，可以教我一下吗？比如说搜索“互联网”，由于它可以切成“互联”和“联网”组成的，共享了一个“联”，所以有那个错误。请帮忙看一下呀。谢谢咀

java.lang.RuntimeException: java.util.concurrent.ExecutionException: java.lang.StringIndexOutOfBoundsException: String index out of range: -1
org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:285)
org.apache.nutch.searcher.NutchBean.getSummary(NutchBean.java:325)
org.apache.jsp.searchs_jsp._jspService(searchs_jsp.java:292)
org.apache.jasper.runtime.HttpJspBase.service(HttpJspBase.java:97)
javax.servlet.http.HttpServlet.service(HttpServlet.java:802)
org.apache.jasper.servlet.JspServletWrapper.service(JspServletWrapper.java:334)
org.apache.jasper.servlet.JspServlet.serviceJspFile(JspServlet.java:314)
org.apache.jasper.servlet.JspServlet.service(JspServlet.java:264)
javax.servlet.http.HttpServlet.service(HttpServlet.java:802)

1 楼 952222 2009-08-04

5亿?!!!真的假的啊？好大啊！有多大啊？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论