nutch1.4 分布式爬取

peigang

浏览: 172844 次
性别:
来自: 北京

最近访客更多访客>>

yxmzhg

yexiaoshunfeier

wd1282988143

the12thwolf

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

nutch

从nutch1.3开始本地抓取（单机），分布式抓取（集群）所使用的配置文件和命令单独分开。
NUTCH_HOME/conf 为分布式抓取所用配置文件
NUTCH_HOME/runtime/deply/bin/nutch 分布式抓取命令
NUTCH_HOME/runtime/local/conf 为本地抓取所用配置文件
NUTCH_HOME/runtime/local/bin/nutch 本地抓取命令

另外，修改了NUTCH_HOME/conf下的配置文件，需要重新编译之后才能生效。

爬取命令分别如下：

单机：

*/nutch1.4/runtime/local/bin/nutch.sh crawl urls -solr http://address:point/solr -dir crawl -depth 2 -threads 1 -topN 100

集群：

 */nutch1.4/runtime/deploy/bin/nutch.sh crawl urls -solr http://address:point/solr -dir crawl -depth 2 -threads 1 -topN 100

环境准备：

1、配置hadoop，确保hadoop运行正常。（hadoop配置请参考文章。《hadoop集群配置》）

2、将hadoop/conf目录中的配置文件拷贝到nutch/conf中，使nutch绑定hadoop。

程序准备：

1、将nutch1.4拷贝到其他集群机器中采用保证存放目录结构相同；

2 、运行本文所示集群脚本，可能出现如下错误：

12/06/18 02:49:27 INFO mapred.JobClient: Running job: job_201206180227_0001
12/06/18 02:49:28 INFO mapred.JobClient:  map 0% reduce 0%
12/06/18 02:49:48 INFO mapred.JobClient: Task Id : attempt_201206180227_0001_m_000000_0, Status : FAILED
java.lang.RuntimeException: Error in configuring object
        at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93)
        at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:64)
        at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)
        at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:432)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:372)
        at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:415)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083)
        at org.apache.hadoop.mapred.Child.main(Child.java:249)
Caused by: java.lang.reflect.InvocationTargetException
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:601)
        at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:88)
        ... 9 more

无法找到plugins导致的问题，将如下配置加入nutch-default.xml中

<property>
  <name>plugin.folders</name>
  <value>./plugins</value>
  <description>Directories where nutch plugins are located.  Each
  element may be a relative or absolute path.  If absolute, it is used
  as is.  If relative, it is searched for on the classpath.</description>
</property>

重新编译并部署，将编译后的nutch-*job拷贝到deploy下，注意文件命名格式必须符合要求。默认的文件名apache-nutch-*-SNAPSHOT.job会导致 java.io.IOException异常。

总结：deploy中只需要bin和*.job文件就可以集群运行。所以配置都针对*.job中的各项文件、路径，以上配置经过多次测试确认，以供参考。

--------------------------------------------------------

单点环境爬取：

分布式爬取各个步骤无法有效监控，单点爬取是测试验证程序的一个办法。

单点爬取只是将deploy中的*.job文件进行了分别的维护，包括bin、conf、lib、log、plugins。只需将项目对应目录中的文件拷贝到单点环境即可。拷贝完后执行 bin/nutch ******* 。如果爬取失败，则可以根据log中的日志跟踪来进行处理。一般情况下先检查各目录中的文件是否同步完毕，特别是lib中的*.jar文件是不是全部引入等等。

分享到：

分析师给出关于Hadoop的12个事实 | nutch1.4：爬虫定时抓取设置

2012-06-19 12:02
浏览 5452
评论(5)
分类:开源软件
查看更多

5 楼 peigang 2012-09-07

hahsuu 写道

前面的叙述我觉得不是太清楚，重新组织一下。
你好，这里有个问题想请教一下：
修改了NUTCH_HOME/conf下的配置文件，需要重新编译之后才能生效，我的理解是将相关的配置文件打包在nutch-*job文件中，现在有个疑问是：对于nutch绑定hadoop的操作，是放在重新编译之前做，还是放在重新编译之后做。如果放在重新编译之前做，那么每次增加新hadoop结点，每次都要重新编译了吗？盼解答。

问题问的很好。其实只需要将core-site.xml,hdfs-site.xml,mapred-site.xml复制到nutch中即可。这些配置文件中不涉及子节点的设置。所以当配置好hadoop后再配置nutch。以后增加节点跟nutch也没有关系。nutch指向namenode的配置不能有变化。

4 楼 hahsuu 2012-09-03

3 楼 hahsuu 2012-09-03

你好，这里有个问题想请教一下：
修改了NUTCH_HOME/conf下的配置文件，需要重新编译之后才能生效，我的理解是将相关的配置文件打包在nutch-*job文件中，现在有个疑问是：nutch绑定hadoop，应该是在重新编译之前绑定，还是在先绑定，再编译。如果是后者，每次增加新hadoop结点，每次都要重新编译了吗？盼回答。

2 楼 peigang 2012-07-08

runtime/local/ 直线 bin/nutch 试试。查看错误日志，还有可能是plugin.folders配置问题。

1 楼 finger321 2012-07-06

你好，我按照你的配置，我出现了如下这样的错误：
root@SZ11101345c02:/home/mos/nutch_src/branch-1.5# runtime/local/bin/nutch crawl urls -dir crawl -depth 3 -topN 5
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/util/PlatformName
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.util.PlatformName
        at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
        at java.security.AccessController.doPrivileged(Native Method)
        at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
        at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:247)
Could not find the main class: org.apache.hadoop.util.PlatformName. Program will exit.
Can't find Hadoop executable. Add HADOOP_HOME/bin to the path or run in local mode.

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论