nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0 -

羊羊羊

浏览: 13498 次

最近访客更多访客>>

sunshinejava

发的发的

cslwoaini2010

vctyou

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0

博客分类：

hadoop nutch

hadoop nutch 2.2.0 1.8

由于项目需要把nutch运行在hadoop2.2.0上，但是官方网站上给出的版本为hadoop1.2.0，于是需要做版本兼容，我们选取的nutch版本为2.2.1，以为最大的版本是最新的，后来发现无知了，这也是后来痛苦经历的根源。

先说结论，nutch1.8直接可以运行在hadoop2.2.0上，不用为版本兼容做任何修改。

但是不知道这一结论之前我为了兼容nutch 2.2.1和hadoop2.2.0及hbase0.96做了如下工作：
1、修改gora-core，将里面依赖hbase和hadoop的内容都改为高版本的，修正编译错误重新编译
2、修改gora-hbase，重复跟gora-core一样的动作
3、修改nutch的build.xml文件，将所有依赖的低版本也改为高版本，然后在maven库中将gora-core和gora-hbase也替换为我们重新编译过的。
4、修改gora-core和gora-hbase的ivy文件，去掉对低版本hadoop包和hbase包机avro包的依赖
5、重新编译nutch，这是会欣喜的发现，inject命令可以执行了
6、但是执行generate的时候会出现一个空指针，粘一部分
java.lang.Exception: java.lang.NullPointerException: null of string in field baseUrl of org.apache.nutch.storage.WebPage
        at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:403)
Caused by: java.lang.NullPointerException: null of string in field baseUrl of org.apache.nutch.storage.WebPage
        at org.apache.avro.generic.GenericDatumWriter.npe(GenericDatumWriter.java:97)
        at org.apache.avro.generic.GenericDatumWriter.write(GenericDatumWriter.java:91)
        at org.apache.avro.generic.GenericDatumWriter.write(GenericDatumWriter.java:61)
        at org.apache.hadoop.io.serializer.avro.AvroSerialization$AvroSerializer.serialize(AvroSerialization.java:105)
   经过多方调查得到如下结论：
   1）空指针是由于hadoop2.2.0时使用的GenericDatumWriter，而1.0.1时使用的是PersistentDatumWriter
   2）而产生上述问题的原因是用于hadoop2.2.0时使用是AvroSerializer，而1.0.1时使用的是PersistentSerializer
   3）而产生上述问题的原因是在hadoop的MapTask类中，会选取对value的序列化类（2.2.0的hadoop-mapreduce-client-core中MapTask的第985行），而序列化类是由Serialization类包装的
   4）组合Serialization类的代码在2.2.0的hadoop-common的SerializationFactory构造函数中即第56行开始，而hadoop1.0中对应的代码时不一样的，比较一下
hadoop2.2.0：
public SerializationFactory(Configuration conf) {
    super(conf);
    for (String serializerName : conf.getStrings(
      CommonConfigurationKeys.IO_SERIALIZATIONS_KEY,
      new String[]{WritableSerialization.class.getName(),
        AvroSpecificSerialization.class.getName(),
        AvroReflectSerialization.class.getName()})) {
      add(conf, serializerName);
    }
}

hadoop 1.0.1:
public SerializationFactory(Configuration conf) {
    super(conf);
    for (String serializerName : conf.getStrings("io.serializations",
      new String[]{"org.apache.hadoop.io.serializer.WritableSerialization"})) {
      LOG.error("serializerName"+serializerName);
      add(conf, serializerName);
    }
}
CommonConfigurationKeys.IO_SERIALIZATIONS_KEY这个变量跟下面是一样的，本人在1.0.1上打log看了，就是包含后来PersistentSerializer的PersistentSerialization，由于半天没配好2.2.0的编译环境，所以后来2.2.0那边就没查了，然后就发现1.8直接能用了。。。

自此痛苦的调查告一段落，期望后来人不要向我一样走弯路，也给期望继续做nutch2.2.1和合hadoop2.2.0兼容的人留一点意见。

再次重复hadoop2.2.0和nutch1.8是可以兼容的！

0
顶

0
踩

分享到：

java身份证校验类，直接拿去用 | Centos yum repo共享~直接拿去用

2014-04-16 18:06
浏览 2304
评论(4)
分类:开源软件
查看更多

4 楼羊羊羊 2014-06-11

smileyboy2009 写道

1.8 怎么配置到2.2上面，怎么用是，是存在在hdfs上面，还是hbase上面，能写个简单的例子吗？

nutch编译好只有有个local文件夹和deploy文件夹，里面都有crawl命令，执行这个命令输入参数就是爬取了，local是本地单节点爬取，deploy里就是用本地的hadoop环境爬，说穿了，nutch就是个mr程序

3 楼 smileyboy2009 2014-05-26

1.8 怎么配置到2.2上面，怎么用是，是存在在hdfs上面，还是hbase上面，能写个简单的例子吗？

2 楼羊羊羊 2014-05-09

不用换，直接编译好，放到hadoop2.2.0上就能跑，我已经实践过了

phlianthropy 写道

nutch1.8不需要替换掉里面的hadoop-core-1.2吗？

1 楼 phlianthropy 2014-05-06

nutch1.8不需要替换掉里面的hadoop-core-1.2吗？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0

评论

发表评论

相关推荐

最近访客更多访客>>