[MapReduce]Apache Hadoop 2.2.0MapReduce1.x向2.x迁移[翻译]

小网客

浏览: 1256009 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

技术文章翻译
MapReduce

介绍

此文档为用户把mr应用从1.x迁移到2.x上提供说明。

在hadoop的2.x中我们引入了一个资源管理器，一个分布式应用的管理框架，同时MRv2仍然是一个纯净的分布式计算框架。

总的来讲，以前的MR应用(MRv1)仍然支持不需要做任何修改。因此MRv2仍然大部分支持MRv1的应用，不过仍然需要代码改进和重构，一些api将被不推荐使用。

余下部分将会讨论MRv2的向后兼容能力。

二进制兼容

首先基于旧mapred api的二进制程序兼容意思是说这些应用程序是基于MRv1的api编译构建的，那么他们不需要做任何修改就可以在MRv2上运行。仅仅需要指明hadoop2.x的配置文件。

源文件兼容

我们不能确定基于mapreduce构建的二进制文件是否能兼容，毕竟这些api基于MRv1变化很大。不过我们可以肯定的是基于mapreduce从新构建二进制文件是兼容的，换句话说用户可以基于mapreduce重新构建他们的二进制文件，一个需要注意的不兼容地方是Counter 和CounterGroup。

不支持

MRAdmin在MRv2中已经被删除。因为mradmin 命令已经不存在了。他被rmadmin替换掉了，我们不支持二进制直接使用了此类。

MRv1用户和MRv2早期用户权衡

不幸的是保持MRv1二进制兼容问题会导致MRv2早期用户(hadoop 0.23用户)二进制不兼容问题。对于mapred api我们选择兼容MRv1应用，因为他们的用户比较庞大。对于mapreduce api用户没有采用hadoop 0.23的应用我们仍然让他们兼容MRv1的应用，如下罗列的是MapReduce api不兼容hadoop 0.23：

Problematic Function	Incompatibility Issue
`org.apache.hadoop.util.ProgramDriver#drive`	Return type changes from `void` to `int`
`org.apache.hadoop.mapred.jobcontrol.Job#getMapredJobID`	Return type changes from `String` to `JobID`
`org.apache.hadoop.mapred.TaskReport#getTaskId`	Return type changes from `String` to `TaskID`
`org.apache.hadoop.mapred.ClusterStatus#UNINITIALIZED_MEMORY_VALUE`	Data type changes from `long` to `int`
`org.apache.hadoop.mapreduce.filecache.DistributedCache#getArchiveTimestamps`	Return type changes from `long[]` to `String[]`
`org.apache.hadoop.mapreduce.filecache.DistributedCache#getFileTimestamps`	Return type changes from `long[]` to `String[]`
`org.apache.hadoop.mapreduce.Job#failTask`	Return type changes from `void` to `boolean`
`org.apache.hadoop.mapreduce.Job#killTask`	Return type changes from `void` to `boolean`
`org.apache.hadoop.mapreduce.Job#getTaskCompletionEvents`	Return type changes from `o.a.h.mapred.TaskCompletionEvent[]` to`o.a.h.mapreduce.TaskCompletionEvent[]`

蓄意

用户在YARN上运行 hadoop-examples-1.x.x.jar，需要注意的是hadoop -jar hadoop-examples-1.x.x.jar仍然采用的是hadoop-mapreduce-examples-2.x.x.jar，他跟其他MRv2安装在一起。默认hadoop的jar优先于用户的jar加载也就是说2.x.x的会优先执行。用户需要在所有的hadoop节点上移除hadoop-mapreduce-examples-2.x.x.jar 。用户需要设置 HADOOP_USER_CLASSPATH_FIRST=true and HADOOP_CLASSPATH=...:hadoop-examples-1.x.x.jar去执行他们想执行的例子，同时需要在mapred-site.xml配置文件中加入如下信息以便YARN加载此jar：

<property>
	<name>mapreduce.job.user.classpath.first</name>
	<value>true</value>
</property>

0
顶

0
踩

分享到：

[YARN]Apache Hadoop 2.2.0YARN技术架构[ ... | [综合]Apache Hadoop 2.2.0文件系统shell( ...

2013-11-28 16:29
浏览 1727
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论