Hadoop MapReduce开发最佳实践

longzhun

浏览: 374731 次
性别:
来自: 北京

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

MapRuduce开发对于大多数程序员都会觉得略显复杂，运行一个WordCount（Hadoop中hello word程序）不仅要熟悉MapRuduce模型，还要了解Linux命令（尽管有Cygwin，但在Windows下运行MapRuduce仍然很麻烦），此外还要学习程序的打包、部署、提交job、调试等技能，这足以让很多学习者望而退步。

所以如何提高MapReduce开发效率便成了大家很关注的问题。但Hadoop的Committer早已经考虑到这些问题，从而开发了ToolRunner、MRunit（MapReduce最佳实践第二篇中会介绍）、MiniMRCluster、MiniDFSCluster等辅助工具，帮助解决开发、部署等问题。举一个自己亲身的例子：

知名互联网公司管理方法之Facebook

相关赞助商

QCon北京2016大会，4月21-23日，北京·国际会议中心，精彩内容邀您参与！

某周一和搭档(结对编程)决定重构一个完成近10项统计工作的MapRuduce程序，这个MapReduce（从Spring项目移植过来的）,因为依赖Spring框架(原生Spring，非Spring Hadoop框架),导致性能难以忍受，我们决定将Spring从程序中剔除。重构之前程序运行是正确的，所以我们要保障重构后运行结果与重构前一致。搭档说，为什么我们不用TDD来完成这个事情呢？于是我们研究并应用了MRunit，令人意想不到的是，重构工作只用了一天就完成，剩下一天我们进行用findbug扫描了代码，进行了集成测试。这次重构工作我们没有给程序带来任何错误，不但如此我们还拥有了可靠的测试和更加稳固的代码。这件事情让我们很爽的同时，也在思考关于MapReduce开发效率的问题，要知道这次重构我们之前评估的时间是一周，我把这个事情分享到EasyHadoop群里，大家很有兴趣，一个朋友问到，你们的评估太不准确了，为什么开始不评估2天完成呢？我说如果我们没有使用MRUnit，真的是需要一周才能完成。因为有它单元测试，我可以在5秒内得到我本次修改的反馈，否则至少需要10分钟（编译、打包、部署、提交MapReduce、人工验证结果正确性），而且重构是个反复修改，反复运行，得到反馈，再修改、再运行、再反馈的过程，MRunit在这里帮了大忙。

相同智商、相同工作经验的开发人员，借助有效的工具和方法，竟然可以带来如此大的开发效率差距，不得不让人惊诧！

PS. 本文基于Hadoop 1.0（Cloudera CDH3uX）。本文适合读者：Hadoop初级、中级开发者。

1. 使用ToolRunner让参数传递更简单

关于MapReduce运行和参数配置，你是否有下面的烦恼：

将MapReduce Job配置参数写到java代码里，一旦变更意味着修改java文件源码、编译、打包、部署一连串事情。
当MapReduce 依赖配置文件的时候，你需要手工编写java代码使用DistributedCache将其上传到HDFS中，以便map和reduce函数可以读取。
当你的map或reduce 函数依赖第三方jar文件时，你在命令行中使用”-libjars”参数指定依赖jar包时，但根本没生效。

其实，Hadoop有个ToolRunner类，它是个好东西，简单好用。无论在《Hadoop权威指南》还是Hadoop项目源码自带的example，都推荐使用ToolRunner。

下面我们看下src/example目录下WordCount.java文件，它的代码结构是这样的：

public class WordCount {
    // 略...
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String[] otherArgs = new GenericOptionsParser(conf, 
                                            args).getRemainingArgs();
        // 略...
        Job job = new Job(conf, "word count");
        // 略...
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

WordCount.java中使用到了GenericOptionsParser这个类，它的作用是将命令行中参数自动设置到变量conf中。举个例子，比如我希望通过命令行设置reduce task数量，就这么写：

bin/hadoop jar MyJob.jar com.xxx.MyJobDriver -Dmapred.reduce.tasks=5

上面这样就可以了，不需要将其硬编码到java代码中，很轻松就可以将参数与代码分离开。

其它常用的参数还有”-libjars”和-“files”，使用方法一起送上：

bin/hadoop jar MyJob.jar com.xxx.MyJobDriver -Dmapred.reduce.tasks=5 \ 
    -files ./dict.conf  \
    -libjars lib/commons-beanutils-1.8.3.jar,lib/commons-digester-2.1.jar

参数”-libjars”的作用是上传本地jar包到HDFS中MapReduce临时目录并将其设置到map和reduce task的classpath中；参数”-files”的作用是上传指定文件到HDFS中mapreduce临时目录，并允许map和reduce task读取到它。这两个配置参数其实都是通过DistributeCache来实现的。

至此，我们还没有说到ToolRunner，上面的代码我们使用了GenericOptionsParser帮我们解析命令行参数，编写ToolRunner的程序员更懒，它将 GenericOptionsParser调用隐藏到自身run方法，被自动执行了，修改后的代码变成了这样：

public class WordCount extends Configured implements Tool {

    @Override
    public int run(String[] arg0) throws Exception {
        Job job = new Job(getConf(), "word count");
        // 略...
        System.exit(job.waitForCompletion(true) ? 0 : 1);
        return 0;
    }

    public static void main(String[] args) throws Exception {
        int res = ToolRunner.run(new Configuration(), new WordCount(), args);
        System.exit(res);
    }
}

看看代码上有什么不同：

让WordCount继承Configured并实现Tool接口。
重写Tool接口的run方法，run方法不是static类型，这很好。
在WordCount中我们将通过getConf()获取Configuration对象。

关于GenericOptionsParser更多用法，请点击这里：GenericOptionsParser.html

推荐指数：★★★★

推荐理由：通过简单的几步，就可以实现代码与配置隔离、上传文件到DistributeCache等功能。修改MapReduce参数不需要修改java代码、打包、部署，提高工作效率。

分享到：

Hadoop 新 MapReduce 框架 Yarn 详解 | Hadoop管理员的十个最佳实践

2016-02-25 11:21
浏览 457
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论