`
Jen
  • 浏览: 57848 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

hadoop单元测试方法--使用和增强MRUnit[1]

    博客分类:
  • java
阅读更多

 

hadoop单元测试方法--使用和增强MRUnit


1前言

         hadoopmapreduce提交到集群环境中出问题的定位是比较麻烦的,有时需要一遍遍的修改代码和打出日志来排查一个很小的问题,如果数据量大的话调试起来相当耗时间。因此有必要使用良好的单元测试手段来尽早的消除明显的bug(当然仅有单元测试是不够的,毕竟跟集群的运行环境还是不一样的)。

       然而做mapreduce的单元测试会有一些障碍,比如MapReduce一些参数对象是在运行时由hadoop框架传入的,例如OutputCollectorReporterInputSplit等。这就需要有Mock手段。最初写mapreduce单元测试的时候自己写了几个简单的Mock也基本能满足需要,后来发现MRUnit比我写的要好用所以研究了一下就采用了。MRUnit是专门为hadoop mapreduce写的单元测试框架,API简洁明了,简单实用。但也有一些薄弱的地方,比如不支持MultipleOutputs(很多情况下我们会用MultipleOutputs作为多文件输出,后面将介绍如何增强MRUnit使之支持MultipleOutputs)。

2 MRUnit

         MRUnit针对不同测试对象分别使用以下几种Driver

l  MapDriver,针对单独的Map测试。

l  ReduceDriver,针对单独的Reduce测试。

l  MapReduceDriver,将MapReduce连贯起来测试。

l  PipelineMapReduceDriver,将多个Map-Reduce pair贯串测试。

MapDriver

         单独测试Map的例子,假设我们要计算一个卖家的平均发货速度。Map将搜集每一次发货的时间间隔。针对Map的测试,

         //这是被测试的Map

    private Map mapper;

    private MapDriver<LongWritable, Text, Text, TimeInfo> mapDriver;

    @Before

    public void setUp() {

        mapper = new Map();

        mapDriver = new MapDriver<LongWritable, Text, Text, TimeInfo>();

    }

 

    @Test

    public void testMap_timeFormat2() {

        String sellerId = "444";

        //模拟输入一行(withInput),假设从这行数据中我们可以获得卖家(sellerId)      //某一次时间间隔 10小时.

       //我们期望它输出sellerIdkeyvalue为代表110小时的TimeInfo对象。          //withOutput

       //如果输入数据经过Map计算后为期望的结果,那么测试通过。

       Text mapInputValue = new Text("……");

        mapDriver.withMapper(mapper)

              .withInput(null, mapInputValue)

              .withOutput(new Text(sellerId), new TimeInfo(1, 10))

              .runTest();

    }

ReduceDriver

         针对Reduce的单独测试,还是这个例子。Reduce为根据MapCombiner输出的n次时间间隔的总和来计算平均时间。

    private Reduce reducer;

    @Before

    public void setUp() {

        reducer = new Reduce();

        reduceDriver = new ReduceDriver<Text, TimeInfo, Text,                                           LongWritable>(reducer);

    }

 

    @Test

    public void testReduce () {

        List<TimeInfo> values = new ArrayList<TimeInfo>();

        values.add(new TimeInfo(1, 3));//一次3小时

        values.add(new TimeInfo(2, 5));//两次总共5小时

        values.add(new TimeInfo(3, 7));//三次总共7小时

       //values作为444这个卖家的reduce输入,

       //期望计算出平均为2小时

        reduceDriver.withReducer(reducer)

                  .withInput(new Text("444"), values)

                  .withOutput(new Text("444"),new  LongWritable(2))

                  .runTest();

    }

MapReduceDriver

    以下为MapReduce联合测试的例子,

    private MapReduceDriver<LongWritable, Text, Text, TimeInfo, Text, LongWritable> mrDriver;

    private Map mapper;

    private Reduce reducer;

    @Before

    public void setUp() {

        mapper = new Map();

        reducer = new Reduce();

        mrDriver = new MapReduceDriver<LongWritable, Text, Text, TimeInfo,                    Text, LongWritable>(mapper, reducer);

    }

 

    @Test

    public void testMapReduce_3record_1user() {

       Text mapInputValue1 = new Text("……");

       Text mapInputValue2 = new Text("……");

       Text mapInputValue3 = new Text("……");

       //我们期望从以上三条Map输入计算后,

       //reduce输出得到444这个卖家的平均时间为2小时.

        mrDriver.withInput(null, mapInputValue1)

           .withInput(null, mapInputValue2)

           .withInput(null, mapInputValue3)

           .withOutput(new Text("444"),new LongWritable(2))

           .runTest();

    }

 

字数超出了,下一篇继续介绍增强MRUnit使他支持MultipleOutputs、从文件加载数据集和自动装配等几个特性http://jen.iteye.com/blog/1003868

3
1
分享到:
评论
1 楼 wangxf314 2013-10-10  
没有源码,哥们能上传一份吗?大家也参考学习一下

相关推荐

    hadoop单元测试方法--使用和增强MRUnit.docx

    MRUnit是一个专门为Hadoop MapReduce设计的单元测试框架,它提供了Mock对象来模拟Map和Reduce阶段的各种组件,简化了测试流程。 **1. MRUnit简介** MRUnit主要提供了四种Driver类,用于不同类型的测试场景: - **...

    Hadoop专业解决方案-第5章开发可靠的MapReduce应用.docx

    使用MRUnit时,首先需要在项目的pom.xml文件中添加MRUnit的依赖,区分Hadoop 1.x和2.x版本的库。Eclipse作为IDE,可以方便地进行MapReduce项目管理和MRUnit的单元测试。通过编写测试类,将Mapper和Reducer作为参数...

    hadoop权威指南 第三版 英文版

    - 使用MRUnit编写测试单元。 - 输出提交机制。 - 分布式缓存功能。 - 任务内存监控。 - 通过MapReduce处理Avro数据。 - 在Oozie中运行简单的MapReduce工作流。 - **HDFS增强**: - 高可用性(HA)支持。 - ...

    李建伟:Hadoop新技术介绍

    例如,YARN的引入代表了对资源管理和调度的改进,它使得Hadoop可以在多租户环境下使用,安全性能也得到了增强。而像Impala和Spark这样的新组件则给Hadoop带来了更为灵活、实时的数据查询和处理能力。这意味着Hadoop...

    大数据分析平台建议方案.pptx

    使用MRUnit和PowerMock进行模拟业务流程的单元测试。 分析建模阶段,以提高用户转化率为例,通过对大数据平台的支持,识别出旧车接近设计寿命的用户群体,并制定相应的营销策略,如短信通告和电话销售。根据营销...

Global site tag (gtag.js) - Google Analytics