`
Jen
  • 浏览: 57862 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

hadoop单元测试方法--使用和增强MRUnit[2]

    博客分类:
  • java
阅读更多

接上篇居然非得分两篇

 

增强MRUnit

         下面介绍为MRUnit框架增加了支持MultipleOutputs、从文件加载数据集和自动装配等几个特性,使它更加便于使用。

如何支持MultipleOutputs

         然而很多场景下我们需要使用MultipleOutputs作为reduce的多文件输出,MRUnit缺少支持。分析源码后为MRUnit增强扩展了两个DriverReduceMultipleOutputsDriverMapReduceMultipleOutputDriver来支持MultipleOutputs

 

ReduceMultipleOutputsDriver

         ReduceMultipleOutputsDriverReduceDriver的增强版本,假设前面例子中的Reduce使用了MultipleOutputs作为输出,那么Reduce的测试将出现错误。


 

使用ReduceMultipleOutputsDriver改造上面的测试用例(注意粗体部分),

private Reduce reducer;

    @Before

    public void setUp() {

        reducer = new Reduce();

       //注意这里ReduceDriver改为使用ReduceMultipleOutputsDriver

        reduceDriver = new ReduceMultipleOutputsDriver<Text, TimeInfo,                                     Text, LongWritable>(reducer);

    }

 

    @Test

    public void testReduce () {

        List<TimeInfo> values = new ArrayList<TimeInfo>();

        values.add(new TimeInfo(1, 3));//一次3小时

        values.add(new TimeInfo(2, 5));//两次总共5小时

        values.add(new TimeInfo(3, 7));//三次总共7小时

       //values作为444这个卖家的reduce输入,

       //期望计算出平均为2小时

        reduceDriver.withReducer(reducer)

               .withInput(new Text("444"), values)

               //Note

               //假设使用id(444)%8的方式来分文件

              //表示期望"somePrefix"+444%8这个collector将搜集到数据xxx

               . withMutiOutput ("somePrefix"+444%8,new Text("444"),new                                                     LongWritable(2))

              .runTest();

    }

 

 

 

MapReduceMultipleOutputDriver

         ReduceMultipleOutputsDriver类似,MapReduceMultipleOutputDriver用来支持使用了MultipleOutputsMap-Reduce联合测试。MapReduceDriver一节中的例子将改为,

private MapReduceDriver<LongWritable, Text, Text, TimeInfo, Text, LongWritable> mrDriver;

    private Map mapper;

    private Reduce reducer;

    @Before

    public void setUp() {

        mapper = new Map();

        reducer = new Reduce();

       //改为使用ReduceMultipleOutputsDriver

        mrDriver = new ReduceMultipleOutputsDriver<LongWritable, Text, Text,               TimeInfo, Text, LongWritable>(mapper, reducer);

    }

 

    @Test

    public void testMapReduce_3record_1user() {

       Text mapInputValue1 = new Text("……");

       Text mapInputValue2 = new Text("……");

       Text mapInputValue3 = new Text("……");

       //我们期望从以上三条Map输入计算后,

       //reduce输出得到444这个卖家的平均时间为2小时.

        mrDriver.withInput(null, mapInputValue1)

           .withInput(null, mapInputValue2)

           .withInput(null, mapInputValue3)

           //表示期望"somePrefix"+444%8这个collector将搜集到数据xxx

           . withMutiOutput ("somePrefix"+444%8,new Text("444"),new                                              LongWritable(2))

           .runTest();

    }

 

 

 

如何从文件加载输入

         从以上例子看到使用MRUnit需要重复写很多类似的代码,并且需要把输入数据写在代码中,显得不是很优雅,如果能从文件加载数据则会方便很多。因此通过使用annotation和扩展JUnit runner,增强了MRUnit来解决这个问题。

       改造上面的例子,使得map的输入自动从文件加载,并且消除大量使用MRUnit框架API的代码。

@RunWith(MRUnitJunit4TestClassRunner.class)

public class XXXMRUseAnnotationTest {

 

    //表示自动初始化mrDriver,并加载数据(如果需要)

    @MapInputSet

    @MapReduce(mapper = Map.class, reducer = Reduce.class)

     private MapReduceDriver<LongWritable, Text, Text, TimeInfo, Text, LongWritable> mrDriver;

 

    @Test

    @MapInputSet("ConsignTimeMRUseAnnotationTest.txt")//从这里加载输入数据

    public void testMapReduce_3record_1user() {

           //只需要编写验证代码

       mrDriver. withMutiOutput ("somePrefix"+444%8,new Text("444"),new LongWritable(2))

                                 .runTest();

    }

}

2
1
分享到:
评论
5 楼 bigname 2014-10-21  
怎么使用MRUnit你没说清楚啊,我是说最最开始没有说清楚,我hadoop用的1.2.1版的,下载了 apache-mrunit-1.1.0-hadoop2-bin.tar.gz 和 apache-mrunit-1.1.0-hadoop2-src.tar.gz 之后怎么用呢,是将下载的这两个文件解压放到哪还是怎样呢?
4 楼 love敏小仪 2013-06-19  
MRUnitJunit4TestClassRunner.class请问一下这个类,是在什么版本的MRUNIT包里呀,找不到
3 楼 vanillaer 2012-05-03  
请教一下,您提到的支持MultipleOutputs是怎么样的实现思路,如果是MultipleOutputs,那么mock 原来的outputcollector好像是不行的?
2 楼 Jen 2012-03-28  
heipark 写道
兄弟,说了半天,没有看到源码呀。

源码已经集成到官方新版本中了
1 楼 heipark 2012-03-13  
兄弟,说了半天,没有看到源码呀。

相关推荐

    hadoop单元测试方法--使用和增强MRUnit.docx

    MRUnit是一个专门为Hadoop MapReduce设计的单元测试框架,它提供了Mock对象来模拟Map和Reduce阶段的各种组件,简化了测试流程。 **1. MRUnit简介** MRUnit主要提供了四种Driver类,用于不同类型的测试场景: - **...

    Hadoop专业解决方案-第5章开发可靠的MapReduce应用.docx

    使用MRUnit时,首先需要在项目的pom.xml文件中添加MRUnit的依赖,区分Hadoop 1.x和2.x版本的库。Eclipse作为IDE,可以方便地进行MapReduce项目管理和MRUnit的单元测试。通过编写测试类,将Mapper和Reducer作为参数...

    hadoop权威指南 第三版 英文版

    - 使用MRUnit编写测试单元。 - 输出提交机制。 - 分布式缓存功能。 - 任务内存监控。 - 通过MapReduce处理Avro数据。 - 在Oozie中运行简单的MapReduce工作流。 - **HDFS增强**: - 高可用性(HA)支持。 - ...

    李建伟:Hadoop新技术介绍

    例如,YARN的引入代表了对资源管理和调度的改进,它使得Hadoop可以在多租户环境下使用,安全性能也得到了增强。而像Impala和Spark这样的新组件则给Hadoop带来了更为灵活、实时的数据查询和处理能力。这意味着Hadoop...

    大数据分析平台建议方案.pptx

    使用MRUnit和PowerMock进行模拟业务流程的单元测试。 分析建模阶段,以提高用户转化率为例,通过对大数据平台的支持,识别出旧车接近设计寿命的用户群体,并制定相应的营销策略,如短信通告和电话销售。根据营销...

Global site tag (gtag.js) - Google Analytics