hadoop单元测试方法--使用和增强MRUnit[2]

Jen

浏览: 57862 次
性别:
来自: 杭州

最近访客更多访客>>

lijia3449

legend11

wq163

erxiaoouba

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

单元测试 Hadoop Mapreduce 框架 junit

接上篇，居然非得分两篇

3 增强MRUnit

下面介绍为MRUnit框架增加了支持MultipleOutputs、从文件加载数据集和自动装配等几个特性，使它更加便于使用。

如何支持MultipleOutputs

然而很多场景下我们需要使用MultipleOutputs作为reduce的多文件输出，MRUnit缺少支持。分析源码后为MRUnit增强扩展了两个Driver：ReduceMultipleOutputsDriver和MapReduceMultipleOutputDriver来支持MultipleOutputs。

ReduceMultipleOutputsDriver

ReduceMultipleOutputsDriver是ReduceDriver的增强版本，假设前面例子中的Reduce使用了MultipleOutputs作为输出，那么Reduce的测试将出现错误。

使用ReduceMultipleOutputsDriver改造上面的测试用例(注意粗体部分),

private Reduce reducer;

@Before

public void setUp() {

reducer = new Reduce();

//注意这里ReduceDriver改为使用ReduceMultipleOutputsDriver

reduceDriver = new ReduceMultipleOutputsDriver<Text, TimeInfo, Text, LongWritable>(reducer);

}

@Test

public void testReduce () {

List<TimeInfo> values = new ArrayList<TimeInfo>();

values.add(new TimeInfo(1, 3));//一次3小时

values.add(new TimeInfo(2, 5));//两次总共5小时

values.add(new TimeInfo(3, 7));//三次总共7小时

//values作为444这个卖家的reduce输入，

//期望计算出平均为2小时

reduceDriver.withReducer(reducer)

.withInput(new Text("444"), values)

//Note

//假设使用id(444)%8的方式来分文件

//表示期望"somePrefix"+444%8这个collector将搜集到数据xxx

. withMutiOutput ("somePrefix"+444%8,new Text("444"),new LongWritable(2))

.runTest();

}

MapReduceMultipleOutputDriver

跟ReduceMultipleOutputsDriver类似，MapReduceMultipleOutputDriver用来支持使用了MultipleOutputs的Map-Reduce联合测试。MapReduceDriver一节中的例子将改为，

private MapReduceDriver<LongWritable, Text, Text, TimeInfo, Text, LongWritable> mrDriver;

private Map mapper;

private Reduce reducer;

@Before

public void setUp() {

mapper = new Map();

reducer = new Reduce();

//改为使用ReduceMultipleOutputsDriver

mrDriver = new ReduceMultipleOutputsDriver<LongWritable, Text, Text, TimeInfo, Text, LongWritable>(mapper, reducer);

}

@Test

public void testMapReduce_3record_1user() {

Text mapInputValue1 = new Text("……");

Text mapInputValue2 = new Text("……");

Text mapInputValue3 = new Text("……");

//我们期望从以上三条Map输入计算后，

//从reduce输出得到444这个卖家的平均时间为2小时.

mrDriver.withInput(null, mapInputValue1)

.withInput(null, mapInputValue2)

.withInput(null, mapInputValue3)

//表示期望"somePrefix"+444%8这个collector将搜集到数据xxx

. withMutiOutput ("somePrefix"+444%8,new Text("444"),new LongWritable(2))

.runTest();

}

如何从文件加载输入

从以上例子看到使用MRUnit需要重复写很多类似的代码，并且需要把输入数据写在代码中，显得不是很优雅，如果能从文件加载数据则会方便很多。因此通过使用annotation和扩展JUnit runner，增强了MRUnit来解决这个问题。

改造上面的例子，使得map的输入自动从文件加载，并且消除大量使用MRUnit框架API的代码。

@RunWith(MRUnitJunit4TestClassRunner.class)

public class XXXMRUseAnnotationTest {

//表示自动初始化mrDriver,并加载数据(如果需要)

@MapInputSet

@MapReduce(mapper = Map.class, reducer = Reduce.class)

private MapReduceDriver<LongWritable, Text, Text, TimeInfo, Text, LongWritable> mrDriver;

@Test

@MapInputSet("ConsignTimeMRUseAnnotationTest.txt")//从这里加载输入数据

public void testMapReduce_3record_1user() {

//只需要编写验证代码

mrDriver. withMutiOutput ("somePrefix"+444%8,new Text("444"),new LongWritable(2))

.runTest();

}

2
顶

1
踩

分享到：

关于BeanUtils拷贝null属性的问题 | hadoop单元测试方法--使用和增强MRUnit[1]

2011-04-15 10:31
浏览 4974
评论(5)
分类:编程语言
查看更多

5 楼 bigname 2014-10-21

怎么使用MRUnit你没说清楚啊，我是说最最开始没有说清楚，我hadoop用的1.2.1版的，下载了 apache-mrunit-1.1.0-hadoop2-bin.tar.gz 和 apache-mrunit-1.1.0-hadoop2-src.tar.gz 之后怎么用呢，是将下载的这两个文件解压放到哪还是怎样呢？

4 楼 love敏小仪 2013-06-19

MRUnitJunit4TestClassRunner.class请问一下这个类，是在什么版本的MRUNIT包里呀，找不到

3 楼 vanillaer 2012-05-03

请教一下，您提到的支持MultipleOutputs是怎么样的实现思路，如果是MultipleOutputs，那么mock 原来的outputcollector好像是不行的？

2 楼 Jen 2012-03-28

heipark 写道

兄弟，说了半天，没有看到源码呀。

源码已经集成到官方新版本中了

1 楼 heipark 2012-03-13

兄弟，说了半天，没有看到源码呀。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论