接上篇,居然非得分两篇
3 增强MRUnit
下面介绍为MRUnit框架增加了支持MultipleOutputs、从文件加载数据集和自动装配等几个特性,使它更加便于使用。
如何支持MultipleOutputs
然而很多场景下我们需要使用MultipleOutputs作为reduce的多文件输出,MRUnit缺少支持。分析源码后为MRUnit增强扩展了两个Driver:ReduceMultipleOutputsDriver和MapReduceMultipleOutputDriver来支持MultipleOutputs。
ReduceMultipleOutputsDriver
ReduceMultipleOutputsDriver是ReduceDriver的增强版本,假设前面例子中的Reduce使用了MultipleOutputs作为输出,那么Reduce的测试将出现错误。
使用ReduceMultipleOutputsDriver改造上面的测试用例(注意粗体部分),
private Reduce reducer;
@Before
public void setUp() {
reducer = new Reduce();
//注意这里ReduceDriver改为使用ReduceMultipleOutputsDriver
reduceDriver = new ReduceMultipleOutputsDriver<Text, TimeInfo, Text,
LongWritable>(reducer);
}
@Test
public void testReduce () {
List<TimeInfo> values = new
ArrayList<TimeInfo>();
values.add(new TimeInfo(1, 3));//一次3小时
values.add(new TimeInfo(2, 5));//两次总共5小时
values.add(new TimeInfo(3, 7));//三次总共7小时
//values作为444这个卖家的reduce输入,
//期望计算出平均为2小时
reduceDriver.withReducer(reducer)
.withInput(new Text("444"), values)
//Note
//假设使用id(444)%8的方式来分文件
//表示期望"somePrefix"+444%8这个collector将搜集到数据xxx
. withMutiOutput ("somePrefix"+444%8,new Text("444"),new LongWritable(2))
.runTest();
}
MapReduceMultipleOutputDriver
跟ReduceMultipleOutputsDriver类似,MapReduceMultipleOutputDriver用来支持使用了MultipleOutputs的Map-Reduce联合测试。MapReduceDriver一节中的例子将改为,
private MapReduceDriver<LongWritable, Text, Text, TimeInfo,
Text, LongWritable> mrDriver;
private Map mapper;
private Reduce reducer;
@Before
public void setUp() {
mapper = new Map();
reducer = new Reduce();
//改为使用ReduceMultipleOutputsDriver
mrDriver = new ReduceMultipleOutputsDriver<LongWritable,
Text, Text, TimeInfo, Text,
LongWritable>(mapper, reducer);
}
@Test
public void
testMapReduce_3record_1user() {
Text
mapInputValue1 = new Text("……");
Text
mapInputValue2 = new Text("……");
Text
mapInputValue3 = new Text("……");
//我们期望从以上三条Map输入计算后,
//从reduce输出得到444这个卖家的平均时间为2小时.
mrDriver.withInput(null, mapInputValue1)
.withInput(null, mapInputValue2)
.withInput(null, mapInputValue3)
//表示期望"somePrefix"+444%8这个collector将搜集到数据xxx
. withMutiOutput
("somePrefix"+444%8,new Text("444"),new LongWritable(2))
.runTest();
}
如何从文件加载输入
从以上例子看到使用MRUnit需要重复写很多类似的代码,并且需要把输入数据写在代码中,显得不是很优雅,如果能从文件加载数据则会方便很多。因此通过使用annotation和扩展JUnit runner,增强了MRUnit来解决这个问题。
改造上面的例子,使得map的输入自动从文件加载,并且消除大量使用MRUnit框架API的代码。
@RunWith(MRUnitJunit4TestClassRunner.class)
public class XXXMRUseAnnotationTest {
//表示自动初始化mrDriver,并加载数据(如果需要)
@MapInputSet
@MapReduce(mapper = Map.class, reducer = Reduce.class)
private MapReduceDriver<LongWritable, Text, Text, TimeInfo,
Text, LongWritable> mrDriver;
@Test
@MapInputSet("ConsignTimeMRUseAnnotationTest.txt")//从这里加载输入数据
public void
testMapReduce_3record_1user() {
//只需要编写验证代码
mrDriver.
withMutiOutput ("somePrefix"+444%8,new Text("444"),new LongWritable(2))
.runTest();
}
}
分享到:
相关推荐
《深入理解Mrunit-1.1.0-hadoop2:Hadoop MapReduce单元测试利器》 在大数据处理领域,Hadoop作为开源的分布式计算框架,为海量数据处理提供了强大支持。然而,随着项目的复杂度增加,确保代码的正确性和稳定性变得...
用于hadoop单元测试的jar包 hadoop-mrunit-0.20.2-cdh3u4.jar
hadoop-eclipse-plugin-2.7.3和2.7.7的jar包 hadoop-eclipse-plugin-2.7.3和2.7.7的jar包 hadoop-eclipse-plugin-2.7.3和2.7.7的jar包 hadoop-eclipse-plugin-2.7.3和2.7.7的jar包
这个压缩包中的 `flink-shaded-hadoop-2-uber-2.7.5-10.0.jar` 文件,是 Flink 针对 Hadoop 2.7.5 版本的“Uber JAR”,它是将多个依赖库打包在一起的单一 JAR 文件,旨在简化部署和运行流程。 首先,我们来理解...
Apache Hadoop是一个开源框架,主要用于分布式存储和计算大数据集。Hadoop 3.1.0是这个...这对于Windows开发者和测试环境来说非常有价值,他们可以在本地系统上进行Hadoop相关的开发和实验,而无需专门的Linux环境。
hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...
Eclipse集成Hadoop2.10.0的插件,使用`ant`对hadoop的jar包进行打包并适应Eclipse加载,所以参数里有hadoop和eclipse的目录. 必须注意对于不同的hadoop版本,` HADDOP_INSTALL_PATH/share/hadoop/common/lib`下的jar包...
赠送jar包:hadoop-mapreduce-client-jobclient-2.6.5.jar; 赠送原API文档:hadoop-mapreduce-client-jobclient-2.6.5-javadoc.jar; 赠送源代码:hadoop-mapreduce-client-jobclient-2.6.5-sources.jar; 赠送...
赠送jar包:hadoop-yarn-client-2.6.5.jar; 赠送原API文档:hadoop-yarn-client-2.6.5-javadoc.jar; 赠送源代码:hadoop-yarn-client-...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。
Flink1.10.1编译hadoop2.7.2 编译flink-shaded-hadoop-2-uber
赠送jar包:hbase-hadoop2-compat-1.2.12.jar; 赠送原API文档:hbase-hadoop2-compat-1.2.12-javadoc.jar; 赠送源代码:hbase-hadoop2-compat-1.2.12-sources.jar; 赠送Maven依赖信息文件:hbase-hadoop2-compat-...
# 解压命令 tar -zxvf flink-shaded-hadoop-2-uber-3.0.0-cdh6.2.0-7.0.jar.tar.gz # 介绍 用于CDH部署 Flink所依赖的jar包
Hadoop 3.x(MapReduce)----【Hadoop 序列化】---- 代码 Hadoop 3.x(MapReduce)----【Hadoop 序列化】---- 代码 Hadoop 3.x(MapReduce)----【Hadoop 序列化】---- 代码 Hadoop 3.x(MapReduce)----【Hadoop ...
赠送jar包:hadoop-mapreduce-client-common-2.6.5.jar; ...使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释
这个插件主要适用于大数据开发人员,特别是那些需要在Hadoop上编写和测试MapReduce应用程序的开发者。它简化了开发流程,提高了开发效率,使得开发者可以在一个统一的环境中完成整个开发周期。 7. **安装和配置**...
flink-shaded-hadoop-2-uber-2.7.5-10.0.jar
`hadoop-common-2.6.0-bin-master.zip` 是一个针对Hadoop 2.6.0版本的压缩包,特别适用于在Windows环境下进行本地开发和测试。这个版本的Hadoop包含了对Windows系统的优化,比如提供了`winutils.exe`,这是在Windows...
赠送jar包:hadoop-yarn-common-2.6.5.jar 赠送原API文档:hadoop-yarn-common-2.6.5-javadoc.jar 赠送源代码:hadoop-yarn-common-...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。
赠送jar包:hbase-hadoop2-compat-1.1.3.jar; 赠送原API文档:hbase-hadoop2-compat-1.1.3-javadoc.jar; 赠送源代码:hbase-hadoop2-compat-1.1.3-sources.jar; 赠送Maven依赖信息文件:hbase-hadoop2-compat-...