hadoop单元测试方法--使用和增强MRUnit
1前言
hadoop的mapreduce提交到集群环境中出问题的定位是比较麻烦的,有时需要一遍遍的修改代码和打出日志来排查一个很小的问题,如果数据量大的话调试起来相当耗时间。因此有必要使用良好的单元测试手段来尽早的消除明显的bug(当然仅有单元测试是不够的,毕竟跟集群的运行环境还是不一样的)。
然而做mapreduce的单元测试会有一些障碍,比如Map和Reduce一些参数对象是在运行时由hadoop框架传入的,例如OutputCollector、Reporter、InputSplit等。这就需要有Mock手段。最初写mapreduce单元测试的时候自己写了几个简单的Mock也基本能满足需要,后来发现MRUnit比我写的要好用所以研究了一下就采用了。MRUnit是专门为hadoop mapreduce写的单元测试框架,API简洁明了,简单实用。但也有一些薄弱的地方,比如不支持MultipleOutputs(很多情况下我们会用MultipleOutputs作为多文件输出,后面将介绍如何增强MRUnit使之支持MultipleOutputs)。
2 MRUnit
MRUnit针对不同测试对象分别使用以下几种Driver:
l MapDriver,针对单独的Map测试。
l ReduceDriver,针对单独的Reduce测试。
l MapReduceDriver,将Map和Reduce连贯起来测试。
l PipelineMapReduceDriver,将多个Map-Reduce pair贯串测试。
MapDriver
单独测试Map的例子,假设我们要计算一个卖家的平均发货速度。Map将搜集每一次发货的时间间隔。针对Map的测试,
//这是被测试的Map
private Map mapper;
private MapDriver<LongWritable,
Text, Text, TimeInfo> mapDriver;
@Before
public void setUp() {
mapper = new Map();
mapDriver = new MapDriver<LongWritable, Text, Text,
TimeInfo>();
}
@Test
public void testMap_timeFormat2() {
String sellerId = "444";
//模拟输入一行(withInput),假设从这行数据中我们可以获得卖家(sellerId) //某一次时间间隔 为10小时.
//我们期望它输出sellerId为key,value为代表1次10小时的TimeInfo对象。 //(withOutput)
//如果输入数据经过Map计算后为期望的结果,那么测试通过。
Text mapInputValue = new Text("……");
mapDriver.withMapper(mapper)
.withInput(null, mapInputValue)
.withOutput(new Text(sellerId), new TimeInfo(1, 10))
.runTest();
}
ReduceDriver
针对Reduce的单独测试,还是这个例子。Reduce为根据Map或Combiner输出的n次时间间隔的总和来计算平均时间。
private Reduce reducer;
@Before
public void setUp() {
reducer = new Reduce();
reduceDriver = new ReduceDriver<Text, TimeInfo, Text, LongWritable>(reducer);
}
@Test
public void testReduce () {
List<TimeInfo> values = new
ArrayList<TimeInfo>();
values.add(new TimeInfo(1, 3));//一次3小时
values.add(new TimeInfo(2, 5));//两次总共5小时
values.add(new TimeInfo(3, 7));//三次总共7小时
//values作为444这个卖家的reduce输入,
//期望计算出平均为2小时
reduceDriver.withReducer(reducer)
.withInput(new Text("444"), values)
.withOutput(new Text("444"),new LongWritable(2))
.runTest();
}
MapReduceDriver
以下为Map和Reduce联合测试的例子,
private
MapReduceDriver<LongWritable, Text, Text, TimeInfo, Text, LongWritable> mrDriver;
private Map mapper;
private Reduce reducer;
@Before
public void setUp() {
mapper = new Map();
reducer = new Reduce();
mrDriver = new MapReduceDriver<LongWritable, Text, Text,
TimeInfo, Text, LongWritable>(mapper, reducer);
}
@Test
public void
testMapReduce_3record_1user() {
Text
mapInputValue1 = new Text("……");
Text
mapInputValue2 = new Text("……");
Text
mapInputValue3 = new Text("……");
//我们期望从以上三条Map输入计算后,
//从reduce输出得到444这个卖家的平均时间为2小时.
mrDriver.withInput(null, mapInputValue1)
.withInput(null, mapInputValue2)
.withInput(null, mapInputValue3)
.withOutput(new Text("444"),new LongWritable(2))
.runTest();
}
字数超出了,下一篇继续介绍增强MRUnit使他支持MultipleOutputs、从文件加载数据集和自动装配等几个特性http://jen.iteye.com/blog/1003868
分享到:
相关推荐
《深入理解Mrunit-1.1.0-hadoop2:Hadoop MapReduce单元测试利器》 在大数据处理领域,Hadoop作为开源的分布式计算框架,为海量数据处理提供了强大支持。然而,随着项目的复杂度增加,确保代码的正确性和稳定性变得...
用于hadoop单元测试的jar包 hadoop-mrunit-0.20.2-cdh3u4.jar
Apache Hadoop是一个开源框架,主要用于分布式存储和计算大数据集。Hadoop 3.1.0是这个...这对于Windows开发者和测试环境来说非常有价值,他们可以在本地系统上进行Hadoop相关的开发和实验,而无需专门的Linux环境。
hadoop-eclipse-plugin-2.7.3和2.7.7的jar包 hadoop-eclipse-plugin-2.7.3和2.7.7的jar包 hadoop-eclipse-plugin-2.7.3和2.7.7的jar包 hadoop-eclipse-plugin-2.7.3和2.7.7的jar包
hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...
赠送jar包:hadoop-mapreduce-client-jobclient-2.6.5.jar; 赠送原API文档:hadoop-mapreduce-client-jobclient-2.6.5-javadoc.jar; 赠送源代码:hadoop-mapreduce-client-jobclient-2.6.5-sources.jar; 赠送...
赠送jar包:hadoop-yarn-client-2.6.5.jar; 赠送原API文档:hadoop-yarn-client-2.6.5-javadoc.jar; 赠送源代码:hadoop-yarn-client-...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。
Eclipse集成Hadoop2.10.0的插件,使用`ant`对hadoop的jar包进行打包并适应Eclipse加载,所以参数里有hadoop和eclipse的目录. 必须注意对于不同的hadoop版本,` HADDOP_INSTALL_PATH/share/hadoop/common/lib`下的jar包...
Hadoop 3.x(MapReduce)----【Hadoop 序列化】---- 代码 Hadoop 3.x(MapReduce)----【Hadoop 序列化】---- 代码 Hadoop 3.x(MapReduce)----【Hadoop 序列化】---- 代码 Hadoop 3.x(MapReduce)----【Hadoop ...
赠送jar包:hadoop-mapreduce-client-common-2.6.5.jar; ...使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释
这个插件主要适用于大数据开发人员,特别是那些需要在Hadoop上编写和测试MapReduce应用程序的开发者。它简化了开发流程,提高了开发效率,使得开发者可以在一个统一的环境中完成整个开发周期。 7. **安装和配置**...
`hadoop-common-2.6.0-bin-master.zip` 是一个针对Hadoop 2.6.0版本的压缩包,特别适用于在Windows环境下进行本地开发和测试。这个版本的Hadoop包含了对Windows系统的优化,比如提供了`winutils.exe`,这是在Windows...
赠送jar包:hadoop-yarn-common-2.6.5.jar 赠送原API文档:hadoop-yarn-common-2.6.5-javadoc.jar 赠送源代码:hadoop-yarn-common-...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。
此外,2.8.0版本增加了更多特性,例如优化了与Hadoop集群的交互,增强了对HDFS的可视化管理,以及更好的错误提示和调试功能。这使得开发者能够在更复杂的分布式环境下进行更为灵活和高效的开发工作。 两个版本之间...
5. `hadoop.lib`:类似地,这可能是Hadoop的静态链接库,包含Hadoop的API供开发者在Windows环境中使用。 6. `winutils.pdb` 和 `hadoop.pdb`:这些都是程序数据库(PDB)文件,用于调试目的,它们包含了编译时的符号...
这个压缩包中的 `flink-shaded-hadoop-2-uber-2.7.5-10.0.jar` 文件,是 Flink 针对 Hadoop 2.7.5 版本的“Uber JAR”,它是将多个依赖库打包在一起的单一 JAR 文件,旨在简化部署和运行流程。 首先,我们来理解...
在Hadoop 3.x中,引入了一些重要的改进和优化,如YARN的升级、HDFS的增强以及新的MapReduce API等。这些变化可能会影响Flink的运行,比如新的HDFS客户端API、安全认证机制等。Flink-shaded-hadoop-3-uber-jar通过...
总结来说,“spark-3.2.0-bin-hadoop3-without-hive”是一个专注于 Spark 与 Hadoop 3 基础集成的版本,它提供了最新的 Spark 特性,如优化的 SQL 引擎和 DataFrame API,同时也兼容 Hadoop 3 的诸多改进。...
Ubuntu虚拟机HADOOP集群搭建eclipse环境 hadoop-eclipse-plugin-3.3.1.jar