`
小网客
  • 浏览: 1249357 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop mapreduce单元测试工具MRUnit简单使用

 
阅读更多

hadoop版本:

$ hadoop version
Hadoop 0.20.2-cdh3u4
Subversion git://ubuntu-slave01/var/lib/jenkins/workspace/CDH3u4-Full-RC/build/cdh3/hadoop20/0.20.2-cdh3u4/source -r 214dd731e3bdb687cb55988d3f47dd9e248c5690
Compiled by jenkins on Mon May  7 13:01:39 PDT 2012
From source with checksum a60c9795e41a3248b212344fb131c12c

根据版本的不同采用的实现写法略有不同,此处采用的版本详情如下:

<dependency>
	<groupId>org.apache.mrunit</groupId>
	<artifactId>mrunit</artifactId>
	<version>1.0.0</version>
	<classifier>hadoop1</classifier>
</dependency>

其中常用的类如下:

org.apache.hadoop.mrunit.mapreduce.MapDriver;
org.apache.hadoop.mrunit.mapreduce.MapReduceDriver;
org.apache.hadoop.mrunit.mapreduce.ReduceDriver;

 mapper,combiner和reducer实现的含义描述如下:

CompMapper:把222-333##id1##id2 处理成key为id1##id2,value为1L(出现一次)
CompCombiner:对相同的key进行累加
CompReducer:吧key为id1##id2,value为long类型的数据进行累加然后除以某一个定值,以double的形式输出

 测试mapper,combiner和reducer的代码如下

private MapDriver<Text, LongWritable, Text, LongWritable> mapDriver;
private ReduceDriver<Text, LongWritable, Text, DoubleWritable> reduceDriver;
private ReduceDriver<Text, LongWritable, Text, LongWritable> combinerDriver;
private MapReduceDriver<Text, LongWritable, Text, LongWritable, Text, LongWritable> mapCombinerDriver;
private MapReduceDriver<Text, LongWritable, Text, LongWritable, Text, DoubleWritable> mapReducerDriver;
@Before
public void setUp() {
	CompMapper mapper = new CompMapper();
	CompCombiner combiner = new CompCombiner();
	CompReducer reducer = new CompReducer();
	mapDriver = new MapDriver<Text, LongWritable, Text, LongWritable>(mapper);
	reduceDriver = new ReduceDriver<Text, LongWritable, Text, DoubleWritable>(reducer);
	combinerDriver = new ReduceDriver<Text, LongWritable, Text, LongWritable>(combiner);
	mapCombinerDriver = new MapReduceDriver<Text, LongWritable, Text, LongWritable, Text, LongWritable>(
			mapper, combiner);

	mapReducerDriver = new MapReduceDriver<Text, LongWritable, Text, LongWritable, Text, DoubleWritable>(
			mapper, reducer);
}

@Test
public void testMapper() throws IOException {
	mapDriver.setInput(new Text("222-333##id1##id2"), new LongWritable(1L));
	mapDriver.withOutput(new Text("id1##id2"), new LongWritable(1L));
	mapDriver.runTest();
}

@Test
public void testCombiner() throws IOException {
	List<LongWritable> values = new ArrayList<LongWritable>();
	for (int i = 0; i < 5; i++) {
		values.add(new LongWritable(NumberUtils.toLong(i + "")));
	}
	combinerDriver.addInput(new Text("id1##id2"), values);
	combinerDriver.withOutput(new Text("id1##id2"), new LongWritable(10L));
	combinerDriver.runTest();
}

@Test
public void testReducer() throws IOException {
	List<LongWritable> values = new ArrayList<LongWritable>();
	long count = 0;
	for (int i = 0; i < 5; i++) {
		count = count + (long) i;
		values.add(new LongWritable(NumberUtils.toLong(i + "")));
	}
	reduceDriver.addInput(new Text("id1##id2"), values);
	
	
	int numHash = reduceDriver.getConfiguration().getInt(
			MinhashOptionCreator.NUM_HASH_FUNCTIONS, 10);
	DoubleWritable dw = new DoubleWritable();
	BigDecimal b1 = new BigDecimal(count);
	BigDecimal b2 = new BigDecimal(numHash);
	dw.set(b1.divide(b2).doubleValue());
	reduceDriver.withOutput(new Text("id1##id2"), dw);
	reduceDriver.runTest();
}

@Test
public void tetMapCombiner() throws IOException {
	mapCombinerDriver.addInput(new Text("222-333##id1##id2"), new LongWritable(1L));
	mapCombinerDriver.addInput(new Text("111-333##id1##id2"), new LongWritable(1L));
	mapCombinerDriver.withOutput(new Text("id1##id2"), new LongWritable(2L));
	mapCombinerDriver.runTest();
}

@Test
public void tetMapReducer() throws IOException {
	mapReducerDriver.addInput(new Text("222-333##id1##id2"), new LongWritable(1L));
	mapReducerDriver.addInput(new Text("111-333##id1##id2"), new LongWritable(1L));
	int numHash = reduceDriver.getConfiguration().getInt(
			"NUM", 10);
	DoubleWritable dw = new DoubleWritable();
	BigDecimal b1 = new BigDecimal(2L);
	BigDecimal b2 = new BigDecimal(numHash);
	dw.set(b1.divide(b2).doubleValue());
	mapReducerDriver.withOutput(new Text("id1##id2"), dw);
	mapReducerDriver.runTest();
}

 注意事宜:

1.MRUnit与Hadoop的版本对应关系
2.如果报java.lang.IncompatibleClassChangeError错那么就是版本的问题

 

0
2
分享到:
评论

相关推荐

    Mrunit-1.1.0-hadoop2

    Mrunit,作为一个专门针对Hadoop MapReduce的单元测试工具,成为了开发者的得力助手。本文将深入探讨Mrunit-1.1.0-hadoop2版本,揭示其核心功能与应用。 1. Mrunit简介 Mrunit是Apache软件基金会的一个项目,设计...

    hadoop单元测试方法--使用和增强MRUnit.docx

    MRUnit是一个专门为Hadoop MapReduce设计的单元测试框架,它提供了Mock对象来模拟Map和Reduce阶段的各种组件,简化了测试流程。 **1. MRUnit简介** MRUnit主要提供了四种Driver类,用于不同类型的测试场景: - **...

    Hadoop MRUnit测试

    Hadoop MRUnit是一个用于测试MapReduce程序的强大工具,它允许开发者在没有实际Hadoop集群的情况下,对MapReduce作业进行单元测试。这个框架模拟了Hadoop MapReduce的执行环境,使开发者可以针对单个Mapper、Reducer...

    apache-mrunit-1.1.0-hadoop2-bin.tar

    Apache MRUnit 是一个针对Hadoop MapReduce框架的单元测试工具,专为开发人员设计,用于测试MapReduce程序的各个部分,包括Mapper、Reducer以及Combiner。MRUnit 1.1.0是针对Hadoop 2.x版本的一个特定构建,确保了与...

    mrunit-1.1.0.jar

    MRUnit是Apache Hadoop项目的一个重要组件,主要用于MapReduce程序的单元测试。这个工具的核心在于它为开发者提供了一种在本地环境执行MapReduce任务的能力,无需实际运行完整的Hadoop集群。MRUnit的1.1.0版本,即...

    Hadoop专业解决方案-第5章开发可靠的MapReduce应用.docx

    MRUnit正是这样的工具,它允许开发者对Mapper和Reducer进行单元测试,包括输入、输出、错误处理等各个方面,确保代码在执行前就已满足预期。 使用MRUnit时,首先需要在项目的pom.xml文件中添加MRUnit的依赖,区分...

    hadoop学习笔记.rar

    总结,Hadoop的学习涵盖了从理论理解到实践操作的多个层面,包括使用开发工具、编写MapReduce代码、进行单元测试和集成测试等。通过深入学习这些笔记,读者可以逐步掌握Hadoop的精髓,为应对大数据时代的挑战做好...

    mrunit-1.1.0-hadoop2.jar

    MRUnit测试支持JAR包,它便于将已知的输入传递给mapper或者检查reducer的输出是否符合预期。MRUnit与标准的执行框架(JUnit)一起使用。

    MR Unit test需要的相关jar包

    4. mrunit-1.1.0-hadoop2.jar:MRUnit是专门为MapReduce设计的单元测试库,它提供了一套API来模拟MapReduce作业的执行。这个库允许开发者在内存中运行Map和Reduce阶段,从而快速验证代码的行为。MRUnit特别适用于...

    MapReduceV2笔记

    为了保证MapReduce程序的正确性和稳定性,MapReduce提供了用MRUnit进行程序测试的方法。计数器是MapReduce中的一个功能,它可以帮助用户追踪和统计程序运行中的各种事件。 性能优化是MapReduce应用中的关键话题,它...

    hadoop权威指南 第三版 英文版

    - 使用MRUnit编写测试单元。 - 输出提交机制。 - 分布式缓存功能。 - 任务内存监控。 - 通过MapReduce处理Avro数据。 - 在Oozie中运行简单的MapReduce工作流。 - **HDFS增强**: - 高可用性(HA)支持。 - ...

    李建伟:Hadoop新技术介绍

    - MRUnit:是一个用于MapReduce任务单元测试的库。 - HCatalog:是Hadoop生态系统中的一个表和服务管理工具,允许用户访问存储在Hadoop的数据。 - Sqoop:是一个用于在Hadoop和关系数据库之间高效传输大量数据的...

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    技术点79 MapReduce 函数、作业和管道的单元测试 13.1.3 LocalJobRunner 技术点80 用LocalJobRunner 进行重量级的作业测试 13.1.4 集成和QA 测试 13.2 调试用户空间的问题 13.2.1 访问任务日志 技术点...

    mapreduce_training:用于教学目的的MapReduce应用程序集

    具有MRUnit测试的MapReduce WordCount应用程序 字符串对的MapReduce自定义可写实现 MapReduce自定义InputFormat和RecordReader实现 MapReduce自定义OutputFormat和RecordWriter实现 Pig自定义LoadFunc加载和解析...

    mrunit测试插件

    非常好用测试插件,在mapReduce下直接可以运行,本人亲测成功

Global site tag (gtag.js) - Google Analytics