Hadoop在reduce中Iterable对应的值不变原因

小网客

浏览: 1249302 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

MapReduce

版本：

$ hadoop version
Hadoop 0.20.2-cdh3u4
Subversion git://ubuntu-slave01/var/lib/jenkins/workspace/CDH3u4-Full-RC/build/cdh3/hadoop20/0.20.2-cdh3u4/source -r 214dd731e3bdb687cb55988d3f47dd9e248c5690
Compiled by jenkins on Mon May  7 13:01:39 PDT 2012
From source with checksum a60c9795e41a3248b212344fb131c12c

问题描述：

Hadoop在执行Reducer时对应的Iterable<VALUEIN> 其对应的值保持问题，代码如下：

protected void reduce(Text key, Iterable<VectorWritable> values, Context context)
	        throws IOException, InterruptedException {
	Map<String, VectorWritable> map = new HashMap<String, VectorWritable>();
	for (VectorWritable vw : values) {
		NamedVector nv = (NamedVector) vw.get();
		Item itemi = Item.toInstance(nv.getName());
		map.put(itemi.getItemID(), vw);
	}
}

其对应的Map中的元素都是一样的。

问题原因：

每次迭代对应的值在此次reduce时内存中是一个实例，源码如下：

public class ReduceContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT>
    extends TaskInputOutputContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT> {
  private RawKeyValueIterator input;
  private Counter inputKeyCounter;
  private Counter inputValueCounter;
  private RawComparator<KEYIN> comparator;
  private KEYIN key;                                  // current key
  private VALUEIN value;                              // 就是这个实例
.....................
}

每次执行时都是对value进行赋值

@Override
public VALUEIN next() {
	// if this is the first record, we don't need to advance
	if (firstValue) {
		firstValue = false;
		return value;
	}
	// if this isn't the first record and the next key is different, they
	// can't advance it here.
	if (!nextKeyIsSame) {
		throw new NoSuchElementException("iterate past last value");
	}
		// otherwise, go to the next key/value pair
	try {
		nextKeyValue();
		return value;
	} catch (IOException ie) {
		throw new RuntimeException("next value iterator failed", ie);
	} catch (InterruptedException ie) {
		// this is bad, but we can't modify the exception list of java.util
		throw new RuntimeException("next value iterator interrupted", ie);        
	}
}

因此造成了上述问题

解决方式：

protected void reduce(Text key, Iterable<VectorWritable> values, Context context)
	        throws IOException, InterruptedException {
	Map<String, VectorWritable> map = new HashMap<String, VectorWritable>();
	for (VectorWritable vectorWritable : values) {
		VectorWritable vw = WritableUtils.clone(vectorWritable, context.getConfiguration());
		NamedVector nv = (NamedVector) vw.get();
		Item itemi = Item.toInstance(nv.getName());
		map.put(itemi.getItemID(), vw);
	}
}

克隆一个即可

0
顶

0
踩

分享到：

大数据匹配实现方案 | 小文件系统调研

2013-05-08 12:57
浏览 2109
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop在reduce中Iterable对应的值不变原因

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop在reduce中Iterable对应的值不变原因

评论

发表评论

相关推荐

Hadoop的MR中获取JobTracker配置

Hadoop之YARN安装部署

Yarn下的YarnChild启动个数决定参数

HDFS超租约异常（org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException）

hive执行hql脚本

NNBench执行过程和参数说明

yarn下的hdfs和mr性能调优参数一览表

hive安装部署之单用户模式

Hadoop之SafeModeException问题解决

Hadoop之RandomTextWriter使用

Hadoop之RandomTextWriter说明

Hadoop之mrbench

Hadoop之TestDFSIO

Hadoop之InputFormat

Hadoop之BloomFilter

HDFS Federation综述

Hadoop获取文件的元数据信息

Hadoop以某目录下的所有目录作为input源方式

Hadoop中map reduce和client共享数据源的方式

DataNode: Exception in BPOfferService for Block pool BP解决方法

最近访客更多访客>>