hive UDAF求平均值 -

安铁辉

浏览: 246677 次
性别:
来自: 杭州

最近访客更多访客>>

723499280

happinesss

zhbliye

it.flydream

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hive UDAF求平均值

博客分类：

hadoop

udaf hadoop cube

最近做数据迁移项目，把聚合部分从kettle迁移到hadoop集群上，需要写很多聚合脚本
在论坛是看到alipay同事写过类似cube的UDAF,代码拿过来运行下报错，有几个地方没看多，而且没有注释，只好从基础开始看，自己搞一个，之前写过UDF所以入手还是听快的
准备：
1、实现自己的UDAF需要集成UDAF
2、至少有一个内部类，实现了org.apache.hadoop.hive.ql.exec.UDAFEvaluator
3、必须写 inin方法
4、并且有个方法名叫iterate（）参数任意，这个方法是函数入口
5、并且要有terminatePartial，merge，terminate，算上上面的共5个方法，下面一一讲解

public class Mean extends UDAF {

	public static class MeanDoubleUDAFEval implements UDAFEvaluator {
		public static class PartialResult {
			double sum;
			long count;
		}

		private PartialResult pResult;

		@Override
		public void init() {
			pResult = null;
		}

		public boolean iterate(DoubleWritable value) {
			if (value == null) {
				return true;
			}
			if (pResult == null) {
				pResult = new PartialResult();
			}
			pResult.sum += value.get();
			pResult.count++;
			return true;
		}

		public PartialResult terminatePartial() {
			return pResult;
		}

		public boolean merge(PartialResult other) {
			if (other == null) {
				return true;
			}
			if (pResult == null) {
				pResult = new PartialResult();
			}
			pResult.sum += other.sum;
			pResult.count++;
			return true;
		}

		public DoubleWritable terminate() {
			if (pResult == null) {
				return null;
			}
			return new DoubleWritable(pResult.sum / pResult.count);
		}
	}

inin（）函数可以用来做初始化操作，一般会将统计变量置空，重置内部状态
iterate方法是函数的入口，参数个数和类型和udaf实现功能息息相关
terminatePartial 需要部分聚集是调用该函数，因为计算是不同的数据块会分到不同的map端，计算之后再传输到reduce端，很多计算是可以在map后面继续计算一次，比如求最大值（求平均值则不可以），这个时候就会调用terminatePartial函数，函数必须返回一个封装了聚集计算当前状态的对象，传入reduce端
merge函数，数据传输到reduce端前调用该函数，所以入参必须和terminatePartial返回值相同
terminate函数：hive最终聚集时会调用terminate，返回计算结果

分享到：

多个复选框结果保存与显示 | AOP

2012-06-23 17:07
浏览 3428
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive UDAF求平均值

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive UDAF求平均值

评论

发表评论

相关推荐

hive UDAF之cube

hive 抽样统计

HBase 表结构浅析

hive join

重拾 HBase

hadoop 目录配额

hive-源码分析-执行计划

FP-tree 关联规则挖掘

重新安装hadoop

hive wiki -UDTF

hive wiki -UDF

MP爱的初体验

hive+python 入门

hadoop学习心得之安装01 hadoop安装

hadoop学习心得之安装01 cygwin安装

beginning

最近访客更多访客>>