- 浏览: 221400 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
yugouai:
下载不了啊。。。
如何获取hive建表语句 -
help:
[root@hadoop-namenode 1 5 /usr/ ...
Sqoop -
085567:
lvshuding 写道请问,sqoop 安装时不用配置什么吗 ...
Sqoop -
085567:
lvshuding 写道请问,导入数据时,kv1.txt的文件 ...
hive与hbase整合 -
lvshuding:
请问,sqoop 安装时不用配置什么吗?
Sqoop
一、UDF
1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:
a)文件格式:Text File,Sequence File
b)内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text
c)用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/stdout 传输数据
d)用户自定义函数: Substr, Trim, 1 – 1
e)用户自定义聚合函数: Sum, Average…… n – 1
2、定义:UDF(User-Defined-Function),用户自定义函数对数据进行处理。
二、用法
1、UDF函数可以直接应用于select语句,对查询结构做格式化处理后,再输出内容。
2、编写UDF函数的时候需要注意一下几点:
a)自定义UDF需要继承org.apache.hadoop.hive.ql.UDF。
b)需要实现evaluate函。
c)evaluate函数支持重载。
3、以下是两个数求和函数的UDF。evaluate函数代表两个整型数据相加,两个浮点型数据相加,可变长数据相加。
package hive.connect;
import org.apache.hadoop.hive.ql.exec.UDF;
public final class Add extends UDF {
public Integer evaluate(Integer a, Integer b) {
if (null == a || null == b) {
return null;
}
return a + b;
}
public Double evaluate(Double a, Double b) {
if (a == null || b == null)
return null;
return a + b;
}
public Integer evaluate(Integer... a) {
int total = 0;
for (int i = 0; i < a.length; i++)
if (a[i] != null)
total += a[i];
return total;
}
}4、步骤a)把程序打包放到目标机器上去;
b)进入hive客户端,添加jar包:hive>add jar /run/jar/udf_test.jar;
c)创建临时函数:hive>CREATE TEMPORARY FUNCTION add_example AS 'hive.udf.Add';
d)查询HQL语句:
SELECT add_example(8, 9) FROM scores;
SELECT add_example(scores.math, scores.art) FROM scores;
SELECT add_example(6, 7, 8, 6.8) FROM scores;
e)销毁临时函数:hive> DROP TEMPORARY FUNCTION add_example;
5、细节在使用UDF的时候,会自动进行类型转换,例如:
SELECT add_example(8,9.1) FROM scores;
结果是17.1,UDF将类型为Int的参数转化成double。类型的饮食转换是通过UDFResolver来进行控制的。
三、UDAF
1、Hive查询数据时,有些聚类函数在HQL没有自带,需要用户自定义实现。
2、用户自定义聚合函数: Sum, Average…… n – 1
UDAF(User- Defined Aggregation Funcation)
四、用法
1、一下两个包是必须的import org.apache.hadoop.hive.ql.exec.UDAF和 org.apache.hadoop.hive.ql.exec.UDAFEvaluator。
2、函数类需要继承UDAF类,内部类Evaluator实UDAFEvaluator接口。
3、Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数。
a)init函数实现接口UDAFEvaluator的init函数。
b)iterate接收传入的参数,并进行内部的轮转。其返回类型为boolean。
c)terminatePartial无参数,其为iterate函数轮转结束后,返回轮转数据,terminatePartial类似于hadoop的Combiner。
d)merge接收terminatePartial的返回结果,进行数据merge操作,其返回类型为boolean。
e)terminate返回最终的聚集函数结果。
4、以下为一个求平均数的UDAF:
package hive.udaf;
import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
public class Avg extends UDAF {
public static class AvgState {
private long mCount;
private double mSum;
}
public static class AvgEvaluator implements UDAFEvaluator {
AvgState state;
public AvgEvaluator() {
super();
state = new AvgState();
init();
}
/**
* init函数类似于构造函数,用于UDAF的初始化
*/
public void init() {
state.mSum = 0;
state.mCount = 0;
}
/**
* iterate接收传入的参数,并进行内部的轮转。其返回类型为boolean
*
* @param o
* @return
*/
public boolean iterate(Double o) {
if (o != null) {
state.mSum += o;
state.mCount++;
}
return true;
}
/**
* terminatePartial无参数,其为iterate函数轮转结束后,返回轮转数据,
* terminatePartial类似于hadoop的Combiner
*
* @return
*/
public AvgState terminatePartial() {// combiner
return state.mCount == 0 ? null : state;
}
/**
* merge接收terminatePartial的返回结果,进行数据merge操作,其返回类型为boolean
*
* @param o
* @return
*/
public boolean merge(AvgState o) {
if (o != null) {
state.mCount += o.mCount;
state.mSum += o.mSum;
}
return true;
}
/**
* terminate返回最终的聚集函数结果
*
* @return
*/
public Double terminate() {
return state.mCount == 0 ? null : Double.valueOf(state.mSum
/ state.mCount);
}
}
}5、执行求平均数函数的步骤a)将java文件编译成Avg_test.jar。
b)进入hive客户端添加jar包:
hive>add jar /run/jar/Avg_test.jar。
c)创建临时函数:
hive>create temporary function avg_test 'hive.udaf.Avg';
d)查询语句:
hive>select avg_test(scores.math) from scores;
e)销毁临时函数:
hive>drop temporary function avg_test;
五、总结
1、重载evaluate函数。
2、UDF函数中参数类型可以为Writable,也可为java中的基本数据对象。
3、UDF支持变长的参数。
4、Hive支持隐式类型转换。
5、客户端退出时,创建的临时函数自动销毁。
6、evaluate函数必须要返回类型值,空的话返回null,不能为void类型。
7、UDF是基于单条记录的列进行的计算操作,而UDFA则是用户自定义的聚类函数,是基于表的所有记录进行的计算操作。
8、UDF和UDAF都可以重载。
9、查看函数
SHOW FUNCTIONS;
DESCRIBE FUNCTION <function_name>;
10、wiki链接:http://wiki.apache.org/hadoop/Hive/LanguageManual/UDF
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/dajuezhao/archive/2010/07/21/5753001.aspx
发表评论
-
hive中分组取前N个值的实现
2012-03-28 15:49 8225需求:假设有一个学生各门课的成绩的表单,应用hive取出每科成 ... -
hive 备忘录
2011-08-24 14:56 13011 hive结果用gzip压缩输出 在运行查询命令之 ... -
Hive User Defined Functions
2011-07-14 15:22 2286Hive User Defined Functions ... -
hive数组使用
2011-05-27 13:53 4439转:http://blog.sina.com.cn/s/blo ... -
如何获取hive建表语句
2011-03-22 15:35 2331在使用hive进行开发时,我们往往需要获得一个已存在hive表 ... -
写好Hive 程序的五个提示
2011-03-18 16:24 1161转自 :http://www.tbdata.org/archi ... -
hive JDBC 连接
2011-03-18 15:39 1938String driverName = "org.a ... -
hive优化
2011-03-16 15:41 1391Hive 针对不同的查询进行了优化,优化可以通过配置进行控制, ... -
hive综合
2011-03-16 15:40 1564Hive 是什么 在接触一 ... -
Hive 的扩展特性
2011-03-16 15:35 1257Hive 是一个很开放的系统,很多内容都支持用户定制,包括 ... -
hive与hbase整合
2011-03-16 15:12 1664Hive与HBase的整合功能的实现是利用两者本身对外的 ... -
Hive与并行数据仓库的体系结构比较
2011-03-16 14:04 1138转自:http://www.db2china.ne ... -
定时将数据导入到hive中
2011-03-16 13:55 2585应用crontab定时将数据导入到hive中:在调用/bin/ ... -
Hive0.5中Partition简述
2011-03-15 17:00 912转自:http://blog.csdn.net/dajue ... -
Hive SQL语法解读
2011-03-15 15:11 1166一、 创建表 在 ... -
应用mysql保存hive的metastore
2011-03-15 15:09 1350http://www.tech126.com/hive-m ... -
hiveQL 优化
2011-01-13 20:52 18651.当hive执行join内存溢出时,可以修改hive的配置文 ... -
hive深入资料
2011-01-13 20:01 1088hive wiki: http://wiki.apache. ... -
hive 相关
2011-01-10 17:36 1166Hive使用MySQL存放元数据 可以参考一下这篇文章 ... -
基于Hive的日志数据统计实战
2011-01-10 11:47 1683一、Hive简介Hive 是一个基于 hadoop 的开源数 ...
相关推荐
32033c12-f67c-4013-a328-58ec566695d8.png
**基于MATLAB GUI界面的优化手写数字识别系统:集成预处理与BP神经网络算法的实践**,- 标题: 基于matlab的自由手写体数字识别系统 - 关键词:matlab GUI界面 手写体数字 预处理 bp神经网络 特征提取 - 简述:支持打开图片识别,可对图片进行二值化、噪声处理、图像分割、归一化、细化等图像处理方法,采用了bp神经网络算法,并以MATLAB作为编程工具实现了具有友好的图形用户界面的自由手写体数字识别系统。 实验结果表明,本方法具有较高的识别率,并具有较好的抗噪性能。 附带文档 ,matlab; GUI界面; 手写体数字; 预处理; 图像处理方法; bp神经网络; 识别率; 抗噪性能; 文档,基于MATLAB的BP神经网络手写数字识别系统
协作机器人结构设计及齿轮传动系统仿 真.pdf
"基于CEEMD-GWO-SVM算法的时间序列预测:风电、光伏、负荷预测通用解决方案",基于CEEMD+GWO+SVM的时间序列预测,风电,光伏,负荷预测,替数据就可以使用。 ,CEEMD; GWO; SVM; 时间序列预测; 风电; 光伏; 负荷预测; 替换数据,基于CEEMD-GWO-SVM算法的能源时间序列预测模型
针对NCM111、523、622及811等不同配比的硬壳三元镍钴锰酸锂电池的针刺热失控现象的Comsol模拟计算研究:可调整针刺位置的影响分析。,针刺热失控硬壳三元镍钴锰酸锂电池NCM111+523+622+811针刺热失控comsol模拟计算,可调整针刺位置。 ,针刺热失控;硬壳三元镍钴锰酸锂电池;NCM系列;comsol模拟计算;针刺位置调整;可调位置;电性能优化,针刺热失控模拟:多元镍钴锰酸锂电池硬壳结构研究
"探索Comsol模拟热流固耦合中的压缩空气模型:多物理场耦合下的应力场、温度场与渗流场研究",comsol 热流固耦合 压缩空气模型 应力场 温度场 渗流场 ,comsol;热流固耦合;压缩空气模型;应力场;温度场;渗流场,COMSOL热流固耦合分析:压缩空气模型中的应力场、温度场与渗流场
"Comsol技术:经典复古与高性能偏振分光器的完美结合",Comsol高性能偏振分光器。 经典复古小案例。 ,Comsol; 高性能; 偏振分光器; 经典复古; 小案例。,经典复古案例下的高性能Comsol偏振分光器
Matlab环境中结合经验小波变换与梯度下降回归的脉冲故障电流信号降噪新方法:融合机器学习自编码器技术的优化策略,Matlab环境下一种基于经验小波变和梯度下降回归的脉冲故障电流信号降噪方法 基于机器学习(传统自编码器和极限学习自编码器)的脉冲故障电流信号降噪。 正在整理中。 ,经验小波变换;梯度下降回归;脉冲故障电流信号降噪;Matlab环境;自编码器;极限学习自编码器,Matlab中脉冲故障电流信号的降噪新方法:经验小波与机器学习融合
基于电导分量法与扰动观测法的MPPT光伏输出模型比较与探讨,基于mppt两种方法:电导分量法,扰动观测法的光伏输出模型 ,基于MPPT; 电导分量法; 扰动观测法; 光伏输出模型;,基于电导分量与扰动观测法的MPPT光伏输出模型对比研究
8457b1084d4d7727ac9316167aba56ed.part2
OFDM系统调制下QPSK与16QAM的误码率比较分析程序,OFDM系统在QPSK与16QAM调制下,误码率比较程序 ,OFDM系统; QPSK调制; 16QAM调制; 误码率比较程序,OFDM系统调制下误码率比较程序:QPSK vs 16QAM
"No.1141 S7-200 PLC与MCGS组态构建的自动化搬运机械手组态系统研究",No.1141 S7-200 PLC和MCGS组态自动化搬运机械手的组态系统 ,S7-200 PLC; MCGS组态; 自动化搬运机械手; 组态系统; 1141 型号,"S7-200 PLC与MCGS组态系统在自动化搬运机械手中的应用"
"COMSOL仿真:固体超声导波二维模拟及汉宁窗调制5周期正弦激励信号的添加与中心频率200kHz的位移控制",COMSOL—固体超声导波二维仿真 激励信号为汉宁窗调制的5周期正弦函数,中心频率为200kHz 通过指定位移来添加激励信号 ,COMSOL;固体超声导波;二维仿真;汉宁窗调制;正弦函数;中心频率200kHz;指定位移添加激励信号。,COMSOL固体超声导波二维仿真:汉宁窗调制正弦激励信号添加
"基于多种智能算法的带时间窗与容量限制的车辆路径规划问题求解程序代码",带时间窗的车辆路径规划(VRPTW)问题 遗传算法求解程序代码,蚁群算法,粒子群算法,节约里程算法,禁忌搜索算法 考虑车辆的最大容量限制 考虑违反时间约束和容量约束的惩罚系数 以距离最优为优化目标 代码注释清楚,可改性强,可替自己的数据 代码使用matlab编写。 可以直接运行的 ,带时间窗;遗传算法;蚁群算法;粒子群算法;节约里程算法;禁忌搜索算法;车辆最大容量限制;惩罚系数;距离最优;可改性强;Matlab编写;直接运行代码。,"基于多种算法的带时间窗车辆路径规划优化程序"
西门子S7-200PLC在物料自动称量控制系统中的应用:基于称重配料混合程序的组态设计与王设计PLC程序设计,74基西门子S7-200PLC的物料自动称量控制系统称重配料物料混合程序组态设计组态设计组态王设计plc程序设计 ,核心关键词:西门子S7-200PLC;自动称量控制系统;物料混合程序;组态设计;组态王设计;PLC程序设计。,西门子S7-200PLC物料自动称量控制系统称重配料程序组态设计
"基于物理约束的神经网络:求解偏微分方程及多类型耦合方程的机器学习新方法",物理约束的神经网络 PINN 物理约束的神经网络求解偏微分方程,对基本渗流方程进行了求解,还有不同类型的方程,固体,流体,传热,以及耦合方程的求解。 机器学习与传统数值模拟的对比,适合发文章。 ,PINN; 物理约束神经网络; 偏微分方程求解; 渗流方程; 不同类型方程; 固体流体传热; 耦合方程; 机器学习; 传统数值模拟。,物理约束神经网络在偏微分方程求解中的应用
"Informer模型详解:深度解析与注释指南",Informer模型,有详细注释 ,Informer模型; 详细注释; 算法模型; 机器学习,Informer模型详解
COMSOL声学超声波无损检测模型:基于多物理场模块的压电耦合分析与应用研究,COMSOL声学—超声波无损检测 模型介绍:本模型主要利用压力声学、静电、固体力学以及压电效应、声结构耦合边界多物理场6个模块。 本模型包括压电单元(PZT-5H)和被检测材料(樟子松)两个部分。 一个压电陶瓷激励信号,一个压电陶瓷接受信号。 版本为5.6,低于5.6的版本打不开此模型 ,COMSOL声学; 超声波无损检测; 模型介绍; 压力声学; 静电; 固体力学; 压电效应; 声结构耦合边界多物理场; 压电单元(PZT-5H); 被检测材料(樟子松); 激励信号; 接受信号; 版本5.6,COMSOL声学模型:超声波无损检测(压力声学与多物理场耦合)
"No.905 S7-200 PLC与组态王联合实现温度PID控制:加热炉与电阻炉的智能化管理",No.905 S7-200 PLC和组态王组态温度PID控制加热炉电阻炉 ,核心关键词:S7-200 PLC;组态王组态;温度PID控制;加热炉;电阻炉;No.905;组态温控,基于S7-200 PLC与组态王控制的温度PID加热炉控制
"MATLAB仿真技术:并联平台与并联机器人Stewart舵机的集成应用",MATLAB仿真并联平台并联机器人Stewart 舵机 ,MATLAB仿真; 并联平台; 并联机器人; Stewart舵机,MATLAB仿真Stewart舵机并联机器人平台研究