Hive-0.5中UDF和UDAF简述

085567

浏览: 224197 次
性别:
来自: 北京

最近访客更多访客>>

zouhuiying

isy

zzr1000

bianqi

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hive

Hadoop Apache 数据结构 Mapreduce C#

一、UDF

1、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：

a）文件格式：Text File，Sequence File

b）内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text

c）用户提供的 map/reduce 脚本：不管什么语言，利用 stdin/stdout 传输数据

d）用户自定义函数: Substr, Trim, 1 – 1

e）用户自定义聚合函数: Sum, Average…… n – 1

2、定义：UDF(User-Defined-Function)，用户自定义函数对数据进行处理。

二、用法

1、UDF函数可以直接应用于select语句，对查询结构做格式化处理后，再输出内容。

2、编写UDF函数的时候需要注意一下几点：

a）自定义UDF需要继承org.apache.hadoop.hive.ql.UDF。

b）需要实现evaluate函。

c）evaluate函数支持重载。

3、以下是两个数求和函数的UDF。evaluate函数代表两个整型数据相加，两个浮点型数据相加，可变长数据相加。

package hive.connect;

import org.apache.hadoop.hive.ql.exec.UDF;

public final class Add extends UDF {
   public Integer evaluate(Integer a, Integer b) {
     if (null == a || null == b) {
        return null;
     }
     return a + b;
   }

   public Double evaluate(Double a, Double b) {
     if (a == null || b == null)
        return null;
     return a + b;
   }

   public Integer evaluate(Integer... a) {
     int total = 0;
     for (int i = 0; i < a.length; i++)
        if (a[i] != null)
          total += a[i];

return total;
}
}4、步骤a）把程序打包放到目标机器上去；

b）进入hive客户端，添加jar包：hive>add jar /run/jar/udf_test.jar;

c）创建临时函数：hive>CREATE TEMPORARY FUNCTION add_example AS 'hive.udf.Add';

d）查询HQL语句：

SELECT add_example(8, 9) FROM scores;

SELECT add_example(scores.math, scores.art) FROM scores;

SELECT add_example(6, 7, 8, 6.8) FROM scores;

e）销毁临时函数：hive> DROP TEMPORARY FUNCTION add_example;

5、细节在使用UDF的时候，会自动进行类型转换，例如：
SELECT add_example(8,9.1) FROM scores;

结果是17.1，UDF将类型为Int的参数转化成double。类型的饮食转换是通过UDFResolver来进行控制的。

三、UDAF

1、Hive查询数据时，有些聚类函数在HQL没有自带，需要用户自定义实现。

2、用户自定义聚合函数: Sum, Average…… n – 1

UDAF（User- Defined Aggregation Funcation）

四、用法

1、一下两个包是必须的import org.apache.hadoop.hive.ql.exec.UDAF和 org.apache.hadoop.hive.ql.exec.UDAFEvaluator。

2、函数类需要继承UDAF类，内部类Evaluator实UDAFEvaluator接口。

3、Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数。

a）init函数实现接口UDAFEvaluator的init函数。

b）iterate接收传入的参数，并进行内部的轮转。其返回类型为boolean。

c）terminatePartial无参数，其为iterate函数轮转结束后，返回轮转数据，terminatePartial类似于hadoop的Combiner。

d）merge接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean。

e）terminate返回最终的聚集函数结果。

4、以下为一个求平均数的UDAF：

package hive.udaf;

import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;

public class Avg extends UDAF {
   public static class AvgState {
     private long mCount;
     private double mSum;
   }

public static class AvgEvaluator implements UDAFEvaluator {
AvgState state;

     public AvgEvaluator() {
        super();
        state = new AvgState();
        init();
     }

     /**
      * init函数类似于构造函数，用于UDAF的初始化
      */
     public void init() {
        state.mSum = 0;
        state.mCount = 0;
     }

     /**
      * iterate接收传入的参数，并进行内部的轮转。其返回类型为boolean
      *
      * @param o
      * @return
      */
     public boolean iterate(Double o) {
        if (o != null) {
          state.mSum += o;
          state.mCount++;
        }
        return true;
     }

     /**
      * terminatePartial无参数，其为iterate函数轮转结束后，返回轮转数据，
      * terminatePartial类似于hadoop的Combiner
      *
      * @return
      */
     public AvgState terminatePartial() {// combiner
        return state.mCount == 0 ? null : state;
     }

     /**
      * merge接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean
      *
      * @param o
      * @return
      */
     public boolean merge(AvgState o) {
        if (o != null) {
          state.mCount += o.mCount;
          state.mSum += o.mSum;
        }
        return true;
     }

     /**
      * terminate返回最终的聚集函数结果
      *
      * @return
      */
     public Double terminate() {
        return state.mCount == 0 ? null : Double.valueOf(state.mSum
             / state.mCount);
     }
   }
}5、执行求平均数函数的步骤a）将java文件编译成Avg_test.jar。

b）进入hive客户端添加jar包：

hive>add jar /run/jar/Avg_test.jar。

c）创建临时函数：

hive>create temporary function avg_test 'hive.udaf.Avg';

d）查询语句：

hive>select avg_test(scores.math) from scores;

e）销毁临时函数：

hive>drop temporary function avg_test;

五、总结
1、重载evaluate函数。

2、UDF函数中参数类型可以为Writable，也可为java中的基本数据对象。

3、UDF支持变长的参数。

4、Hive支持隐式类型转换。

5、客户端退出时，创建的临时函数自动销毁。

6、evaluate函数必须要返回类型值，空的话返回null，不能为void类型。

7、UDF是基于单条记录的列进行的计算操作，而UDFA则是用户自定义的聚类函数，是基于表的所有记录进行的计算操作。

8、UDF和UDAF都可以重载。

9、查看函数

SHOW FUNCTIONS;
DESCRIBE FUNCTION <function_name>;

10、wiki链接：http://wiki.apache.org/hadoop/Hive/LanguageManual/UDF

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/dajuezhao/archive/2010/07/21/5753001.aspx

分享到：

国内外电信运营商云计算实施情况对比分析 | 存储管理

2010-08-20 09:33
浏览 2178
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hive:因此，我们必须关闭HIVE思维，然后再重新打开。好吧，它通常可以在我的电脑上使用: 9. **扩展性**：Hive可以通过编写UDF（用户定义函数）和UDAF（用户定义聚合函数）来扩展其功能，满足特定的业务需求。 10. **编译与安装**：从源码编译Hive需要Java开发环境，Apache Maven以及Hadoop环境。通常，...

亚洲电子商务发展案例研究: 本书由国际发展研究中心（IDRC）和东南亚研究院（ISEAS）联合出版，旨在探讨亚洲背景下电子商务的发展与实践。IDRC自1970年起，致力于通过科学技术解决发展中国家的社会、经济和环境问题。书中详细介绍了IDRC的ICT4D项目，以及如何通过项目如Acacia、泛亚网络和泛美项目，在非洲、亚洲和拉丁美洲推动信息通信技术（ICTs）的影响力。特别强调了IDRC在弥合数字鸿沟方面所作出的贡献，如美洲连通性研究所和非洲连通性项目。ISEAS作为东南亚区域研究中心，专注于研究该地区的发展趋势，其出版物广泛传播东南亚的研究成果。本书还收录了电子商务在亚洲不同国家的具体案例研究，包括小型工匠和开发组织的电子商务行动研究、通过互联网直接营销手工艺品、电子营销人员的创新方法以及越南电子商务发展的政策影响。

少儿编程scratch项目源代码文件案例素材-Leap On.zip: 少儿编程scratch项目源代码文件案例素材-Leap On.zip

ANSYS Maxwell电磁仿真在高速无刷电机设计中的应用与优化技巧: 内容概要：本文详细介绍了ANSYS Maxwell电磁仿真软件在高速无刷电机（特别是吸尘器电机）设计中的应用。主要内容涵盖电机设计中的常见挑战及其解决方案，如定子槽开口设计、气隙磁密控制、Halbach阵列的应用、定子斜槽角度选择、散热设计以及PWM控制策略等。文中通过具体实例展示了如何利用Maxwell进行参数化扫描、瞬态场仿真、温度场耦合仿真等操作，从而优化电机性能并提高效率。此外，还讨论了仿真与实际情况之间的差异及应对措施。适合人群：从事电机设计、电磁仿真及相关领域的工程师和技术人员。使用场景及目标：适用于希望深入了解高速无刷电机设计原理及优化方法的专业人士。目标是在实际项目中运用Maxwell电磁仿真工具，解决设计难题，提升产品性能。其他说明：文章强调了仿真并非万能，但合理的仿真手段能够极大促进产品研发进程。文中提供了多个实用的Python和MATLAB脚本示例，帮助读者更好地理解和应用相关技术。

Java多态的一些小知识点: 这是我记录的第一篇笔记和博客，我现在大一下，我想以此为契机激励自己记笔记，加深对特定知识的印象！目前我在学习黑马的Java，同时期也会学一些数据结构和相关算法，我也会将这部分笔记上传。最后我想说的是一些最近的感想 1.不要美化你没走过的路 2.来都来了那就坚持走下去，不给自己留遗憾！！

Matlab构建双输入深度学习模型：融合时序与频域特征的技术指南: 内容概要：本文详细介绍了如何利用Matlab构建并训练双输入深度学习模型，特别是针对不同长度的一维序列数据（如时序信号及其FFT频谱）。首先，作者展示了如何生成用于实验的仿真数据，接着深入探讨了网络架构的设计思路，包括采用CNN-LSTM处理时序特征以及纯CNN提取频域特征的方式。文中强调了数据预处理的重要性，如归一化处理，并提供了具体的训练选项设置方法。此外，还分享了一些实用的小贴士，如如何正确地进行模型评估和调整网络结构以适应不同的应用场景。最后，作者提到了一些常见的错误及解决办法，帮助读者避开潜在的陷阱。适合人群：对深度学习感兴趣的科研工作者、研究生及以上水平的学生，尤其是那些希望将理论应用于实践的人群。使用场景及目标：适用于需要同时处理多种类型数据的研究项目，如机械故障诊断、情感分析等领域。通过本教程的学习，读者能够掌握构建高效双输入深度学习模型的方法，从而提高数据分析的效果。其他说明：本文不仅提供完整的代码示例，还包括了许多实践经验分享，有助于初学者更好地理解和应用所学知识。

基于COMSOL的三相电力变压器温度场与流体场耦合计算模型及其实现技巧: 内容概要：本文详细介绍了使用COMSOL进行三相电力变压器温度场与流体场耦合计算的具体步骤和技术要点。首先讨论了变压器温升问题的重要性和现有仿真与实测数据之间的偏差，接着阐述了电磁-热-流三场耦合建模的难点及其解决方法。文中提供了关键的材料属性设置代码，如变压器油的密度和粘度随温度变化的关系表达式，并强调了网格划分、求解器配置以及后处理阶段需要注意的技术细节。此外，还分享了一些实用的经验和技巧，例如采用分离式步进求解策略、优化网格划分方式等，确保模型能够顺利收敛并获得精确的结果。最后，作者推荐了几种常用的湍流模型，并给出了具体的参数设置建议。适用人群：从事电力系统设计、变压器制造及相关领域的工程师和技术人员，特别是那些希望深入了解COMSOL软件在复杂多物理场耦合计算方面应用的人群。使用场景及目标：适用于需要对变压器内部温度分布和油流情况进行精确模拟的研究或工程项目。主要目的是提高仿真精度，使仿真结果更加贴近实际情况，从而指导产品设计和优化运行参数。其他说明：文中不仅包含了详细的理论解释和技术指导，还提供了一些实际案例供读者参考。对于初学者来说，可以从简单的单相变压器开始练习，逐步掌握复杂的三相变压器建模技能。同时，作者提醒读者要注意单位的一致性和材料属性的准确性，这是避免许多常见错误的关键所在。

PSD信号处理电路（PCB 原理图封装库）亲测可用.zip: PSD信号处理电路（PCB 原理图封装库）亲测可用.zip

少儿编程scratch项目源代码文件案例素材-3D游戏.zip: 少儿编程scratch项目源代码文件案例素材-3D游戏.zip

信号分析+频率分析+频率合成+外部信号输入+光学分析: 信号分析，可导入外部信号文件分析信号合成频率。也可设置信号频率合成信号源。信号合成，可导入外部频率文件合成信号数据。也可调整频率数值合成信号源。应用于通信领域，光学领域，声波领域，信号和频率通过图形进行展示，所见所得，

少儿编程scratch项目源代码文件案例素材-3D 汽车.zip: 少儿编程scratch项目源代码文件案例素材-3D 汽车.zip

永磁同步电机FOC控制四种方法模型及Simulink仿真实践: 内容概要：本文详细介绍了永磁同步电机（PMSM）基于磁场定向控制（FOC）的四种不同控制策略及其Simulink仿真模型。首先，经典双闭环PI控制提供了稳定的基础控制方式，适用于大多数应用场景。其次，电流滞环控制采用Bang-Bang控制策略，虽然响应速度快但能耗较高。第三种方法是滑模转速控制，利用非线性切换函数提高系统的抗扰动能力，但在稳态时存在轻微抖振。最后，PR控制在静止坐标系上实现了高精度的电流跟踪，特别适合固定频率应用。每种控制方法都有详细的参数设定和仿真波形展示，帮助读者深入理解各控制策略的特点和适用范围。适合人群：从事电机控制系统研究与开发的技术人员，尤其是有一定MATLAB/Simulink基础的研发人员。使用场景及目标：①掌握永磁同步电机FOC控制的基本原理和技术细节；②通过具体实例和仿真模型验证不同控制策略的效果；③选择最适合特定应用场景的控制方法并进行优化。其他说明：文中还提到了一些实用技巧，如参数调整的经验法则、常见问题的解决方案以及仿真环境配置注意事项。附带的参考文献有助于进一步深入了解相关理论背景。

基于模型预测控制(MPC)的无人艇分布式编队协同控制仿真与实现: 内容概要：本文详细介绍了利用模型预测控制（MPC）实现无人艇分布式编队协同控制的方法和技术。首先，通过简化的动力学模型和MATLAB代码展示了无人艇的基本行为预测。接着，深入探讨了编队协同控制的关键要素，包括代价函数的设计、信息交换机制以及分布式MPC的具体实现步骤。文中还提供了具体的Python代码示例，涵盖了从单个无人艇的动力学建模到多智能体之间的协作控制。此外，作者分享了一些实用技巧，如如何处理通信延迟、传感器噪声等问题，并展示了仿真效果，证明了所提出方法的有效性和鲁棒性。适合人群：对无人艇编队控制、模型预测控制（MPC）、分布式系统感兴趣的科研人员、工程师及高校学生。使用场景及目标：适用于研究和开发无人艇编队控制系统，特别是希望通过分布式控制实现高效、灵活的编队任务。目标是在复杂的海洋环境中，使无人艇能够自主完成编队、跟踪指定路径并应对各种干扰因素。其他说明：文中提供的代码片段和理论解释有助于理解和实现无人艇编队控制的实际应用。建议读者在实验过程中结合实际情况进行参数调整和优化。

220V转12V工业电源设计方案详解：6W与12W高效低成本电路设计及认证要点: 内容概要：本文详细介绍了两种成熟的220V转12V工业电源设计方案，分别是6W和12W的反激式电源设计。文中不仅提供了详细的电路设计参数，如变压器绕制方法、元件选择、PCB布局技巧，还分享了许多实用的经验和技术细节，确保设计方案能够顺利通过相关认证。同时，文章对比了两种方案的成本和性能差异，帮助读者在实际应用中做出合适的选择。适合人群：从事电源设计的工程师，尤其是对220V转12V工业电源设计感兴趣的初学者和有一定经验的研发人员。使用场景及目标：适用于需要将220V交流电转换为12V直流电的应用场合，如工业设备、智能家居、医疗设备等。目标是提供高效、稳定且成本可控的电源解决方案。其他说明：文章强调了变压器设计和EMI测试中的注意事项，以及如何在保证性能的前提下降低成本。此外，还提到了一些常见的认证问题及其解决办法。

能源领域中基于储能电站服务的冷热微网系统双层优化模型及其应用: 内容概要：本文探讨了基于储能电站服务的冷热微网系统双层优化模型，旨在解决储能配置和运行调度在不同时间尺度下的优化问题。文中首先介绍了双层规划模型的构建，上层负责长时间尺度的储能配置，涉及储能系统的容量、充放电功率等关键参数；下层则专注于短时间尺度的微网优化运行，涵盖太阳能、风力发电等能源设备的功率输出。接着，文章阐述了如何通过KKT条件将双层模型转化为单层模型，并使用大M法将其线性化处理，以便于求解。最后，通过使用Gurobi等求解器进行求解，实现了储能系统的优化配置和高效运行。适合人群：从事能源领域的研究人员和技术人员，尤其是对储能系统和微网优化感兴趣的读者。使用场景及目标：适用于需要优化储能配置和微网运行的企业或研究机构，目标是提高能源利用效率，降低成本，促进可持续能源的发展。其他说明：文章提供了详细的Python代码示例，帮助读者理解和实现双层优化模型的具体步骤。此外，还讨论了一些实际应用中的注意事项，如大M值的选择和求解器的配置等。

永磁同步电机MTPA与弱磁控制的MATLAB/Simulink仿真建模及优化: 内容概要：本文介绍了永磁同步电机(PMSM)的最大转矩电流比(MTPA)控制和弱磁控制的MATLAB/Simulink仿真模型及其设计原理。首先阐述了这两种控制方式的背景和技术意义，接着详细解释了MTPA控制和弱磁控制的具体实现方法，包括关键公式和代码片段。然后展示了如何在Simulink中构建完整的仿真模型，涵盖各个控制模块的搭建，如电流环、速度环的PI调节器等。最后通过仿真结果分析验证了所提出的控制策略的有效性和优越性。适合人群：从事电机控制系统研究的技术人员、高校相关专业师生、对永磁同步电机控制感兴趣的工程技术人员。使用场景及目标：适用于需要深入了解并掌握永磁同步电机高性能控制技术的研究人员，帮助他们理解和实现高效的电机控制策略，特别是在工业自动化、电动汽车等领域。其他说明：文中提供了详细的代码示例和仿真波形图，有助于读者更好地理解和复现实验结果。同时指出了调试过程中可能遇到的问题及解决方案，便于初学者避免常见错误。

基于Matlab/Simulink的异步电机V/F开环与转差频率闭环调速系统仿真: 内容概要：本文详细介绍了利用Matlab/Simulink进行异步电机调速仿真的具体实现方法。首先探讨了最经典的恒压频比（V/F）开环控制系统，通过设置三相电源模块、V/F控制器和SVPWM逆变器，实现了电压和频率的线性增长，展示了开环系统在不同负载情况下的性能特点。接着引入了更为复杂的转差频率闭环控制方案，通过加入转速外环和转差频率内环，以及PID调节器，显著提高了系统的稳定性，特别是在负载突变时的表现。最后讨论了SVPWM控制的优势，强调其在改善电压波形质量和降低谐波方面的优越性。适合人群：从事电机控制领域的研究人员和技术人员，尤其是有一定Matlab/Simulink基础的工程师。使用场景及目标：适用于需要深入了解异步电机调速原理和仿真实现的研究项目。主要目标是掌握V/F开环和转差频率闭环两种控制方式的具体实现步骤，理解各自的特点和应用场景，同时学会优化系统参数以提高性能。其他说明：文中提供了详细的代码片段和仿真技巧，帮助读者更好地理解和应用相关理论。建议读者在实践中结合实际硬件参数进行调整，确保仿真结果的准确性。

Prius 2004永磁同步电机设计：从Excel到温升仿真的全链路实操与参数化建模: 内容概要：本文详细介绍了丰田Prius 2004永磁同步电机的设计流程和技术要点，涵盖了从初步设计到最终仿真的各个环节。首先，利用Excel进行初始参数计算，如定子叠厚、绕组匝数等，确保设计的基础合理性。接着，通过Maxwell有限元仿真进行参数化建模，优化磁钢尺寸、气隙长度等关键参数，并通过批处理脚本提高仿真效率。同时，借助橡树岭国家实验室提供的实测数据，验证仿真结果的准确性，确保材料属性和损耗计算的精确性。此外，MotorCAD用于温升仿真，设置合理的冷却系统参数，防止电机过热。最后，提供了详细的建模教程，帮助初学者避开常见错误。适用人群：从事电机设计的工程师和技术人员，尤其是对永磁同步电机感兴趣的从业者。使用场景及目标：适用于希望深入了解Prius 2004永磁同步电机设计的技术人员，旨在通过实际案例掌握从理论计算到仿真验证的完整设计流程，提升电机设计能力。其他说明：文中不仅提供了具体的公式和代码示例，还分享了许多实用的实战经验和避坑指南，使读者能够更快地上手并应用到实际工作中。

电力系统中基于功率同步控制的并网变流器暂态稳定性分析及其应用: 内容概要：本文深入探讨了基于功率同步控制（PSC）的并网变流器在弱电网条件下的暂态稳定性。首先介绍了PSC的基本原理和核心算法，展示了如何通过相位图和小信号模型进行稳定性分析。文中详细解释了K_p和K_i参数对系统稳定性的影响，并提供了具体的Python和Matlab代码示例。接着讨论了弱电网环境中系统的特殊行为，如相位轨迹的发散与收敛，以及如何通过调整虚拟惯量J和阻尼系数D来提高系统的稳定性。最后分享了一些实际工程中的调试经验和技巧，强调了仿真与实测数据相结合的重要性。适合人群：从事电力系统研究和开发的技术人员，特别是关注并网变流器稳定性和弱电网环境下的控制系统设计的专业人士。使用场景及目标：适用于评估和改进并网变流器在弱电网条件下的性能，确保其在各种工况下的稳定运行。目标是帮助工程师理解和掌握PSC的工作机制，以便更好地应对实际工程项目中的挑战。阅读建议：读者可以通过本文提供的代码示例和图表，结合自身的实践经验，逐步理解PSC的工作原理及其在弱电网环境下的表现。同时，应注意将理论分析与实际测量相结合，以获得更全面的认识。

西门子Smart200恒压供水系统：基于PLC与变频器的智能化供水解决方案: 内容概要：本文详细介绍了西门子Smart200恒压供水系统的架构和关键技术实现。系统采用PLC（S7-200 Smart）作为控制器，结合变频器和触摸屏，实现了18种供水模式的一键切换。核心技术包括动态PID控制、水泵调度算法、变频器参数自定义、故障处理机制以及定时锁机功能。通过结构化编程和Modbus协议的应用，确保了系统的高精度和灵活性。文中还展示了具体的编程实例，如PID参数动态调整、水泵累计时间平衡、报警日志记录等功能的具体实现方法。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对PLC编程、变频器应用有研究的人群。使用场景及目标：适用于需要稳定供水的场合，如医院、学校、商业综合体等。系统旨在提高供水效率，减少维护成本，确保供水质量和安全。具体目标包括实现多种供水模式的灵活切换、优化水泵使用寿命、提升故障诊断能力等。其他说明：文中不仅提供了详细的编程代码示例，还分享了一些实用的经验技巧，如避免数组越界导致PLC死机、合理设置PID参数阈值等。此外，还提到了一些隐藏的功能，如复活节彩蛋调试菜单，增加了系统的趣味性和实用性。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论