【Hive六】Hive用户自定义函数(UDF)

bit1129

浏览: 1078357 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hive

1. 什么是Hive UDF

Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：

文件格式：Text File，Sequence File
内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text
用户提供的 map/reduce 脚本：不管什么语言，利用 stdin/stdout 传输数据
用户自定义函数: Substr, Trim
用户自定义聚合函数: Sum, Average
UDF只能实现一进一出的操作，如果需要实现多进一出，则需要实现UDAF

2. UDF用法

UDF函数可以直接应用于select语句，对查询结构做格式化处理后，再输出内容
自定义UDF需要继承org.apache.hadoop.hive.ql.UDF
自定义的UDF需要实现UDF的evaluate方法
UDF的evaluate方法支持重载，即可以定义多个evaluate方法，这个方法参数列表与用户调用UDF函数时提供的方法参数一致即可

3.自定义函数UDF实现举例

package org.apache.hadoop.hive.ql.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.hive.serde2.io.DoubleWritable;
import org.apache.hadoop.hive.serde2.io.HiveDecimalWritable;

public abstract class UDFMath extends UDF {
  private final DoubleWritable doubleWritable = new DoubleWritable();

  public UDFMath() {
  }

  /**
   * For subclass to implement.
   */
  public abstract DoubleWritable evaluate(DoubleWritable a);

  /**
   * Convert HiveDecimal to a double and call evaluate() on it.
   */
  public final DoubleWritable evaluate(HiveDecimalWritable writable) {
    if (writable == null) {
      return null;
    }

    double d = writable.getHiveDecimal().bigDecimalValue().doubleValue();
    doubleWritable.set(d);
    return evaluate(doubleWritable);
  }

}

package org.apache.hadoop.hive.ql.udf;

import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.hive.ql.exec.vector.VectorizedExpressions;
import org.apache.hadoop.hive.ql.exec.vector.expressions.gen.FuncSinDoubleToDouble;
import org.apache.hadoop.hive.ql.exec.vector.expressions.gen.FuncSinLongToDouble;
import org.apache.hadoop.hive.serde2.io.DoubleWritable;
import org.apache.hadoop.hive.serde2.io.HiveDecimalWritable;

/**
 * UDFSin.
 *
 */
@Description(name = "sin",
    value = "_FUNC_(x) - returns the sine of x (x is in radians)",
    extended = "Example:\n "
    + "  > SELECT _FUNC_(0) FROM src LIMIT 1;\n" + "  0")
@VectorizedExpressions({FuncSinLongToDouble.class, FuncSinDoubleToDouble.class})
public class UDFSin extends UDFMath {
  private final DoubleWritable result = new DoubleWritable();

  public UDFSin() {
  }

  /**
   * Take Sine of a.
   */
  public DoubleWritable evaluate(DoubleWritable a) {
    if (a == null) {
      return null;
    } else {
      result.set(Math.sin(a.get()));
      return result;
    }
  }

}

上面是自定义了一个求正玄的UDF函数

4. 如何使用自定义函数UDF

把程序打包放到目标机器上去，进入hive客户端，添加jar包

hive>add  jar /user/hadoop/udf.math.sin.jar;

创建临时函数：

hive>CREATE TEMPORARY FUNCTION math.sin AS 'org.apache.hadoop.hive.ql.udf.UDFSin';

查询临时函数

SELECT math.sin(3.14) FROM word;

销毁临时函数：

hive> DROP TEMPORARY FUNCTION math.sin;

5. 永久注册UDF到Hive

找到以下文件： ql/src/java/org/apache/hadoop/hive/ql/exec/FunctionRegistry.java
添加新的注册函数myfunc

org.apache.hadoop.hive.ql.udf.UDFMath
org.apache.hadoop.hive.ql.udf.UDFSin

添加注册函数的语句

registerFunction("udf_math_sina", UDFSin.class)

分享到：

【Hive七】Hive用户自定义聚合函数(UDAF) | 【Hive五】HQL查询

2015-03-10 15:08
浏览 3513
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Hive六】Hive用户自定义函数(UDF)

1. 什么是Hive UDF

2. UDF用法

3.自定义函数UDF实现举例

4. 如何使用自定义函数UDF

5. 永久注册UDF到Hive

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Hive六】Hive用户自定义函数(UDF)

1. 什么是Hive UDF

2. UDF用法

3.自定义函数UDF实现举例

4. 如何使用自定义函数UDF

5. 永久注册UDF到Hive

评论

发表评论

相关推荐

【Hive十九】Hive JDBC URL for Kerberos secured cluster

【Hive十八】Hive QL中使用配置的变量

【Hive十七】Hive Thrift Server HA配置

【Hive十六】Hive SQL Standard Based Hive Authorization

【Hive十五】Hive IO相关

【Hive十四】Hive读写Parquet格式的数据

【Hive十三】Hive读写Avro格式的数据

【Hive十二】Hive服务

【Hive十一】Hive数据倾斜优化

【Hive十】Programming Hive学习笔记

【Spark八十一】Hive in the spark assembly

【Hive八】Hive用户自定义生成表函数(UDTF)

【Hive七】Hive用户自定义聚合函数(UDAF)

【Hive五】HQL查询

【Hive四】HQL DML之LOAD和INSERT

【Hive三】HQL DDL

【Hive二】Hive架构

【Hive一】Hive入门

最近访客更多访客>>