【Hive八】Hive用户自定义生成表函数(UDTF)

bit1129

浏览: 1072858 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hive

1. 什么是UDTF

UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集

2. 如何实现UDTF

继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。
实现initialize, process, close三个方法
UDTF首先会调用initialize方法，此方法返回UDTF的返回行的信息（返回个数，类型）。初始化完成后，会调用process方法，对传入的参数进行处理，可以通过forword()方法把结果返回。最后close()方法调用，对需要清理的方法进行清理

3. 实例

如下代码对形如key:value;key:value;格式的字符串分拆成key，value，返回结果为key, value两个字段

import java.util.ArrayList;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

public class ExplodeMap extends GenericUDTF {
    @Override
    public void close() throws HiveException {
        // TODO Auto-generated method stub
    }

    @Override
    public StructObjectInspector initialize(ObjectInspector[] args)
            throws UDFArgumentException {
        if (args.length != 1) {
            throw new UDFArgumentLengthException("ExplodeMap takes only one argument");
        }
        if (args[0].getCategory() != ObjectInspector.Category.PRIMITIVE) {
            throw new UDFArgumentException("ExplodeMap takes string as a parameter");
        }
        ArrayList<String> fieldNames = new ArrayList<String>();
        ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();
        fieldNames.add("col1");
        fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
        fieldNames.add("col2");
        fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
        return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);
    }

    @Override
    public void process(Object[] args) throws HiveException {
        String input = args[0].toString();
        String[] test = input.split(";");
        for (int i = 0; i < test.length; i++) {
            try {
                String[] result = test[i].split(":");
                forward(result);
            } catch (Exception e) {
                continue;
            }
        }
    }
}

4. 如何使用UDTF

4.1 在select中使用UDTF

select explode_map(properties) as (col1,col2) from my_table

不可以添加其他字段使用：select a, explode_map(properties) as (col1,col2) from my_table
不可以嵌套调用：select explode_map(explode_map(properties)) from my_table
不可以和group by/cluster by/distribute by/sort by一起使用：select explode_map(properties) as (col1,col2) from src group by col1, col2

4.2 结合lateral view使用

select src.id, mytable.col1, mytable.col2 from src lateral view explode_map(properties) mytable as col1, col2;

此方法更为方便日常使用。执行过程相当于单独执行了两次抽取，然后union到一个表里。

5.总结

使用lateral view之后，那么col1和col2相当于普通的列，可以参与查询，计算

分享到：

【HBase一】HBase概述 | 【Hive七】Hive用户自定义聚合函数(UDAF)

2015-03-11 11:30
浏览 1671
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Hive八】Hive用户自定义生成表函数(UDTF)

1. 什么是UDTF

2. 如何实现UDTF

3. 实例

4. 如何使用UDTF

4.1 在select中使用UDTF

4.2 结合lateral view使用

5.总结

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Hive八】Hive用户自定义生成表函数(UDTF)

1. 什么是UDTF

2. 如何实现UDTF

3. 实例

4. 如何使用UDTF

4.1 在select中使用UDTF

4.2 结合lateral view使用

5.总结

评论

发表评论

相关推荐

【Hive十九】Hive JDBC URL for Kerberos secured cluster

【Hive十八】Hive QL中使用配置的变量

【Hive十七】Hive Thrift Server HA配置

【Hive十六】Hive SQL Standard Based Hive Authorization

【Hive十五】Hive IO相关

【Hive十四】Hive读写Parquet格式的数据

【Hive十三】Hive读写Avro格式的数据

【Hive十二】Hive服务

【Hive十一】Hive数据倾斜优化

【Hive十】Programming Hive学习笔记

【Spark八十一】Hive in the spark assembly

【Hive七】Hive用户自定义聚合函数(UDAF)

【Hive六】Hive用户自定义函数(UDF)

【Hive五】HQL查询

【Hive四】HQL DML之LOAD和INSERT

【Hive三】HQL DDL

【Hive二】Hive架构

【Hive一】Hive入门

最近访客更多访客>>