Hive中实现自定义函数UDF(转自：高飞鸟博客) - - ITeye博客

`

zc0604

浏览: 227860 次
性别:
来自: 北京

最近访客更多访客>>

xyc1985414

abraxas101

l1012384516

puquanbuai

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

itway：很棒的小demo
nodejs 之模拟登录
zgc123123：阿斯达是事实上事实上事实上
利用java反射机制，实现对类的私有变量和私有方法的访问
Jabbar2011： ...
httpwatch的在IE8版本的开启
铁拳无敌孙中山：试了下新浪微博的登录, 没有成功啊登录后重定向public S ...
腾讯，新浪微博模拟登录爬取数据程序，无偿奉献了(java版本)
sunshinan2013：请问腾讯微博 p_skey这个cookie怎么取？
腾讯，新浪微博模拟登录爬取数据程序，无偿奉献了(java版本)

Hive中实现自定义函数UDF(转自：高飞鸟博客)

博客分类：

hive

阅读更多

Hive的UDF，其实很类似Mysql之类的自定义函数

不过它需要用java来编写，而不是用传统的SQL来完成

实现一个UDF的步骤如下：

实现一个Java Class，继承自UDF
打成jar包，并加入到Hive的ClassPath中
生成自定义函数，执行select
删除刚才创建的临时函数

下面这个UDF，是我给hive的array增加的一个函数

用来判断array中是否包含某个值，hive的标准函数中并没有此功能函数

package com.sohu.hadoop.hive.udf;
import java.util.*;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.BooleanWritable;
import org.apache.hadoop.io.Text;
 
public final class ArrayContains extends UDF {
 
  public BooleanWritable evaluate(ArrayList<String> arr,Text ele)
    {
        BooleanWritable rtn = new BooleanWritable(false);
        if (arr == null || arr.size() < 1)
        {
            return rtn;
        }
        try {
            String cstr = ele.toString();   
            for (String str : arr)
            {
                if (str.equals(cstr))
                {
                    rtn = new BooleanWritable(true);
                    break;
                }
            }
 
        } catch (Exception e) {
            e.printStackTrace();
        }
 
        return rtn;
    }
}

然后执行编译打包：

javac -classpath /opt/hadoop_client/hadoop/hadoop-0.20.2+228-core.jar:/opt/hadoop_client/hive/lib/hive-exec-0.5.0.jar src/com/sohu/hadoop/hive/udf/ArrayContains.java -d build
jar -cvf hadooop-mc-udf.jar -C build .

最后执行Hive QL查询：

hive -e "add jar /opt/ysz/udf/hadooop-mc-udf.jar;drop temporary function array_contains;create temporary function array_contains as 'com.sohu.hadoop.hive.udf.ArrayContains';select suv,channelid from pvlog_pre where array_contains(channelid,'2')"

分享到：

httpwatch的在IE8版本的开启 | 决策树ID3算法详解

2012-03-24 10:46
浏览 7342
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hive自定义UDF编写函数.docx: 本文主要讲解了 Hive 中自定义 UDF 函数的编写方法，包括创建 UDF 类、实现自定义函数逻辑、编译和打包 UDF jar 包、上传至 Hive 服务器并注册自定义函数。一、创建 UDF 类为了实现自定义 UDF 函数，需要创建一...

HIVE自定义UDF函数: 而自定义用户定义函数（UDF）是 Hive 中的一个重要功能，允许用户根据自己的需求编写自定义函数，以便在 Hive 查询中使用。如何在 Hive 中创建自定义 UDF 函数：步骤一：编写 Java 程序首先，您需要编写一个 ...

hive的自定义函数: ### Hive的自定义函数（UDF）详解 #### 一、引言在大数据处理领域，Apache Hive 是一个广泛使用的数据仓库工具，它提供了一种SQL-like查询语言——HiveQL，使用户能够轻松地对存储在Hadoop文件系统中的大规模数据...

Spark不能使用hive自定义函数.doc: 然而，在实际应用中，开发人员可能会遇到一个常见问题——Spark 无法直接使用 Hive 中定义的自定义函数（UDF）。本文将深入探讨这一问题，并提供解决方案。 #### 一、问题背景当开发者尝试在 Spark 应用程序中...

hive UDF需要jar包: - 对于复杂操作，考虑使用MapReduce或Spark等更底层的框架，而不是直接在UDF中实现。 - 测试UDF时，先在小规模数据上进行验证，确保正确性和性能。综上所述，Hive UDF的开发和使用涉及到Java编程、Hive和Hadoop...

Hive的Udf函数进行数据脱敏: 在Hive中，UDF分为三种类型：UDF（单行函数）、UDAF（累积聚合函数）和UDTF（多行转换函数）。在这里，我们只需要UDF，因为它适用于处理单行数据。 1. **编写Java类**：要创建一个UDF，你需要编写一个Java类，该...

hive数仓、hive SQL 、 hive自定义函数、hive参数深入浅出: - UDF定义：用户可以编写Java代码实现特定功能的函数，然后在Hive SQL中调用。 - UDAF（用户定义的聚合函数）：用于处理一组输入值并返回单个值，如自定义平均值、众数等。 - UDTF（用户定义的表生成函数）：将一...

hive 创建自定义函数和 hive加载说明: 在Hive中，UDF分为三种类型：UDF（User Defined Function）、UDAF（User Defined Aggregate Function）和UDTF（User Defined Table Generating Function）。UDF是最基础的，处理单行单列的数据；UDAF用于聚合操作，...

hive自定义udf函数实战: udf函数，用户自定义函数，可以直接在sql语句中计算的函数优点：允许实现模块化的程序设计、方便修改代码、增加函数 UDF的执行速度很快，通过缓存计划在语句重复执行时降低代码的编译开销，比存储方法的执行效率...

自定义hive函数: 你可以编写一个Java类，实现Hive的UDF接口，然后注册到Hive中，这样就可以在Hive SQL语句中调用这个函数，对URL字符串进行解析，提取出主域名部分。例如，如果你有一个包含URL的字段，你可以创建一个UDF如下： ``...

hive自定义函数demo: 本示例“hive自定义函数demo”将探讨如何在Hive中开发和使用自定义函数（UDF），这对于扩展Hive的功能和适应特定业务需求至关重要。下面，我们将深入学习与Hive自定义函数相关的知识。 1. **什么是Hive UDF?** ...

05.hive中如何自定义函数--json解析函数示例.mp4: 05.hive中如何自定义函数--json解析函数示例.mp4

hive-udf:hive自定义函数: hive-udfhive自定义函数主要实现hive3种自定义函数1，udf函数，主要用于处理一对一数据处理2，udtf函数，主要用于处理一对多数据处理2，udaf函数，主要用与处理多对一数据聚合处理

hive按月份加减udf范例: 在Hive中，UDF（User Defined Function）是用户自定义函数，允许我们扩展Hive的功能以满足特定的业务需求。本示例主要讲解如何在Hive中实现按月份的加减操作，这在时间序列分析或周期性报告中非常常见。标题"hive...

一些有用的自定义配置单元udf函数、特殊数组、json、数学、字符串函数。___下载.zip: 文件`hive-third-functions-master`很可能包含了这样的自定义UDF实现，供用户在Hive查询中引用。 2. **特殊数组函数**：在Hive中，数组类型是一种复杂的数据类型，允许存储一组有序的元素。特殊数组函数可以帮助...

各种情况手机号清洗udf函数（hive impala）: 3. **Hive UDF**：在Hive中，我们可以创建自定义函数（UDF）来处理特定的数据清洗任务。首先，你需要编写一个Java类，该类继承自`org.apache.hadoop.hive.ql.udf.generic.GenericUDF`，并实现`evaluate`方法，该方法...

* hive脱敏UDF函数 *对一些敏感信息进行脱敏处理，替换位置可自定义，脱敏符号可随机也可自定义: * 脱敏UDF函数 * 功能：对一些敏感信息进行脱敏处理，替换方式可选择自定义替换，如'#','*'等,，如不指定脱敏符号，使用个随机字符替换 * 脱敏位置可自定义，不指定位置，会对数据进行全脱敏 * 例如身份证信息： ...

base64加密解密的hive udf函数: 本文将详细探讨如何在Hive中自定义User Defined Function（UDF）来实现Base64的加密和解密。首先，我们需要了解Base64的基本原理。Base64是一种将任意二进制数据转化为ASCII字符集的方法，它通过将每3个字节转换为...

hive-udf(两地址间距离计算+省市区位置解析(Java代码)): 为了满足特定的业务需求，Hive提供了用户定义函数（UDF）的功能，允许用户自定义处理数据的逻辑。在这个“hive-udf”项目中，我们主要探讨的是如何利用Java编写UDF来实现两个地址间的距离计算以及省市区位置的解析。...

hive的UDF的编写.docx: 在hive中，UDF是用户自定义的函数，可以根据业务需求编写自定义的函数来实现特定的数据处理逻辑。UDF可以将复杂的数据处理逻辑封装在一个函数中，以便于在hive查询中使用。使用Java编写hive的UDF 使用Java编写...

Global site tag (gtag.js) - Google Analytics