`
k_lb
  • 浏览: 856229 次
  • 性别: Icon_minigender_1
  • 来自: 郑州
社区版块
存档分类
最新评论
  • kitleer: 据我所知,国内有款ETL调度监控工具TaskCTL,支持ket ...
    kettle调度

HIVE 自定义函数 UDF

 
阅读更多

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。

一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:

a)文件格式:Text FileSequence File

b)内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text

c)用户提供的 map/reduce脚本:不管什么语言,利用 stdin/stdout 传输数据

d)用户自定义函数: Substr, Trim, 1 – 1

e)用户自定义聚合函数: Sum, Average…… n – 1

2、定义:UDF(User-Defined-Function),用户自定义函数对数据进行处理。

二、用法

1UDF函数可以直接应用于select语句,对查询结构做格式化处理后,再输出内容。

2、编写UDF函数的时候需要注意一下几点:

a)自定义UDF需要继承org.apache.hadoop.hive.ql.UDF

b)需要实现evaluate函数。

cevaluate函数支持重载。


实现 IP 转十进制


package org.iptostring;

import org.apache.hadoop.hive.ql.exec.UDF;  

public class IpToString extends UDF {
    public String evaluate(long longIp){
        StringBuffer sb = new StringBuffer("");
        sb.append(String.valueOf((longIp >>> 24)));
        sb.append(".");
        sb.append(String.valueOf((longIp & 0x00FFFFFF) >>> 16));
        sb.append(".");
        sb.append(String.valueOf((longIp & 0x0000FFFF) >>>  8 ));
        sb.append(".");
        sb.append(String.valueOf((longIp & 0x000000FF)));
        return sb.toString();
    }
}


package org.iptolong;

import java.util.regex.Pattern;
import org.apache.hadoop.hive.ql.exec.UDF; 

public class IpToLong extends UDF {
 
  public long evaluate(String strIp){
   Pattern pattern = Pattern.compile("((\\d{1,2}|1\\d\\d|2[0-4]\\d|25[0-5])\\.(\\d{1,2}|1\\d\\d|2[0-4]\\d|25[0-5])\\.(\\d{1,2}|1\\d\\d|2[0-4]\\d|25[0-5])\\.(\\d{1,2}|1\\d\\d|2[0-4]\\d|25[0-5]))"); 
  if (pattern.matcher( strIp ).matches()){   
   long[] ip = new long[4];
   int position1 = strIp.indexOf(".");
   int position2 = strIp.indexOf(".", position1 + 1);
   int position3 = strIp.indexOf(".", position2 + 1);
   ip[0] = Long.parseLong(strIp.substring(0, position1));
   ip[1] = Long.parseLong(strIp.substring(position1+1, position2));
   ip[2] = Long.parseLong(strIp.substring(position2+1, position3));
   ip[3] = Long.parseLong(strIp.substring(position3+1));
   return (ip[0] << 24) + (ip[1] << 16) + (ip[2] << 8 ) + ip[3];
  }else{
   return 0;
  }
  }
}



分享到:
评论

相关推荐

    Spark不能使用hive自定义函数.doc

    ### Spark与Hive自定义函数兼容性问题解析 在大数据处理领域,Apache Spark 和 Apache Hive 都是非常重要的工具。Spark 是一种快速通用的大规模数据处理系统,而Hive 则是一种数据仓库工具,主要用于对存储在 ...

    hive自定义UDF编写函数.docx

    本文主要讲解了 Hive 中自定义 UDF 函数的编写方法,包括创建 UDF 类、实现自定义函数逻辑、编译和打包 UDF jar 包、上传至 Hive 服务器并注册自定义函数。 一、创建 UDF 类 为了实现自定义 UDF 函数,需要创建一...

    HIVE自定义UDF函数

    而自定义用户定义函数(UDF)是 Hive 中的一个重要功能,允许用户根据自己的需求编写自定义函数,以便在 Hive 查询中使用。 如何在 Hive 中创建自定义 UDF 函数: 步骤一:编写 Java 程序 首先,您需要编写一个 ...

    hive的自定义函数

    ### Hive的自定义函数(UDF)详解 #### 一、引言 在大数据处理领域,Apache Hive 是一个广泛使用的数据仓库工具,它提供了一种SQL-like查询语言——HiveQL,使用户能够轻松地对存储在Hadoop文件系统中的大规模数据...

    hive自定义函数demo

    本示例“hive自定义函数demo”将探讨如何在Hive中开发和使用自定义函数(UDF),这对于扩展Hive的功能和适应特定业务需求至关重要。下面,我们将深入学习与Hive自定义函数相关的知识。 1. **什么是Hive UDF?** ...

    Hive的Udf函数进行数据脱敏

    Hive 的 User Defined Functions (UDFs) 是用户自定义函数,允许开发者扩展Hive的功能,以满足特定的数据处理需求。在这个场景中,我们关注的是如何使用UDF进行数据脱敏,特别是对敏感信息进行处理,例如手机号码、...

    hive自定义udf函数实战

    udf函数,用户自定义函数,可以直接在sql语句中计算的函数 优点: 允许实现模块化的程序设计、方便修改代码、增加函数 UDF的执行速度很快,通过缓存计划在语句重复执行时降低代码的编译开销,比存储方法的执行效率...

    hive数仓、hive SQL 、 hive自定义函数 、hive参数深入浅出

    3. Hive自定义函数(UDF): - UDF定义:用户可以编写Java代码实现特定功能的函数,然后在Hive SQL中调用。 - UDAF(用户定义的聚合函数):用于处理一组输入值并返回单个值,如自定义平均值、众数等。 - UDTF...

    hive UDF需要jar包

    在Hive中,UDF(User Defined Functions)是用户自定义函数,允许开发人员扩展Hive的内置功能,以满足特定的数据处理需求。Hive UDF的实现通常涉及到编写Java代码,并将其打包成JAR(Java Archive)文件,然后在Hive...

    hive-udf:hive自定义函数

    hive-udfhive自定义函数主要实现hive3种自定义函数1,udf函数,主要用于处理一对一数据处理2,udtf函数,主要用于处理一对多数据处理2,udaf函数,主要用与处理多对一数据聚合处理

    hive 创建自定义函数 和 hive加载说明

    然而,有时Hive的内置函数并不能满足所有的业务需求,这时我们就需要创建自定义函数(UDF,User Defined Function)。这篇博文主要探讨了如何在Hive中创建自定义函数以及如何加载它们,这对于深化Hive的使用和解决...

    base64加密解密的hive udf函数

    本文将详细探讨如何在Hive中自定义User Defined Function(UDF)来实现Base64的加密和解密。 首先,我们需要了解Base64的基本原理。Base64是一种将任意二进制数据转化为ASCII字符集的方法,它通过将每3个字节转换为...

    hive-udf(两地址间距离计算+省市区位置解析(Java代码))

    为了满足特定的业务需求,Hive提供了用户定义函数(UDF)的功能,允许用户自定义处理数据的逻辑。在这个“hive-udf”项目中,我们主要探讨的是如何利用Java编写UDF来实现两个地址间的距离计算以及省市区位置的解析。...

    Hive自定义函数

    【Hive自定义函数】是Hive为了满足用户在处理大数据时遇到的特定业务需求而提供的功能。在Hive的内置函数无法满足这些需求时,用户可以通过编写自定义函数(UDF)进行扩展。UDF全称为User Defined Function,允许...

    * hive脱敏UDF函数 *对一些敏感信息进行脱敏处理,替换位置可自定义,脱敏符号可随机也可自定义

    * 脱敏UDF函数 * 功能:对一些敏感信息进行脱敏处理,替换方式可选择自定义替换,如'#','*'等,,如不指定脱敏符号,使用个随机字符替换 * 脱敏位置可自定义,不指定位置,会对数据进行全脱敏 * 例如身份证信息: ...

    自定义hive函数

    Hive 的灵活性之一在于支持用户自定义函数(UDF),包括用户定义的单行函数(UDF)、用户定义的多行函数(UDAF)和用户定义的表函数(UDTF)。这些自定义函数允许开发者扩展Hive的功能,以满足特定的业务需求。 ...

    一些有用的自定义配置单元udf函数、特殊数组、json、数学、字符串函数。___下载.zip

    这些自定义函数可以是单行或者多行的,它们能够处理Hive内置函数无法满足的业务需求。例如,可能需要一个特殊的日期转换函数,或者一个能处理特定格式字符串的函数。文件`hive-third-functions-master`很可能包含了...

    HelloUDF.zip

    Hive 自定义函数UDF开发手把手教程—— 创建临时函数和永久函数代码,具体创建过程参考https://blog.csdn.net/helloxiaozhe/article/details/102498567

    hive的UDF的编写.docx

    在hive中,我们需要创建一个自定义函数,该函数将使用我们编写的UDF。我们可以使用CREATE FUNCTION语句来创建自定义函数。 步骤8:测试 最后,我们可以使用SELECT语句来测试我们的自定义函数是否生效。 总结 ...

    各种情况手机号清洗udf函数(hive impala)

    3. **Hive UDF**:在Hive中,我们可以创建自定义函数(UDF)来处理特定的数据清洗任务。首先,你需要编写一个Java类,该类继承自`org.apache.hadoop.hive.ql.udf.generic.GenericUDF`,并实现`evaluate`方法,该方法...

Global site tag (gtag.js) - Google Analytics