`

Hive UDF 调用读取 程序包外的文件

 
阅读更多

 

如何编写UDF我就不赘述了,网上资料大把。贴一个参考链接直接略过。

 
主要讨论两个点,是开发过程中遇到的难点。
1. UDF读取外部资源。
2. 外部资源存放位置。
 
为什么会遇到这两个问题?
 
开发UDF的目的就是为了扩展数据库一些没有的功能。常用功能例如count,sum这些,但是偶尔会遇到一些复杂的计算数据库没有直接实现的函数,解决方法一是直接读取数据然后用程序去二次处理但是时间比较慢,解决方法二就是根据需求开发对应的UDF,在查询语句中直接运算出结果。
 
我遇到这个问题是在过根据用户ip进行地域统计的时候。由于ip不能直接与ip库进行对应,所以需要将ip进行转换,可以选择直接转换成bigint然后与ip库中的起止ipnum进行比较得到省id。
 
这种方法的UDF开发比较简单,只需要读取String ip然后返回long int就可以了。剩下的交由数据库处理。但是实际使用中,这样的方式非常缓慢。主要原因是ip库与联合查询的日志从数量级上就差别很大,数据倾斜非常厉害,往往一天的数据可能跑两天都不能结束!!这样的效率,无论如何都是没法接受的。
 
转变
 
思考了一段时间后,决定重写UDF。先前的方法主要考虑不想重整ip库的格式,所以思路被限制。目前的第二种方法是将ip库重构之后使用的。
 
重构ip库+折半查找=新的UDF。
 
可是新的UDF面临另外一个问题就是,重构的ip库需要作为外部资源在UDF内部进行调用。这一点是之前没遇到过的。【吐槽】baidu之后发现貌似没有发现可行的方法,果然还是google好用。。【吐槽完】
 
首先外部资源要在运行之前添加,使用命令add jar [jar file]或者add file [file]在hive中进行临时注册。
 
UDF中内部调用的文件地址直接用本地文件地址表示。例如: String filepath = "/home/dev/test/test.txt";上传至hive之后,外部文件地址只需改成String filepath = "./test.txt";即可。

 

文献转自:http://blog.sina.com.cn/s/blog_b88e09dd01014grp.html

分享到:
评论

相关推荐

    hive UDF需要jar包

    Hive UDF的实现通常涉及到编写Java代码,并将其打包成JAR(Java Archive)文件,然后在Hive会话中注册这个JAR,以便可以在SQL查询中调用自定义函数。以下是对标题和描述中涉及知识点的详细解释: 1. **Hive UDF**:...

    关于【python】【UDF】【HIVE】读取外部资源文件和第三方库的问题解决方案

    因为项目需要使用到python udf 工hql调用 ...2.UDF中内部调用的文件地址直接用本地文件地址表示。例如: String filepath = “/home/dev/test/test.txt”;上传至hive之后,外部文件地址只需改成String fil

    HIve UDF 说明书

    Hive UDF(User-Defined Functions,用户定义函数)是Hive中强大的功能,允许用户在Hive查询中使用自定义的函数来进行更复杂的操作。Hive是一个建立在Hadoop基础上的高级数据仓库工具,它允许用户使用类似SQL的语言...

    Hive UDF开发

    完成UDF的编写之后,需要将其打包成JAR文件,并上传到Hive的`auxlib`目录下。如果该目录不存在,则需要手动创建。例如,假设你已经将编译好的JAR文件放置在了`/path/to/your/jar/file.jar`的位置,那么可以按照以下...

    大数据 java hive udf函数的示例代码(手机号码脱敏)

    "大数据 Java Hive UDF 函数示例代码(手机号码脱敏)" 大数据 Java Hive UDF 函数示例代码(手机号码脱敏)是指使用 Java 语言开发的用户定义函数(User Defined Function,UDF),该函数可以在 Hive 中使用,实现...

    dataiku hive udf

    在大数据处理领域,Hive是一个非常重要的组件,它提供了一个基于Hadoop的数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。Hive UDF(User Defined Functions)则是Hive中扩展其功能的...

    hive的udf功能

    大数据的hive资源的详细代码设计以及分享,望博友相互交流

    Hive的Udf函数进行数据脱敏

    ADD JAR /path/to/your/hiveUDF.jar; CREATE TEMPORARY FUNCTION mask AS 'com.yourpackage.MaskingUDF'; ``` 4. **使用UDF**: 注册完成后,你可以在查询中直接使用`mask`函数。假设我们有一个包含手机号码的表`...

    hive自定义UDF编写函数.docx

    为了将 UDF 函数编译成 jar 包,我们需要在项目中添加一个 MANIFEST.MF 文件,定义主类和关联的 jar 包。然后,我们可以将项目编译成 jar 包,指定生成的 jar 包名和存储位置。 四、上传至 Hive 服务器并注册自定义...

    base64加密解密的hive udf函数

    2. 编写一个名为`Base64UDF`的类,继承`org.apache.hadoop.hive.ql.udf.generic.GenericUDF`。这个类将包含加密和解密方法。 ```java import org.apache.hadoop.hive.ql.exec.UDFArgumentException; import org....

    hive-udf:NexR Hive UDF

    NexR Hive UDF 关于 NexR Hive UDF是Hive用户定义功能的集合。 执照 快速开始 $ git clone https://github.com/nexr/hive-udf.git $ cd hive-udf $ mvn clean package or $ ant -Dhive.install.dir=../hive/build/...

    Java_facebook Hive udf.zip

    "Java_facebook Hive udf.zip"这个压缩包文件很可能包含了一组专门为Facebook定制的Hive UDF,用Java语言编写。这些UDF可能是为了处理Facebook平台上的海量数据,例如用户行为、社交网络分析、广告效果评估等场景。...

    Spark不能使用hive自定义函数.doc

    当开发者尝试在 Spark 应用程序中调用 Hive 的 UDF 时,可能会遇到如下错误或异常行为: - Spark 应用程序未能识别 Hive UDF。 - 执行包含 Hive UDF 的 Spark SQL 查询时出现运行时错误。 - Spark 的 DataFrame API ...

    hive-udf(两地址间距离计算+省市区位置解析(Java代码))

    在Hive中,我们可以将这些Java UDF打包成JAR文件,然后在Hive查询语句中使用`ADD JAR`命令引入这个JAR,并调用其中的函数。例如,你可以有一个名为`calculateDistance`的函数,用于计算两个地址的距离,以及一个`...

    各种情况手机号清洗udf函数(hive impala)

    5. **详细文档**:提供的详细文档应该包含UDF的使用方法,包括如何安装JAR或SO文件,如何在SQL查询中调用UDF,以及如何处理各种异常情况。此外,还应包含示例代码和预期输出,以便用户理解和应用。 6. **手机号码...

    javasql笔试题-spark-hive-udf:展示如何在ApacheSpark中使用HiveUDF的示例项目

    java sql笔试题示例 Hive UDF 项目 介绍 该项目只是一个示例,包含多个 (UDF),用于 Apache Spark。...它旨在演示如何在 ...Hive UDF ...Hive UDF?...Hive UDF ...UDF ...UDF,它必须: ...调用 Hive UDF。 您不能将其作为来自 D

    java6string源码-jet-hive-udf:有用的hiveudf函数,包含日期计算,ip,useragent解析函数,加密解密等

    java6 string源码 [TOC] jet-hive-udf 简介 jet-hive-udf 包含了一些有用的hive ...B=jet-hive-udf-${version}.jar]文件.其中A是包括所有依赖包的jar, B是最小编译jar文件 你也可以直接在发布页下载打

    HiveUDF:Apache Hive UDF(用户定义函数)

    Hive UDF UDF 聚合 UDF Finds MIN, MAX and SUM from array of Struct Objects based on a field. 排序 UDF Returns sorted array of Struct objects for an array of Struct Objects based on a field. 日期 ...

    HDFS文件读写操作

    2. **检查文件存在性**:NameNode会检查客户端请求读取的文件是否存在。如果存在,NameNode会返回该文件保存在哪些DataNode上。 3. **建立连接**:客户端根据从NameNode处获得的信息,直接与每个DataNode建立连接,...

    hiveUDF-1.0-SNAPSHOT.jar

    hiveUDF-1.0-SNAPSHOT.jar

Global site tag (gtag.js) - Google Analytics