hive 创建自定义函数和 hive加载说明

chengjianxiaoxue

浏览: 1319013 次
性别:
来自: 北京

最近访客更多访客>>

liu_shui8

happy2012

nddht

yhtppp

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hive

0 hive udf作用都限于对字段进行简单处理,

udf定义好后被应用一般有三种方式：

a) hiverc文件中
b) hql文件中写加载
c) hive/scrpits/ 根据文件名从小到大顺序来优先加载文件夹下的文件

据说这是工作中经常用到的但是这是我工作中基本没用到过的。

1 模拟oracl函数 instr(xiangmu, '已注册（') 的效果

2 java代码：

package hiveudf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;


public class instrfun  extends UDF{ // 

	 public IntWritable evaluate(Text source, Text part) {
	   String sourceStr = source.toString();
	   String partStr = part.toString();
	   int indexPart = sourceStr.indexOf(partStr); // java出现次数以0为基础
	   indexPart++;
	   
	   return new IntWritable(indexPart);
	 }
}

3 将这个javabean打包为hive-udf.jar ，上次到Linux服务器上

或者可以放在 hive/lib下这样看着更正式点，这样的话第4步add jar就需要修改成 hive/lib的路径

4 hive表注册和使用此函数：在hive命令行下，执行如下语句

add jar /home/new_load_data/lib/hive-udf.jar; 
create temporary function instrfun as 'hiveudf.instrfun';

5 hive环境中使用写法：

select instrfun(xiangmu,'已注册（') from f_trademark_tmp_hdfs_ext_20150717 limit 4;

参考链接：

http://blog.csdn.net/zythy/article/details/18818559

对应工程jar请看附件

加载说明：

如果你是在修改了 .hiverc后重新启动了hive客户端 hive>内来执行自定义函数的话，那么能够执行

因为此时hive客户端重新读到了 hiverc的文件

如果你是想通过脚本来执行，比如你的自定义函数写在 xx.sql 通过

hive -t -S -h 192.168.20.200 -f /user/aaa.sql 方式，那么此时走的是hive server端，

需要重启hive后才能正确执行。

工作中一般都是通过方式 b)来加载hive自定义函数，方便灵活，更不需要重启hive。

hiveudf.rar (5.5 MB)
下载次数: 2

分享到：

hiverc简介 | char 码表大全

2015-08-15 16:32
浏览 4318
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论