最新文章列表

hive udf 唯一bigInt 生成器

一、背景         mysql数据由于自增的bigint 主键,会插入更快,因为能持续往文件末尾插入嘛,因此需要这个东西。         然后呢,服务端有专门生产id的接口,但是数据中心批量插入,肯定会拉暴他们,不让我们一起玩,只能自己玩。   二、方案         1.redis 获取数据段,程序内部自增。         问题:要用外部redis麻烦,而且要持久化 ...
greemranqq 评论(0) 有3194人浏览 2018-03-08 17:31

创建UDF的简单方法介绍

原文地址   UDF(User Defined Function), MaxCompute(原ODPS) 里的东西, 之前经常听到开发同学讲, 自己一直没有去接触, 最近因为项目需要, 调研了一下UDF, 本文简单地介绍了一下如何新建工程, 添加代码,打包,上传资源包和注册方法, 对初次接触的小白同学,可能会有所帮助.1. 在 IntelliJ 中安装MaxCompute的插件, 如果已经安装 ...
UDF 
a957844565 评论(0) 有29人浏览 2017-08-16 14:04

基于自定义日志打印的UDAF调试

看到最近有一些用户,代码在本地IDE环境里调试成功了后,到线上调试出现结果不符合预期的情况。因为IDE里无法模拟多个worker进行分布式调试UDAF的场景,所以有一些BUG可能需要到线上用一些简单的测试数据进行调试。这里用最简单的手工打印日志的方法,针对代码调试中最麻烦的UDAF的例子做一次调试。通过问题的定位和解决,希望能给大家在面对UDF的线上调试的时候提供一些思路。 初始化 首先,线上 ...
iyulang 评论(0) 有15人浏览 2017-05-03 11:43

MaxCompute(原ODPS)使用总结-初级篇

引言         本文面向的读者是要使用ODPS sql进行一些数据查询和挖掘,或者要使用ODPS udf自定义函数的用户。本文试图达到三个目标:(1)针对应用管理者来讲,看完本文后可以比较清晰的去管理自己的应用;(2)针对ODPS sql使用者来讲,本文在sql语句的内建函数使用以及sql语句加速方面,给出了一些例子;(3)针对ODPS UDF使用者和开发者来讲,本文提供了一个UDF函数创建的 ...
iyulang 评论(0) 有15人浏览 2017-03-29 22:33

MaxCompute Studio提升UDF和MapReduce开发体验

UDF全称User Defined Function,即用户自定义函数。MaxCompute提供了很多内建函数来满足用户的计算需求,同时用户还可以创建自定义函数来满足定制的计算需求。用户能扩展的UDF有三种:UDF(User Defined Scalar Function),UDTF(User Defined Table Valued Function)和UDAF(User Defined Aggr ...
iyulang 评论(0) 有21人浏览 2017-03-29 22:30

UDF 底层实现

用户自定义函数 继承UDF,重写evaluate方法即可  以 length 为例 例子如下 import org.apache.hadoop.hive.ql.exec.UDF; public class MD5Hash extends UDF { public String evaluate(String in) { // 请在此实现 } } hive 怎么调用呢 hive 把一切操作单元 看 ...
zhaomengsen 评论(0) 有733人浏览 2017-01-04 00:03

hive udf 使用示例

 在使用过程中,在执行sql的过程中需要将partition按照一定的规则动态分区: import org.apache.hadoop.hive.ql.exec.UDF; public class SharedRouter extends UDF { private static SolrCloudPainRouter cloudPainRouter; public String ...
mozhenghua 评论(0) 有1978人浏览 2016-11-30 19:35

hive自定义udf实现md5功能

Hive自定义UDF实现md5算法 Hive发展至今,自身已经非常成熟了,但是为了灵活性,还是提供了各种各样的 插件的方式,只有你想不到的,没有做不到的,主流的开源框架都有类似的机制,包括Hadoop,Solr,Hbase,ElasticSearch,这也是面向抽象编程的好处,非常容易扩展。 最近在使用hive1.2.0的版本,因为要给有一列的数据生成md5签名,便于查重数据使用,看了下hive ...
qindongliang1922 评论(0) 有5041人浏览 2016-05-25 11:54

Apache Pig的UDF返回值问题

今天写了关于Pig的EvalFunc UDF函数,结果一执行,发现返回值,总是bag类型,我就纳闷了,我明明指定了返回是String类型,怎么会变成Bag类型呢?经查找,发现拷贝的问题,由于先前写的UDF函数,返回值是多个,而现在的这个是一个,所以导致,我在pig脚本里面,进行强转string类型出错,发现问题后,设置返回类型为DataType.CHARARRAY问题得以解决。 案例(一),输 ...
qindongliang1922 评论(0) 有1519人浏览 2015-11-11 16:34

spark sql自定义函数udf

def visitview(vtimes : Iterable[String]): Long ={ var times = 0L if(vtimes.size == 0){ }else{ val lb = scala.collection.mutable.ListBuffer.empty[String] for(vtime <- ...
sxyqhyt 评论(0) 有7733人浏览 2015-04-23 15:29

Hive语句执行优化-简化UDF执行过程

    Hive会将执行的SQL语句翻译成对应MapReduce任务,当SQL语句比较简单时,性能还是可能处于可接受的范围。但是如果涉及到非常复杂的业务逻辑, ...
brandNewUser 评论(0) 有2139人浏览 2015-01-30 21:28

Hive中的用户自定义函数UDF

  Hive中的自定义函数允许用户扩展HiveQL,是一个非常强大的功能。Hive中具有多种类型的用户自定义函数。show functions命令可以列举出当前Hive会话中的所加载进来的函数,包括内置的以及用户加载的函数。   函数都有自身的使用文档,使用describe function命令就可以展示对应函数基本介绍。   标准函数UDF 用户自定义函数指的是一行数据中的一列 ...
brandNewUser 评论(0) 有2782人浏览 2014-08-17 16:03

hive中UDF、UDAF和UDTF使用

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。   一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式: Java Integer ...
xiaofengxbf 评论(0) 有2228人浏览 2014-08-10 22:47

hive编写udf处理非utf-8数据

      hive默认都是utf-8编码处理数据的,如果原始数据不是utf-8,例如是gbk,我们怎么处理这种数据呢?   方式很简单,我们写udf的时候,继承GenericUDF类就行了。例如:       public class CharsetConvertor extends GenericUDF { private transient StringObjectIns ...
jimmee 评论(4) 有6955人浏览 2014-01-23 12:40

Hive的UDF和UDAF编程实例

1.UDF UDF类必须继承org.apache.hadoop.hive.ql.exec.UDF类,并且实现evaluate方法 1.建立工程 2.导入hive和hadoop的jar包 3.编写代码          public class lower_Or_UpperCase extends UDF { //实现至少一个evaluate方法 public Text ...
sunasheng 评论(0) 有1425人浏览 2013-09-17 10:57

Hive中分组取前N个值的实现-row_number()

背景 假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩。 这个就是典型在分组取Top N的需求。   解决思路 对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科,成绩做order by排序,然后对排序后的成绩,执行自定义函数row_number(),必须带一个或者多个列参数,如ROW_NUMBER(col1, ....),它的作用是按指定的列 ...
dacoolbaby 评论(0) 有20325人浏览 2013-05-27 14:57

mysql到redis的复制

系统开发中时常会需要缓存来提升并发读的能力,这时可以通过mysql的UDF和hiredis来进行同步 前题:安装了mysql5.5和client 1、安装mysql2redis git clone https://github.com/jackeylu/mysql2redis.git cd mysql2redis ./install.sh 2、安装hiredis git clo ...
hanxuebo 评论(1) 有4776人浏览 2013-04-24 19:03

hive 自定义udf

Hive的预定义UDF函数列表如下 abs(x) - returns the absolute value of x acos(x) - returns the arc cosine of x if -1<=x<=1 or NULL otherwise ascii(str) - returns the numeric value of the first character of st ...
黎明lm 评论(0) 有1379人浏览 2012-10-24 10:42

HIVE如何使用自定义函数

  HIVE提供了很多函数,但这些函数只能满足一般的需求,针对复杂的业务分析,需要自己开发适合业务需求的函数。如何开发HIVE的UDF/UDAF/UDTF,请参看 ...
hugh.wangp 评论(0) 有2721人浏览 2012-06-28 19:44

memcached functions for mysql, UDF(兼容libmemcached 1.0.x)

memcached functions for mysql官网发布的1.1版本是09年的,只兼容libmemcached0.34版本。也不知道这东西还有没有人在更新。   于是看了下libmemcached 1.0.x的api和源码,修改了下memcached functions for mysql的源码,于是就可以用了。。。     ChangeLog     1.2 Tuesda ...
asyty 评论(5) 有3570人浏览 2012-04-25 09:14

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics