`

udaf self define type

 
阅读更多

  class HllcdistinctByte extends Aggregator[Row, HLLCounter, Array[Byte]] {
    // A zero value for this aggregation. Should satisfy the property that any b + zero = b
    def zero: HLLCounter = new HLLCounter(14)
    // Combine two values to produce a new value. For performance, the function may modify `buffer`
    // and return it instead of constructing a new object
    def reduce(buffer: HLLCounter, employee: Row): HLLCounter = {
      buffer.add(employee.getString(2))
      buffer
    }
    // Merge two intermediate values
    def merge(b1: HLLCounter, b2: HLLCounter): HLLCounter = {
      b1.merge(b2)
      b1
    }
    // Transform the output of the reduction
    def finish(reduction: HLLCounter): Array[Byte] =  {
      val out1 = ByteBuffer.allocate(reduction.maxLength())
      reduction.writeRegisters(out1)
      out1.array()
    }
    // Specifies the Encoder for the intermediate value type
    def bufferEncoder: Encoder[HLLCounter] = Encoders.javaSerialization
    // Specifies the Encoder for the final output value type
    def outputEncoder: Encoder[Array[Byte]] = Encoders.BINARY
  }


      val uvbytes =  new  HllcdistinctByte().toColumn
      val uvb =  wordsDataFrame.where("event_id = '2001'").groupByKey(_.getString(0)).agg(uvbytes)
      uvb.show(5)
分享到:
评论

相关推荐

    hive udaf 实现按位取与或

    在Hive中,你需要将这个UDAF类编译成JAR包,然后通过`ADD JAR`命令将其添加到Hive的类路径中,接着可以使用`DEFINE`语句注册UDAF。之后,你就可以在查询中像使用内置聚合函数一样使用这个UDAF了。 六、实际应用 ...

    数据架构师第015节UDAF实战:实现udaf第16节数据说明和重要操作演示.mp4

    数据架构师第015节UDAF实战:实现udaf第16节数据说明和重要操作演示.mp4

    Hive UDAF示例

    A custom UDAF to group oncatenates all arguments from different rows into a single string.

    【SparkSql篇02】SparkSql之自定义UDF和UDAF函数1

    override def bufferSchema: StructType = StructType(StructField("sum", DoubleType) :: StructField("count", LongType) :: Nil) override def dataType: DataType = DoubleType override def deterministic...

    doris-udaf 源码包

    【标题】"Doris-UDAF 源码解析" 在大数据处理领域,Apache Doris 是一款高效、易用的在线分析处理(OLAP)系统,适用于实时数据分析和报表查询。UDAF(User-Defined Aggregation Function)是 Doris 提供的一种用户...

    hive:个人配置单元 UDAF

    个人 Hive UDAF 有一堆 Hive UDAF(用户定义的聚合函数)不在标准 Hive 分布中,因为它们可能会导致大型数据集的 OOM。 要使用它们,您需要加载 jar 文件,然后为每个要使用的函数创建一个临时函数: ADD JAR target...

    young1lin#notes#使用 UDAF 计算两个数的线性回归系数1

    title: "使用 [通用] UDAF 计算两个数的线性回归系数"例如select s,regression(x,y) group by s;参考Hive U

    基于Spark SQL的UDF与UDAF基础文档+源码+优秀项目+全部资料.zip

    基于Spark SQL的UDF与UDAF基础文档+源码+优秀项目+全部资料.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的...

    mustached-hive-udfs:一些有用的 Hive UDF 和 UDAF

    这是一些有用的 Hive UDF 和 UDAF 的集合。 提供的功能 UDAF Mode ( de.frosner.hive.udaf.Mode ) - 计算组列的统计模式 从源头构建 git clone https://github.com/FRosner/mustached-hive-udfs.git cd mustached...

    自定义hive函数

    Hive 的灵活性之一在于支持用户自定义函数(UDF),包括用户定义的单行函数(UDF)、用户定义的多行函数(UDAF)和用户定义的表函数(UDTF)。这些自定义函数允许开发者扩展Hive的功能,以满足特定的业务需求。 ...

    Spark 1.X 大数据平台

    如果链接失效,请与我联系!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

    Hive自定义函数

    创建一个UDAF `self_count` 的过程类似UDF,但需要实现的步骤更多,包括初始化、累积计算、合并中间结果以及最终返回结果等步骤。 ### 总结 Hive的自定义函数机制为用户提供了极大的灵活性,无论是简单的数据转换...

    【官网汉化中文】Hive函数运算符使用方法大全

    hive所有函数 包括UDTs、UDAF、UDTF函数和运算符等,中文汉化,翻译并测试

    藏经阁-2019大数据技术公开课第三季—MaxCompute 最新特性介绍.pdf

    MaxCompute最新特性涵盖了Region、SHOW CREATE TABLE、EXTRACT、JSON_TUPLE、UDTF/UDAF、Resolve、SQL-UDTF/UDAF、ExecutionContext、Resource、VIEW、SUBQUERY、ANY等多个方面,旨在提高用户体验和开发效率。

    Hive编程指南

    4. **UDF/UDAF/UDTF**:Hive支持用户自定义函数(UDF)、聚合函数(UDAF)以及表生成函数(UDTF),可以扩展Hive的功能。 ### 性能优化 1. **小文件合并**:Hive可以通过调整参数来减少小文件的数量,从而提高查询性能。...

    blink_udx_3x-master.zip

    而Flink的灵活性也体现在其允许用户自定义各种处理函数,包括UDF(用户定义函数)、UDAF(用户定义聚合函数)以及UDTF(用户定义表函数),统称为UDX。本文将围绕"blink_udx_3x-master"项目,深入探讨如何在Flink中...

    大数据面试题目.docx

    6. UDAF 是一种聚集函数,接受多个输入数据行,并产生一个输出数据行。 7. Linux 默认栈空间是 8MB。 8. 使用 HDFS SHELL 命令快速杀死一个 job,可以使用 hadoop job -kill job-id 命令。 9. Spark Job 默认的...

    藏经阁-2019大数据技术公开课第三季—MaxCompute最新特性介绍.pdf

    MaxCompute 的 UDTF(User Defined Table Function)和 UDAF(User Defined Aggregate Function)是两种自定义函数,允许用户定义自己的数据处理逻辑。UDTF 和 UDAF 可以帮助用户实现复杂的数据处理任务。 ...

    hive常用函数

    在本文中,我们将深入探讨Hive的常用函数,包括时间函数、类型转换函数、用户自定义函数(UDF)以及用户自定义聚合函数(UDAF)等。 关系运算符是Hive中的基础函数,用于比较两个值是否相等。例如,A=B用于判断A...

Global site tag (gtag.js) - Google Analytics