`
superlxw1234
  • 浏览: 552306 次
  • 性别: Icon_minigender_1
  • 来自: 西安
博客专栏
Bd1c0a0c-379a-31a8-a3b1-e6401e2f1523
Hive入门
浏览量:44544
社区版块
存档分类
最新评论

Hive分析窗口函数(一) SUM,AVG,MIN,MAX

    博客分类:
  • hive
阅读更多

Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。

今天先看几个基础的,SUM、AVG、MIN、MAX。

用于实现分组内所有和连续累积的统计。

Hive版本为 apache-hive-0.13.1

 

数据准备:

 

 

    CREATE EXTERNAL TABLE lxw1234 (
    cookieid string,
    createtime string, --day
    pv INT
    ) ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    stored as textfile location '/tmp/lxw11/';
     
    DESC lxw1234;
    cookieid STRING
    createtime STRING
    pv INT
     
    hive> select * from lxw1234;
    OK
    cookie1 2015-04-10 1
    cookie1 2015-04-11 5
    cookie1 2015-04-12 7
    cookie1 2015-04-13 3
    cookie1 2015-04-14 2
    cookie1 2015-04-15 4
    cookie1 2015-04-16 4

 

 

SUM:

注意,结果和ORDER BY相关,默认为升序

 

 

SELECT cookieid,
createtime,
pv,
SUM(pv) OVER(PARTITION BY cookieid ORDER BY createtime) AS pv1, -- 默认为从起点到当前行
SUM(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS pv2, --从起点到当前行,结果同pv1 
SUM(pv) OVER(PARTITION BY cookieid) AS pv3,																																--分组内所有行
SUM(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CURRENT ROW) AS pv4,   --当前行+往前3行
SUM(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND 1 FOLLOWING) AS pv5,    --当前行+往前3行+往后1行
SUM(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) AS pv6   ---当前行+往后所有行  
FROM lxw1234;

cookieid createtime     pv      pv1     pv2     pv3     pv4     pv5      pv6 
-----------------------------------------------------------------------------
cookie1  2015-04-10      1       1       1       26      1       6       26
cookie1  2015-04-11      5       6       6       26      6       13      25
cookie1  2015-04-12      7       13      13      26      13      16      20
cookie1  2015-04-13      3       16      16      26      16      18      13
cookie1  2015-04-14      2       18      18      26      17      21      10
cookie1  2015-04-15      4       22      22      26      16      20      8
cookie1  2015-04-16      4       26      26      26      13      13      4

pv1: 分组内从起点到当前行的pv累积,如,11号的pv1=10号的pv+11号的pv,   12号=10号+11号+12号
pv2: 同pv1
pv3: 分组内(cookie1)所有的pv累加
pv4: 分组内当前行+往前3行,如,11号=10号+11号, 12号=10号+11号+12号, 13号=10号+11号+12号+13号, 14号=11号+12号+13号+14号
pv5: 分组内当前行+往前3行+往后1行,如,14号=11号+12号+13号+14号+15号=5+7+3+2+4=21
pv6: 分组内当前行+往后所有行,如,13号=13号+14号+15号+16号=3+2+4+4=13,14号=14号+15号+16号=2+4+4=10

 

如果不指定ROWS BETWEEN,默认为从起点到当前行;
如果不指定ORDER BY,则将分组内所有值累加;
关键是理解ROWS BETWEEN (WINDOW子句)含义:
   PRECEDING:往前
   FOLLOWING:往后
   CURRENT ROW:当前行
   UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, UNBOUNDED FOLLOWING:表示到后面的终点。

 

--其他AVG,MIN,MAX,和SUM用法一样。

 

SELECT cookieid,
createtime,
pv,
AVG(pv) OVER(PARTITION BY cookieid ORDER BY createtime) AS pv1, -- 默认为从起点到当前行
AVG(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS pv2, --从起点到当前行,结果同pv1 
AVG(pv) OVER(PARTITION BY cookieid) AS pv3,																																--分组内所有行
AVG(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CURRENT ROW) AS pv4,   --当前行+往前3行
AVG(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND 1 FOLLOWING) AS pv5,    --当前行+往前3行+往后1行
AVG(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) AS pv6   ---当前行+往后所有行  
FROM lxw1234; 
cookieid createtime     pv      pv1     pv2     pv3     pv4     pv5      pv6 
-----------------------------------------------------------------------------
cookie1 2015-04-10      1       1.0     1.0     3.7142857142857144      1.0     3.0     3.7142857142857144
cookie1 2015-04-11      5       3.0     3.0     3.7142857142857144      3.0     4.333333333333333       4.166666666666667
cookie1 2015-04-12      7       4.333333333333333       4.333333333333333       3.7142857142857144      4.333333333333333       4.0     4.0
cookie1 2015-04-13      3       4.0     4.0     3.7142857142857144      4.0     3.6     3.25
cookie1 2015-04-14      2       3.6     3.6     3.7142857142857144      4.25    4.2     3.3333333333333335
cookie1 2015-04-15      4       3.6666666666666665      3.6666666666666665      3.7142857142857144      4.0     4.0     4.0
cookie1 2015-04-16      4       3.7142857142857144      3.7142857142857144      3.7142857142857144      3.25    3.25    4.0

 

 

 

 

 

SELECT cookieid,
createtime,
pv,
MIN(pv) OVER(PARTITION BY cookieid ORDER BY createtime) AS pv1, -- 默认为从起点到当前行
MIN(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS pv2, --从起点到当前行,结果同pv1 
MIN(pv) OVER(PARTITION BY cookieid) AS pv3,																																--分组内所有行
MIN(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CURRENT ROW) AS pv4,   --当前行+往前3行
MIN(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND 1 FOLLOWING) AS pv5,    --当前行+往前3行+往后1行
MIN(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) AS pv6   ---当前行+往后所有行  
FROM lxw1234;

cookieid createtime     pv      pv1     pv2     pv3     pv4     pv5      pv6 
-----------------------------------------------------------------------------
cookie1 2015-04-10      1       1       1       1       1       1       1
cookie1 2015-04-11      5       1       1       1       1       1       2
cookie1 2015-04-12      7       1       1       1       1       1       2
cookie1 2015-04-13      3       1       1       1       1       1       2
cookie1 2015-04-14      2       1       1       1       2       2       2
cookie1 2015-04-15      4       1       1       1       2       2       4
cookie1 2015-04-16      4       1       1       1       2       2       4

 

 

 

 

 

SELECT cookieid,
createtime,
pv,
MAX(pv) OVER(PARTITION BY cookieid ORDER BY createtime) AS pv1, -- 默认为从起点到当前行
MAX(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS pv2, --从起点到当前行,结果同pv1 
MAX(pv) OVER(PARTITION BY cookieid) AS pv3,																																--分组内所有行
MAX(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CURRENT ROW) AS pv4,   --当前行+往前3行
MAX(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND 1 FOLLOWING) AS pv5,    --当前行+往前3行+往后1行
MAX(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) AS pv6   ---当前行+往后所有行  
FROM lxw1234;

cookieid createtime     pv      pv1     pv2     pv3     pv4     pv5      pv6 
-----------------------------------------------------------------------------
cookie1 2015-04-10      1       1       1       7       1       5       7
cookie1 2015-04-11      5       5       5       7       5       7       7
cookie1 2015-04-12      7       7       7       7       7       7       7
cookie1 2015-04-13      3       7       7       7       7       7       4
cookie1 2015-04-14      2       7       7       7       7       7       4
cookie1 2015-04-15      4       7       7       7       7       7       4
cookie1 2015-04-16      4       7       7       7       4       4       4

 

 

转自: http://lxw1234.com/archives/tag/hive-window-functions

更多的分析函数,如:NTILE,ROW_NUMBER,RANK,DENSE_RANK
CUME_DIST,PERCENT_RANK
LAG,LEAD,FIRST_VALUE,LAST_VALUE
GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

http://lxw1234.com/archives/tag/hive-window-functions查看。

0
2
分享到:
评论

相关推荐

    hive窗口函数.docx

    1. 聚合类:avg()、sum()、max()、min() 等 2. 排名类:row_number()、rank()、dense_rank() 等 3. 其他类:lag()、lead()、ntile() 等 窗口函数应用场景 窗口函数常用于解决以下问题: * 数据排名和排序 * 数据...

    hive窗口函数

    本文主要介绍Hive中的窗口函数,特别是SUM、AVG、MIN、MAX等基础函数的应用场景及其具体用法。 #### 二、窗口函数应用场景 ##### 1. 分区排序 窗口函数可以基于分区内的记录进行排序,从而实现对特定分区内数据的...

    hive开窗函数详细介绍

    本文将详细探讨Hive的开窗函数,包括ROW_NUMBER、RANK、DENSE_RANK以及分析窗口函数SUM、AVG、MIN和MAX的用法。 一、窗口函数 1. ROW_NUMBER() ROW_NUMBER()函数为每个分区内的记录分配一个唯一的连续编号,根据...

    Hive窗口函数,定义、demo

    1. **聚合函数**:如`SUM()`, `AVG()`, `COUNT()`, `MIN()`, `MAX()`,它们在窗口内执行聚合操作。 2. **排名函数**:如`ROW_NUMBER()`, `RANK()`, `DENSE_RANK()`,它们为窗口内的每一行分配一个唯一的排名。 3. **...

    Hive SQL大厂必考常用窗口函数及面试题.pdf

    - **聚合函数+窗口函数**:如sum() over()、max()/min() over()、avg() over(),结合了聚合操作和窗口功能。 二、窗口函数基本用法 1. **基本语法**:通常包括OVER()子句,其中可能包含PARTITION BY、ORDER BY等...

    Hive函数大全.pdf

    聚合函数对一组值进行操作并返回单个值,如`COUNT()`(计数)、`SUM()`(求和)、`AVG()`(平均值)、`MAX()`(最大值)、`MIN()`(最小值)等。 七、表生成函数 `UNION ALL`、`INTERSECT`、`EXCEPT`等操作可以合并...

    hive函数大全 函数参考

    ### Hive函数大全详解 Hive是一种数据仓库工具,它提供了SQL-like语言(HiveQL)来处理存储在Hadoop文件系统中的大型数据集。...以上是Hive中常见的函数列表及简介,这些函数可以帮助用户高效地处理和分析大数据。

    HIVE函数详解大全

    1. 聚合函数:如`COUNT`, `SUM`, `AVG`, `MIN`, `MAX`,用于统计和计算数据集的汇总信息。 2. 转换函数:`TO_DATE`, `DATE_FORMAT`, `CAST`等,用于日期和类型转换。 3. 字符串函数:`CONCAT`, `SUBSTRING`, `TRIM`,...

    Hive函数及语法说明

    Hive 的语法还提供了多种函数,例如 SUM、AVG、MAX、MIN 等,用于对数据进行聚合和分析。 ORACLE SQL 对应的 HSQL 语法支持 Hive 还提供了 Oracle SQL 对应的 HSQL 语法支持,允许用户使用 Oracle SQL 语句在 Hive...

    hive函数大全.doc

    除此之外,还有除法(/)、模运算(%)、位运算(如BITWISE AND、BITWISE OR)等其他数学运算,以及各种聚合函数(如COUNT、SUM、AVG、MIN、MAX)和窗口函数(如LEAD、LAG、RANK、ROW_NUMBER等)。Hive还支持字符串...

    hive函数大全(中文版)

    一、关系运算: 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: 4. 小于等于比较: 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5 8. 非空判断: IS NOT NULL 6 9. LIKE比较: LIKE 6 10. ...

    hive常用函数参数手册

    在大数据处理领域,Hive作为一个广泛使用的数据仓库工具,提供了丰富的内置函数来支持数据的处理与分析。本文档旨在介绍Hive中的常用函数及其用法,帮助用户更好地理解和应用这些函数。需要注意的是,由于Hive的不同版本...

    电影票房数据分析-hive代码

    Hive提供了多种数据分析函数,包括SUM、MAX、MIN、AVG等。在该资源中,我们使用MAX函数来查询2020年中当日综合总票房最多的10天。 知识点7:Hive数据排序 Hive提供了多种数据排序方式,包括ASC、DESC等。在该资源...

    hive 函数大全

    - **聚合函数**:COUNT, SUM, AVG, MIN, MAX等。 3. **分桶函数**:BUCKET函数可以将数据分桶,有助于提高查询效率和并行度。 4. **分组函数**:GROUP BY用于对数据进行分组,常与聚合函数一起使用。 5. **窗口...

    hive语法和常用函数.doc

    Hive语法和常用函数 Hive是一个基于Hadoop分布式...Hive常用的函数包括SUM、AVG、MAX、MIN、COUNT等聚合函数,CASE WHEN THEN语句,LIKE、RLIKE、REGEXP等字符串函数,DATE、TIMESTAMP、INTERVAL等日期和时间函数。

    1_hive函数大全.pdf

    包含个数统计count、总和统计sum、平均值统计avg、最小值统计min、最大值统计max、非空集合总体变量var_pop和样本变量var_samp函数、总体标准偏离stddev_pop和样本标准偏离stddev_samp函数以及中位数percentile函数...

    Hive常用函数

    - **聚合函数**:这类函数处理多条记录,如 `sum()` 求和、`count()` 求数据量、`avg()` 求平均值、`distinct` 求不同值数、`min` 求最小值、`max` 求最大值等。 - **集合函数**:用于处理复杂类型的构建和访问,...

    hive函数大全.7z

    - **聚合函数**:如COUNT, SUM, AVG, MIN, MAX等,用于统计计算。 - **分组函数**:如GROUP BY, DISTRIBUTE BY, SORT BY等,用于数据分组和排序。 - **窗口函数**:如ROW_NUMBER, RANK, LAG, LEAD等,提供在数据...

Global site tag (gtag.js) - Google Analytics