`

hive topN 实现

    博客分类:
  • hive
阅读更多
hive的topN实现

hive的topN实现方式有很多种,网上有一些通过自己写的udf实现,下面将我写的sql模式贴一下

核心原理通过group by 分组求和 之后 用order by 进行全局排序 之后在limit n 取你想要的 topn 排名

上sql:
select obj , cnt from ( select obj ,count(obj) as cnt from action_raw where verb ='SHARE_ALBUM' and log_date >= '2012-01-01' and log_date <= '2012-12-12' group by obj ) tmp order by cnt desc limit 10

0
7
分享到:
评论

相关推荐

    hive 分组取TopN

    hive不直接支持分组取TopN的操作,需要自定义udf函数打成jar包添加到hive运行环境中

    Hive中分组取topN_row_number-rank和dense_rank的使用.pdf

    在这篇文档中,我们将详细学习在Hive中如何进行分组取topN,以及如何使用row_number()、rank()和dense_rank()三种窗口函数进行数据排序和排名。 首先,Hive中的数据表创建和数据插入操作是数据查询和分析的前提。...

    Hive练习项目统计各种TOP的实战(数据和代码)

    本项目以"统计各种TOP的实战"为主题,通过Hive进行数据探索和分析,涵盖了各种排名统计,例如Top N销售产品、Top N高收入用户等。这些统计可以帮助企业了解业务关键指标,做出明智的决策。 首先,我们需要理解Hive...

    hive-笔记--hive常用用法

    hive-笔记--hive常用用法: 内部表和外部表,导入数据,导出数据,将数据从hive的表中导出到本地磁盘目录中,HIVE的存储文件格式,修改表的分区,多重插入...json函数,分组topn,网页URL数据解析函数:parse_url_tuple

    hive窗口函数

    通过窗口函数,可以轻松地找出每个分区内的Top N记录,例如找出每个月销售额最高的前几名产品。 ##### 4. 累计计算 窗口函数非常适合进行累计计算,如累计收入、累计点击次数等,这些计算通常涉及到按时间顺序的...

    hive常用函数参数手册

    - **Top-N**: 查找每个分组内的前N项。 - **累计计算**: 计算累积和、累积平均等。 - **层次查询**: 处理层级结构的数据,如树形结构。 #### 四、示例 ##### 创建表 ```sql CREATE TABLE employee ( id STRING, ...

    Hive常用函数

    - **Top N**:通过 ORDER BY 和 LIMIT 子句可以获取每个组的前 N 条数据。 - **累计计算**:窗口函数可以实现数据的累计计算,如累计销售额。 - **层次查询**:配合递归查询或自连接可以处理层次数据,如组织结构...

    大数据技术之-08-Hive学习-05-Hive实战之谷粒影音+常见错误及解决方案.docx

    本实战案例旨在通过对谷粒影音视频网站的大数据分析,提炼出一系列关键指标,包括但不限于视频观看数量、类别热度等Top N指标,并深入挖掘各类别视频的具体表现情况,如视频热度、流量等。具体任务如下: 1. **统计...

    HIVE实战项目-Youtube视频网站常规指各项标

    在本Hive实战项目中,主要目标是统计和分析YouTube视频网站的一系列常规指标,包括TopN排名,如观看次数、类别热度、视频类别关联、用户上传量等。这些指标对于理解用户行为、优化用户体验和制定商业策略至关重要。 ...

    hive常用函数参考手册.docx

    - **应用场景**:分区排序、动态Group By、Top N、累计计算、层次查询等。 2. **分析函数**: - `RANK`, `ROW_NUMBER`, `DENSE_RANK`, `CUME_DIST`, `PERCENT_RANK`, `NTILE`等。 - **用途**:在数据集中分配连续...

    2024年最新,Hive SQL经典面试题,大数据SQL经典面试题

    除了以上两个问题外,面试者还可能遇到其他常见的Hive SQL问题,如Top N问题、Explode问题以及行转列问题。 - **Top N问题**: 主要是找出某个表中的前N项记录。 - **Explode问题**: 处理多值字段,将其展开成多行...

    SQL 汉字转拼音首字母

    THEN (SELECT TOP 1 PY FROM ( SELECT 'A' AS PY, N'' AS word UNION ALL SELECT 'B', N'' UNION ALL -- ... (此处省略其他拼音首字母的映射) SELECT 'Z', N'' ) T WHERE word &gt;= @word COLLATE Chinese_PRC_...

    pyspark知识1

    例如,`(rank&gt;=rank_topn and rank&lt;=rank_topn+2) or (rank&gt;=rank_topn-2 and rank&lt;rank_topn)`这一表达式确保了只保留了满足条件的行,即排名在当前行的前2位或后2位的行。 转向Hadoop相关部分,我们讨论了Hive表...

    大数据框架整理.pdf

    MapReduce适用于多种场景,如排序、统计TopN、join操作和寻找共同好友问题。 Hive是一个基于Hadoop的数据仓库工具,它将SQL转化为MapReduce任务执行。Hive 2.0及以上版本开始支持Spark处理。Hive使用MySQL等关系型...

    hmyjsmst.docx

    在MapReduce中实现TopN问题通常涉及到两个关键步骤:首先,确保Map阶段的输出能够根据关键字进行排序;其次,在Reduce阶段通过一定的策略选出前N个最大的值。排序可以通过自定义Partitioner和Comparator来实现,而...

    车流量监控项目1

    - 计算常高速通过的TopN卡口。 - 进行跟车分析。 6. 架构设计: - J2EE平台作为前端,用户可指定任务类型和参数。 - 平台调用Spark-submit脚本执行任务,根据用户筛选条件进行计算。 - 结果存入MySQL、Redis等...

    Spark Core 笔记02

    统计最受欢迎老师topN1. 方法一:普通方法,不设置分组/分区2. 方法二:设置分组和过滤器3. 方法三:自定义分区器3.根据IP计算归属地 1.WordCount Spark Core入门案例。 //创建spark配置,设置应用程序名字 //val ...

    Spark性能测试报告-Spark SQL在不同存储格式下的性能对比

    - **返回较多列值的Topn排序**:涉及多个字段的Top N排序任务。 - **低维值列ydb_sex的单列Group By Count(*)**:单一字段的分组计数。 - **低维值列ydb_province的单列Group By Max(ydb_age)**:单一字段的分组最大...

    SQL常见大厂面试题 - 7大类型

    4. **分组内Top前几**:这涉及到聚合函数(如`COUNT()`, `SUM()`, `AVG()`等)与`LIMIT`或`RANK()`、`DENSE_RANK()`、`ROW_NUMBER()`等窗口函数的结合使用,以找出每个组内排名前几的记录。 5. **窗口函数**:窗口...

Global site tag (gtag.js) - Google Analytics