hive topN 实现 - chunguo.wang - ITeye博客

`

黎明lm

浏览: 311873 次
性别:
来自: 北京

最近访客更多访客>>

baby孔祥超

jiazhigang

slipper-jay

woshiliukun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

dandongsoft：你写的不好用啊
solr 同义词搜索
黎明lm： meifangzi 写道楼主真厉害都分析源码了用了很久. ...
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker
meifangzi：楼主真厉害都分析源码了
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker
zhdkn：顶一个，最近也在学习设计模式，发现一个问题，如果老是看别人的博 ...
Java观察者模式（Observer）详解及应用
lvwenwen：木南飘香写道
高并发网站的架构

hive topN 实现

博客分类：

hive

阅读更多

hive的topN实现

hive的topN实现方式有很多种，网上有一些通过自己写的udf实现,下面将我写的sql模式贴一下

核心原理通过group by 分组求和之后用order by 进行全局排序之后在limit n 取你想要的 topn 排名

上sql:

select obj , cnt from ( select obj ,count(obj) as cnt from action_raw where verb ='SHARE_ALBUM' and log_date >= '2012-01-01' and log_date <= '2012-12-12' group by obj ) tmp order by cnt desc limit 10

0
顶

7
踩

分享到：

RHadoop 安装教程 | Hive与表操作有关的语句

2012-12-14 06:51
浏览 2044
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hive 分组取TopN: hive不直接支持分组取TopN的操作，需要自定义udf函数打成jar包添加到hive运行环境中

Hive练习项目统计各种TOP的实战(数据和代码): 本项目以"统计各种TOP的实战"为主题，通过Hive进行数据探索和分析，涵盖了各种排名统计，例如Top N销售产品、Top N高收入用户等。这些统计可以帮助企业了解业务关键指标，做出明智的决策。首先，我们需要理解Hive...

Hive中分组取topN_row_number-rank和dense_rank的使用.pdf: 在这篇文档中，我们将详细学习在Hive中如何进行分组取topN，以及如何使用row_number()、rank()和dense_rank()三种窗口函数进行数据排序和排名。首先，Hive中的数据表创建和数据插入操作是数据查询和分析的前提。...

Hive用户指南 Hive user guide 中文版: - **TOP K**：`SELECT TOP K column FROM table`用于返回某列的前K个最大值。 - **REGEX Column Specification**：使用正则表达式来指定列的模式。 #### 三、Hive Select **3.1 分组查询** - `SELECT ... GROUP ...

hive-笔记--hive常用用法: hive-笔记--hive常用用法：内部表和外部表，导入数据，导出数据，将数据从hive的表中导出到本地磁盘目录中，HIVE的存储文件格式，修改表的分区，多重插入...json函数，分组topn，网页URL数据解析函数：parse_url_tuple

hive窗口函数: 通过窗口函数，可以轻松地找出每个分区内的Top N记录，例如找出每个月销售额最高的前几名产品。 ##### 4. 累计计算窗口函数非常适合进行累计计算，如累计收入、累计点击次数等，这些计算通常涉及到按时间顺序的...

hive常用函数参数手册: - **Top-N**: 查找每个分组内的前N项。 - **累计计算**: 计算累积和、累积平均等。 - **层次查询**: 处理层级结构的数据,如树形结构。 #### 四、示例 ##### 创建表 ```sql CREATE TABLE employee ( id STRING, ...

Hive常用函数: - **Top N**：通过 ORDER BY 和 LIMIT 子句可以获取每个组的前 N 条数据。 - **累计计算**：窗口函数可以实现数据的累计计算，如累计销售额。 - **层次查询**：配合递归查询或自连接可以处理层次数据，如组织结构...

大数据技术之-08-Hive学习-05-Hive实战之谷粒影音+常见错误及解决方案.docx: 本实战案例旨在通过对谷粒影音视频网站的大数据分析，提炼出一系列关键指标，包括但不限于视频观看数量、类别热度等Top N指标，并深入挖掘各类别视频的具体表现情况，如视频热度、流量等。具体任务如下： 1. **统计...

HIVE实战项目-Youtube视频网站常规指各项标: 在本Hive实战项目中，主要目标是统计和分析YouTube视频网站的一系列常规指标，包括TopN排名，如观看次数、类别热度、视频类别关联、用户上传量等。这些指标对于理解用户行为、优化用户体验和制定商业策略至关重要。 ...

hive常用函数参考手册.docx: - **应用场景**：分区排序、动态Group By、Top N、累计计算、层次查询等。 2. **分析函数**： - `RANK`, `ROW_NUMBER`, `DENSE_RANK`, `CUME_DIST`, `PERCENT_RANK`, `NTILE`等。 - **用途**：在数据集中分配连续...

2024年最新，Hive SQL经典面试题，大数据SQL经典面试题: 除了以上两个问题外，面试者还可能遇到其他常见的Hive SQL问题，如Top N问题、Explode问题以及行转列问题。 - **Top N问题**: 主要是找出某个表中的前N项记录。 - **Explode问题**: 处理多值字段，将其展开成多行...

SQL 汉字转拼音首字母: THEN (SELECT TOP 1 PY FROM ( SELECT 'A' AS PY, N'' AS word UNION ALL SELECT 'B', N'' UNION ALL -- ... (此处省略其他拼音首字母的映射) SELECT 'Z', N'' ) T WHERE word >= @word COLLATE Chinese_PRC_...

pyspark知识1: 例如，`(rank>=rank_topn and rank<=rank_topn+2) or (rank>=rank_topn-2 and rank<rank_topn)`这一表达式确保了只保留了满足条件的行，即排名在当前行的前2位或后2位的行。转向Hadoop相关部分，我们讨论了Hive表...

大数据框架整理.pdf: MapReduce适用于多种场景，如排序、统计TopN、join操作和寻找共同好友问题。 Hive是一个基于Hadoop的数据仓库工具，它将SQL转化为MapReduce任务执行。Hive 2.0及以上版本开始支持Spark处理。Hive使用MySQL等关系型...

hmyjsmst.docx: 在MapReduce中实现TopN问题通常涉及到两个关键步骤：首先，确保Map阶段的输出能够根据关键字进行排序；其次，在Reduce阶段通过一定的策略选出前N个最大的值。排序可以通过自定义Partitioner和Comparator来实现，而...

车流量监控项目1: - 计算常高速通过的TopN卡口。 - 进行跟车分析。 6. 架构设计： - J2EE平台作为前端，用户可指定任务类型和参数。 - 平台调用Spark-submit脚本执行任务，根据用户筛选条件进行计算。 - 结果存入MySQL、Redis等...

Spark Core 笔记02: 统计最受欢迎老师topN1. 方法一：普通方法，不设置分组/分区2. 方法二：设置分组和过滤器3. 方法三：自定义分区器3.根据IP计算归属地 1.WordCount Spark Core入门案例。 //创建spark配置，设置应用程序名字 //val ...

Spark性能测试报告-Spark SQL在不同存储格式下的性能对比: - **返回较多列值的Topn排序**：涉及多个字段的Top N排序任务。 - **低维值列ydb_sex的单列Group By Count(*)**：单一字段的分组计数。 - **低维值列ydb_province的单列Group By Max(ydb_age)**：单一字段的分组最大...

SQL常见大厂面试题 - 7大类型: 4. **分组内Top前几**：这涉及到聚合函数（如`COUNT()`, `SUM()`, `AVG()`等）与`LIMIT`或`RANK()`、`DENSE_RANK()`、`ROW_NUMBER()`等窗口函数的结合使用，以找出每个组内排名前几的记录。 5. **窗口函数**：窗口...

Global site tag (gtag.js) - Google Analytics