hive Sort By/Order By/Cluster By/Distribute By - chunguo.wang - ITeye博客

`

黎明lm

浏览: 312043 次
性别:
来自: 北京

最近访客更多访客>>

baby孔祥超

jiazhigang

slipper-jay

woshiliukun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

dandongsoft：你写的不好用啊
solr 同义词搜索
黎明lm： meifangzi 写道楼主真厉害都分析源码了用了很久. ...
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker
meifangzi：楼主真厉害都分析源码了
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker
zhdkn：顶一个，最近也在学习设计模式，发现一个问题，如果老是看别人的博 ...
Java观察者模式（Observer）详解及应用
lvwenwen：木南飘香写道
高并发网站的架构

hive Sort By/Order By/Cluster By/Distribute By

博客分类：

hive

阅读更多

hive Sort By/Order By/Cluster By/Distribute By
摘自：http://blog.csdn.net/yfkiss/article/details/8021562

Order by
[plain] view plaincopy
colOrder: ( ASC | DESC )
orderBy: ORDER BY colName colOrder? (',' colName colOrder?)*
query: SELECT expression (',' expression)* FROM src orderBy
order by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）
只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。
在hive.mapred.mode=strict模式下，强制必须添加limit限制，这么做的目的是减少reducer数据规模，例如，当限制limit 100时，如果map的个数为50，则reducer的输入规模为100*50

Sort by
[plain] view plaincopy
colOrder: ( ASC | DESC )
sortBy: SORT BY colName colOrder? (',' colName colOrder?)*
query: SELECT expression (',' expression)* FROM src sort By
sort by不是全局排序，其在数据进入reducer前完成排序。
因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。

Distribute by
根据distribute by指定的内容将数据分到同一个reducer

Cluster by
除了具有Distribute by的功能外，还会对该字段进行排序。因此，常常认为cluster by = distribute by + sort by

reference:
languagemanual-sortby
Hive排序

1
顶

2
踩

分享到：

hive 自定义udf | apache felix的简单使用

2012-10-22 16:51
浏览 1126
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive查询优化：Sort By、Order By、Cluster By、Distribute深入解析: Hive是一种数据仓库软件，用于对存储在分布式存储系统（如Hadoop）中的大数据进行查询和管理。它由Facebook开发，现在是Apache软件基金会的一个顶级项目。 ### Hive的主要特点包括： 1. **基于Hadoop**：Hive建立...

Hive拉拉扯扯的order by,sort by,distribute by, cluster by: Hive支持两个层面的排序：全局排序部分排序全局排序用 order by col [ASC | DESC] 实现，效果和传统的RDMS一样，...鉴于此，Hive有一些自己特定，比如order by的实现需要把所有数据汇集到一个reducer中处理，如果数

[大数据面试题]分享自己在网络上收集的大数据相关的面试题以及自己的答案总结.目前包含Hadoop,Hive,Spark,Flink,Hbase,Kafka,Zookeeper框架的面试题知识.zip: 发一条内推消息，社招、实习生欢迎投递字节跳动校招内推码: 3UWFMRS投递链接: ...蜂巢hive 内部表和外部表的区别hive中 sort by / order by / cluster by / distribute by 的区别hive的metastore的

大数据面试 Hive 八股文: 7. **Hive的cluster by、sort by、distribute by、order by的区别** - **order by**：全局排序，所有数据经过Reducer后按指定列排序。 - **sort by**：局部排序，每个Mapper输出按指定列排序，但不同Mapper之间不...

BigData-Interview:: 发一条内推消息，社招、实习生欢迎投递字节跳动校招内推码: 3UWFMRS 投递链接: 社招：大数据面试题汇总与答案分享 Spark ...hive中 sort by / order by / cluster by / distribute by 的区别 hive的me

Hive教程.pdf: - `SELECT * FROM table_name DISTRIBUTE BY column_name SORT BY column_name [ASC | DESC];` - **DistributeBy和SortBy**: - 在MapReduce作业中控制数据的分布和排序方式。 - **ClusterBy**: - `SELECT * FROM ...

hive 简明教程: Hive还提供了排序操作，支持`ORDER BY`、`SORT BY`、`DISTRIBUTE BY`和`CLUSTER BY`等排序方式，以适应不同的业务场景。 Hive内置函数包括用于处理数据的函数，例如`explode`、`collect_set`、`collect_list`等。...

《企业级Hive实战课程》大纲: - 排序操作（ORDER BY、SORT BY、DISTRIBUTE BY、CLUSTER BY）； - 复合数据类型（ARRAY、MAP、STRUCT）的使用技巧。 5. **Hive高级特性** - 索引创建与管理； - HiveServer2/beeline的使用； - Java操作Hive...

【63课时完整版】大数据实践HIVE详解及实战: 19.Hive中order by、sort by、distribute by与cluster by的使用 20.Hive中分析函数与窗口函数 21.Hive中UDF的介绍 22.Hive中使用自定义UDF实现日期格式转换 23. HiveServer2的介绍及三种连接方式 24.Hive元数据、...

大数据组件 Hive 面试题 + Hive 高频面试题: `Cluster By`则兼备了`Distribute By`和`Sort By`的功能，但仅支持升序排序。窗口函数是数据分析中的利器，如`RANK()`、`DENSE_RANK()`和`ROW_NUMBER()`。它们在`OVER()`定义的窗口内工作，可以实现动态排序。`LAG...

HiveSQL优化手册: - **Cluster By**：当`Distribute By`和`Sort By`字段相同时，可以使用`Cluster By`代替，简化写法的同时实现相同的效果。 2. **合理设置Map/Reduce Task数量** - **减少Map数量**：通过小文件合并或调整JVM重用...

大数据学习：Hive数据查询语言.pdf: [CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list] ] [LIMIT number] ``` 其中，WITH CommonTableExpression 是可选的，表示公用表达式；select_expr 表示查询语句的表达式；LIMIT number 是可...

写好Hive_程序的五个提示: 比如，在执行排序操作时，如果没有正确设置`DISTRIBUTE BY`和`SORT BY`，可能会导致结果不是预期中的全局排序。 **解决方案**： 1. **全排序问题**：当需要对查询结果进行全局排序时，通常有两种方法：使用单个...

Apache Hive面试题: - **特点**：特殊形式的`DISTRIBUTE BY` + `SORT BY`，同时具备数据分布和排序功能。 - **限制**：仅支持降序排序，不支持ASC或DESC指定。 #### 四、Hive大表Join小表的优化方法 1. **小表前置**： - **方法**...

大数据虚拟机 Linux VM复习题库:题库包括了60题选择题、10题填空题、10题判断题、2题简答题，助你度过期末复习: - `cluster by`等同于`sort by`+`distribute by`，支持正序排序。 9. **Hive与传统数据库的差异**： Hive基于Hadoop，数据存储在HDFS，适用于读多写少的场景，查询语言HQL类似SQL但处理速度较慢。 10. **Hive...

精品课程推荐大数据与云计算教程课件优质大数据课程 17.Hive查询（共32页）.pptx: 此外，通过与DISTRIBUTE BY或CLUSTER BY结合使用，Hive可以对数据进行更细粒度的控制，实现数据分布和预处理，这对于优化数据聚集操作具有重要意义。在Hive的连接操作中，内连接、左外连接、右外连接、全外连接...

Hive中查询操作: - `CLUSTER BY` 和 `DISTRIBUTE BY` 主要用于分布式计算环境，控制数据如何分布到不同的分区或节点。 - `SORT BY` 用于本地排序，只在单个节点内部有效。 - `LIMIT` 用于限制返回的行数。二、基本查询 1. **全表和...

项目笔记1: 【Hive中的sort by, order by, cluster by, distribute by】 - `sort by`：在每个分区内部对数据进行排序，不保证全局排序。 - `order by`：全局排序，需要全表扫描，效率较低。 - `cluster by`：类似于`sort by`，...

Global site tag (gtag.js) - Google Analytics