`
yugouai
  • 浏览: 498425 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

HIVE中的排序细谈

 
阅读更多

 order by

order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)
只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。

set hive.mapred.mode=nonstrict; (default value / 默认值)
set hive.mapred.mode=strict;

  order by 和数据库中的Order by 功能一致,按照某一项 & 几项 排序输出。

 

 与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下 必须指定 limit 否则执行会报错。

 

 

hive> select * from test order by id;     

 

FAILED: Error in semantic analysis: 1:28 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error encountered near token 'id'

 

 原因: 在order by 状态下所有数据会到一台服务器进行reduce操作也即只有一个reduce,如果在数据量大的情况下会出现无法输出结果的情况,如果进行 limit n ,那只有  n * map number 条记录而已。只有一个reduce也可以处理过来。

sort by

sort by不是全局排序,其在数据进入reducer前完成排序.

因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1, 则sort by只保证每个reducer的输出有序,不保证全局有序。

sort by 不受 hive.mapred.mode 是否为strict ,nostrict 的影响

sort by 的数据只能保证在同一reduce中的数据可以按指定字段排序。

使用sort by 你可以指定执行的reduce 个数 (set mapred.reduce.tasks=<number>),对输出的数据再执行归并排序,即可以得到全部结果。

注意:可以用limit子句大大减少数据量。使用limit n后,传输到reduce端(单机)的数据记录数就减少到n* (map个数)。否则由于数据过大可能出不了结果。

distribute by

 按照指定的字段对数据进行划分到不同的输出reduce  / 文件中。

 insert overwrite local directory '/home/hadoop/out' select * from test order by name distribute by length(name);  

 此方法会根据name的长度划分到不同的reduce中,最终输出到不同的文件中。 

 length 是内建函数,也可以指定其他的函数或这使用自定义函数。

 

Cluster By

 cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。 

 但是排序只能是倒序排序,不能指定排序规则为asc 或者desc。

 

 

分享到:
评论
1 楼 developerinit 2015-02-12  
总结的非常好,每次都来看

相关推荐

    Apache Hive 中文手册_hive_

    Apache Hive 是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供...

    部分普通sql查询在hive中的实现方式

    ### 部分普通SQL查询在Hive中的实现方式 Hive是一款基于Hadoop的数据仓库工具,能够对存储在Hadoop文件系统中的数据集进行数据提取、转换、加载(ETL),这是一种可以简化MapReduce编程的工具。由于Hive的设计初衷...

    大数据之Hive官方文档简要翻译(中文文档)

    在Hive中,元存储的配置有两种方式: 1. **本地/嵌入式元存储数据库**:通常用于开发和测试环境,使用Derby作为默认的元存储数据库。元数据存储在与Hive服务在同一台机器上,这简化了设置,但不适合生产环境,因为...

    hive所有jar文件

    Hive-HBase连接器允许用户在Hive中创建外部表,将这些表映射到HBase的数据表,从而可以在Hive的SQL环境中直接对HBase数据进行查询和分析。在实际操作中,用户需要将这些JAR文件放入Hive的lib目录下,这是Hive加载其...

    Hive中SQL详解

    Hive中SQL详解 Hive是一个基于Hadoop构建的数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据。 Hive SQL支持绝大多数的语句,如DDL、DML、聚合函数、连接查询、条件查询等。 ...

    hive客户端安装_hive客户端安装_hive_

    Hive的元数据通常存储在MySQL或 Derby 数据库中。这里我们以Derby为例: 1. 创建一个目录用于存放Derby数据库,例如:/var/lib/hive/metastore。 2. 修改Hive配置文件($HIVE_HOME/conf/hive-site.xml),添加以下...

    hive修改过的jdbc包,用于显示hive中的中文内容

    如果系统语言不是utf-8的话,通过jdbc调用hive的数据时,中文会是乱码,通过修改jdbc包加上utf8标识后就好了,这个是改好了的包

    Hive使用手册Hive使用手册

    数据可以使用LOAD DATA命令从本地文件系统或HDFS加载到Hive表中,例如:`LOAD DATA LOCAL INPATH '/path/to/file' INTO TABLE my_table;` 8. **表连接、子查询和UNION ALL** - 表连接允许合并来自两个或更多表的...

    HIVE安装及详解

    "HIVE安装及详解" HIVE是一种基于Hadoop的数据仓库工具,主要用于处理和分析大规模数据。下面是关于HIVE的安装及详解。 HIVE基本概念 HIVE是什么?HIVE是一种数据仓库工具,主要用于处理和分析大规模数据。它将...

    利用Hive进行复杂用户行为大数据分析及优化案例

    04_HIve中的case when、cast及unix_timestamp的使用 05_复杂日志分析-需求分析 06_复杂日志分析-需求字段讲解及过滤 07_复杂日志分析-字段提取及临时表的创建 08_复杂日志分析-指标结果的分析实现 09_Hive中数据文件...

    如何在python中写hive脚本

    在Python中编写Hive脚本主要是为了方便地与Hadoop HIVE数据仓库进行交互,这样可以在数据分析和机器学习流程中无缝地集成大数据处理步骤。以下将详细介绍如何在Python环境中执行Hive查询和管理Hive脚本。 1. **直接...

    电影票房数据分析-hive代码

    在Hive中,创建表需要指定表名、字段名、字段类型等信息。在该资源中,我们创建了多个表,包括moviecleaned、top10_boxoffice、boxoffice_national_day、day_max_boxoffice等,每个表的字段类型和数量都不同。 知识...

    cli正常显示中文的hive-0.10.0

    描述中提到的“desc table1”命令是Hive中用于获取表详细信息的标准命令,包括列名、列类型以及列的注释。在未改造的Hive版本中,由于编码问题,中文注释可能无法正确解析和显示。而在改造后的版本中,这个命令应该...

    Hive3.1.2编译源码

    使用hive3.1.2和spark3.0.0配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是spark2.3.0,而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。 所以,如果想要使用高...

    Hive_JDBC.zip_hive java_hive jdbc_hive jdbc pom_java hive_maven连

    在大数据处理领域,Apache Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)查询存储在Hadoop集群中的大型数据集。Hive JDBC(Java Database Connectivity)是Hive提供的一种...

    hive官方翻译文档

    例如,可以使用`SELECT`语句从Hive表中提取数据,`JOIN`操作用于合并多个表的数据,`GROUP BY`和`HAVING`用于数据分组和过滤。 3. **元数据**:Hive MetaStore存储了关于Hive表的所有元数据,如表名、列名、分区...

    hive2.0+开启审计日志.pdf

    在Hive 2.0及更高版本中,启用Metastore审计日志是确保数据安全性与合规性的重要步骤。审计日志记录了用户对Hive Metastore的所有操作,包括元数据的创建、修改和查询等,这对于追踪系统活动、故障排查以及满足法规...

    hive与hbase整合经验谈

    5. **在Hive中创建外部表**:使用Hive的CREATE EXTERNAL TABLE语句,指定表的列名、数据类型,以及HBase的表名、列族和列。例如: ```sql CREATE EXTERNAL TABLE hbase_table (key STRING, column1 STRING, column...

    Ambari下Hive3.0升级到Hive4.0

    这通常涉及到运行特定的迁移脚本,以确保 Hive 3.0 的元数据能在 Hive 4.0 中正确解析。 6. **服务升级**:在 Ambari 中,按照界面提示进行服务的升级操作。这包括停止 Hive 3.0 服务,升级相关组件,然后启动 Hive...

Global site tag (gtag.js) - Google Analytics