`

hive常见优化问题汇总

    博客分类:
  • hive
阅读更多

一、总体思想

http://blog.csdn.net/u011750989/article/details/12024301

1、让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标

再好的硬件没有充分利用起来,都是白扯淡。

比如:

(1)  启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做

 通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,与此紧密相连的是模型设计,好的模型特别重要.

(2) 合理设置reduce个数

reduce个数过少没有真正发挥hadoop并行计算的威力,但reduce个数过多,会造成大量小文件问题,数据量、资源情况只有自己最清楚,找到个折衷点,

(3) 使用hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,提高作业的并发

 

2、让服务器尽量少做事情,走最优的路径,以资源消耗最少为目标

 比如:

(1) 注意join的使用

若其中有一个表很小使用map join,否则使用普通的reduce join,注意hive会将join前面的表数据装载内存,所以较小的一个表在较大的表之前,减少内存资源的消耗

(2)注意小文件的问题

在hive里有两种比较常见的处理办法

第一是使用Combinefileinputformat,将多个小文件打包作为一个整体的inputsplit,减少map任务数

set mapred.max.split.size=256000000

set mapred.min.split.size.per.node=256000000

set  Mapred.min.split.size.per.rack=256000000

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

第二是设置hive参数,将额外启动一个MR Job打包小文件

hive.merge.mapredfiles = false 是否合并 Reduce 输出文件,默认为 False 

 hive.merge.size.per.task = 256*1000*1000 合并文件的大小 

 

(3)注意数据倾斜

在hive里比较常用的处理办法

第一通过hive.groupby.skewindata=true控制生成两个MR Job,第一个MR Job Map的输出结果随机分配到reduce做次预汇总,减少某些key值条数过多某些key条数过小造成的数据倾斜问题

第二通过hive.map.aggr = true(默认为true)在Map端做combiner,假如map各条数据基本上不一样, 聚合没什么意义,做combiner反而画蛇添足,hive里也考虑的比较周到通过参数hive.groupby.mapaggr.checkinterval = 100000 (默认)hive.map.aggr.hash.min.reduction=0.5(默认),预先取100000条数据聚合,如果聚合后的条数/100000>0.5,则不再聚合

 

(4)善用multi insert,union all

multi insert适合基于同一个源表按照不同逻辑不同粒度处理插入不同表的场景,做到只需要扫描源表一次,job个数不变,减少源表扫描次数

union all用好,可减少表的扫描次数,减少job的个数,通常预先按不同逻辑不同条件生成的查询union all后,再统一group by计算,不同表的union all相当于multiple inputs,同一个表的union all,相当map一次输出多条

 

(5) 参数设置的调优

集群参数种类繁多,举个例子比如

可针对特定job设置特定参数,比如jvm重用,reduce copy线程数量设置(适合map较快,输出量较大)

如果任务数多且小,比如在一分钟之内完成,减少task数量以减少任务初始化的消耗。可以通过配置JVM重用选项减少task的消耗

 

二、hive动态配置项

hive.optimize.cp=true:列裁剪
hive.optimize.prunner:分区裁剪
hive.limit.optimize.enable=true:优化LIMIT n语句
hive.limit.row.max.size=1000000:
hive.limit.optimize.limit.file=10:最大文件数

 

1. 本地模式(小任务):
需要满足以下条件:
  1.job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)
  2.job的map数必须小于参数:hive.exec.mode.local.auto.tasks.max(默认4)
  3.job的reduce数必须为0或者1
hive.exec.mode.local.auto.inputbytes.max=134217728
hive.exec.mode.local.auto.tasks.max=4
hive.exec.mode.local.auto=true
hive.mapred.local.mem:本地模式启动的JVM内存大小

 

2. 并发执行:
hive.exec.parallel=true ,默认为false
hive.exec.parallel.thread.number=8

 

3.Strict Mode:
hive.mapred.mode=true,严格模式不允许执行以下查询:
分区表上没有指定了分区
没有limit限制的order by语句
笛卡尔积:JOIN时没有ON语句

 

4.动态分区:
hive.exec.dynamic.partition.mode=strict:该模式下必须指定一个静态分区
hive.exec.max.dynamic.partitions=1000
hive.exec.max.dynamic.partitions.pernode=100:在每一个mapper/reducer节点允许创建的最大分区数
DATANODE:dfs.datanode.max.xceivers=8192:允许DATANODE打开多少个文件

 

5.推测执行:
mapred.map.tasks.speculative.execution=true
mapred.reduce.tasks.speculative.execution=true
hive.mapred.reduce.tasks.speculative.execution=true;

 

6.Single MapReduce MultiGROUP BY
hive.multigroupby.singlemar=true:当多个GROUP BY语句有相同的分组列,则会优化为一个MR任务

 

7. hive.exec.rowoffset:是否提供虚拟列

 

8. 分组
两个聚集函数不能有不同的DISTINCT列,以下表达式是错误的:
INSERT OVERWRITE TABLE pv_gender_agg SELECT pv_users.gender, count(DISTINCT pv_users.userid), count(DISTINCT pv_users.ip) FROM pv_users GROUP BY pv_users.gender;
SELECT语句中只能有GROUP BY的列或者聚集函数。

 

9.
hive.map.aggr=true;在map中会做部分聚集操作,效率更高但需要更多的内存。
hive.groupby.mapaggr.checkinterval:在Map端进行聚合操作的条目数目

 

10.
hive.groupby.skewindata=true:数据倾斜时负载均衡,当选项设定为true,生成的查询计划会有两个MRJob。第一个MRJob 中,
Map的输出结果集合会随机分布到Reduce中,每个Reduce做部分聚合操作,并输出结果,这样处理的结果是相同的GroupBy Key
有可能被分发到不同的Reduce中,从而达到负载均衡的目的;第二个MRJob再根据预处理的数据结果按照GroupBy Key分布到
Reduce中(这个过程可以保证相同的GroupBy Key被分布到同一个Reduce中),最后完成最终的聚合操作。

 

11.Multi-Group-By Inserts:
FROM test
INSERT OVERWRITE TABLE count1
SELECT count(DISTINCT test.dqcode)
GROUP BY test.zipcode
INSERT OVERWRITE TABLE count2
SELECT count(DISTINCT test.dqcode)
GROUP BY test.sfcode;

 

12.排序
ORDER BY colName ASC/DESC
hive.mapred.mode=strict时需要跟limit子句
hive.mapred.mode=nonstrict时使用单个reduce完成排序
SORT BY colName ASC/DESC :每个reduce内排序
DISTRIBUTE BY(子查询情况下使用 ):控制特定行应该到哪个reducer,并不保证reduce内数据的顺序
CLUSTER BY :当SORT BY 、DISTRIBUTE BY使用相同的列时。

 

13.合并小文件
hive.merg.mapfiles=true:合并map输出
hive.merge.mapredfiles=false:合并reduce输出
hive.merge.size.per.task=256*1000*1000:合并文件的大小
hive.mergejob.maponly=true:如果支持CombineHiveInputFormat则生成只有Map的任务执行merge
hive.merge.smallfiles.avgsize=16000000:文件的平均大小小于该值时,会启动一个MR任务执行merge。

 

14.map/reduce数目
减少map数目:
  set mapred.max.split.size
  set mapred.min.split.size
  set mapred.min.split.size.per.node
  set mapred.min.split.size.per.rack
  set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
增加map数目:
当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。
假设有这样一个任务:
  select data_desc, count(1), count(distinct id),sum(case when …),sum(case when ...),sum(…) from a group by data_desc
如果表a只有一个文件,大小为120M,但包含几千万的记录,如果用1个map去完成这个任务,肯定是比较耗时的,这种情况下,我们要考虑将这一个文件合理的拆分成多个,这样就可以用多个map任务去完成。
  set mapred.reduce.tasks=10;
  create table a_1 as select * from a distribute by rand(123);
这样会将a表的记录,随机的分散到包含10个文件的a_1表中,再用a_1代替上面sql中的a表,则会用10个map任务去完成。每个map任务处理大于12M(几百万记录)的数据,效率肯定会好很多。

reduce数目设置:
 参数1:hive.exec.reducers.bytes.per.reducer=1G:每个reduce任务处理的数据量
 参数2:hive.exec.reducers.max=999(0.95*TaskTracker数):每个任务最大的reduce数目
 reducer数=min(参数2,总输入数据量/参数1)
 set mapred.reduce.tasks:每个任务默认的reduce数目。典型为0.99*reduce槽数,hive将其设置为-1,自动确定reduce数目。

 

15.使用索引:
hive.optimize.index.filter:自动使用索引
hive.optimize.index.groupby:使用聚合索引优化GROUP BY操作

三、hive查询优化

http://www.open-open.com/lib/view/open1341214750402.html

1、join优化

Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。

Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个mapred程序中。

 

案例:

SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)  在一个mapre程序中执行join

SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key2)   在两个mapred程序中执行join

Map join的关键在于join操作中的某个表的数据量很小,案例:

SELECT /*+ MAPJOIN(b) */ a.key, a.value

  FROM a join b on a.key = b.key 

Mapjoin 的限制是无法执行a FULL/RIGHT OUTER JOIN b,和map join相关的hive参数:hive.join.emit.interval  hive.mapjoin.size.key  hive.mapjoin.cache.numrows

由于join操作是在where操作之前执行,所以当你在执行join时,where条件并不能起到减少join数据的作用;案例:

SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)

  WHERE a.ds='2009-07-07' AND b.ds='2009-07-07'

最好修改为:

SELECT a.val, b.val FROM a LEFT OUTER JOIN b

  ON (a.key=b.key AND b.ds='2009-07-07' AND a.ds='2009-07-07')

 

在join操作的每一个mapred程序中,hive都会把出现在join语句中相对靠后的表的数据stream化,相对靠前的变的数据缓存在内存中。当然,也可以手动指定stream化的表:SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)

 

2、group by 优化

Map端聚合,首先在map端进行初步聚合,最后在reduce端得出最终结果,相关参数:

· hive.map.aggr = true是否在 Map 端进行聚合,默认为 True

· hive.groupby.mapaggr.checkinterval = 100000在 Map 端进行聚合操作的条目数目

数据倾斜聚合优化,设置参数hive.groupby.skewindata = true,当选项设定为 true,生成的查询计划会有两个 MR Job。第一个 MR Job 中,Map 的输出结果集合会随机分布到 Reduce 中,每个 Reduce 做部分聚合操作,并输出结果,这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中,从而达到负载均衡的目的;第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中(这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中),最后完成最终的聚合操作。

 

3、合并小文件

文件数目过多,会给 HDFS 带来压力,并且会影响处理效率,可以通过合并 Map 和 Reduce 的结果文件来消除这样的影响:

· hive.merge.mapfiles = true是否和并 Map 输出文件,默认为 True

· hive.merge.mapredfiles = false是否合并 Reduce 输出文件,默认为 False

· hive.merge.size.per.task = 256*1000*1000合并文件的大小

 

4、Hive实现(not) in

通过left outer join进行查询,(假设B表中包含另外的一个字段 key1 

select a.key from a left outer join b on a.key=b.key where b.key1 is null

通过left semi join 实现 in

SELECT a.key, a.val FROM a LEFT SEMI JOIN b on (a.key = b.key)

Left semi join 的限制:join条件中右边的表只能出现在join条件中。

5、排序优化

Order by 实现全局排序,一个reduce实现,效率低

Sort by 实现部分有序,单个reduce输出的结果是有序的,效率高,通常和DISTRIBUTE BY关键字一起使用(DISTRIBUTE BY关键字 可以指定map 到 reduce端的分发key)

CLUSTER BY col1 等价于DISTRIBUTE BY col1 SORT BY col1

 

6、使用分区

Hive中的每个分区都对应hdfs上的一个目录,分区列也不是表中的一个实际的字段,而是一个或者多个伪列,在表的数据文件中实际上并不保存分区列的信息与数据。Partition关键字中排在前面的为主分区(只有一个),后面的为副分区

静态分区:静态分区在加载数据和使用时都需要在sql语句中指定

          案例:(stat_date='20120625',province='hunan')

动态分区:使用动态分区需要设置hive.exec.dynamic.partition参数值为true,默认值为false,在默认情况下,hive会假设主分区时静态分区,副分区使用动态分区;如果想都使用动态分区,需要设置set hive.exec.dynamic.partition.mode=nostrick,默认为strick

          案例:(stat_date='20120625',province)

 

7、Distinct 使用

Hive支持在group by时对同一列进行多次distinct操作,却不支持在同一个语句中对多个列进行distinct操作。

 

8、Hql使用自定义的mapred脚本

注意事项:在使用自定义的mapred脚本时,关键字MAP REDUCE 是语句SELECT TRANSFORM ( ... )的语法转换,并不意味着使用MAP关键字时会强制产生一个新的map过程,使用REDUCE关键字时会产生一个red过程。

自定义的mapred脚本可以是hql语句完成更为复杂的功能,但是性能比hql语句差了一些,应该尽量避免使用,如有可能,使用UDTF函数来替换自定义的mapred脚本

 

9、UDTF

UDTF将单一输入行转化为多个输出行,并且在使用UDTF时,select语句中不能包含其他的列,UDTF不支持嵌套,也不支持group by 、sort by等语句。如果想避免上述限制,需要使用lateral view语法,案例:

select a.timestamp, get_json_object(a.appevents, '$.eventid'), get_json_object(a.appenvets, '$.eventname') from log a;

select a.timestamp, b.*

from log a lateral view json_tuple(a.appevent, 'eventid', 'eventname') b as f1, f2;

其中,get_json_object为UDF函数,json_tuple为UDTF函数。

UDTF函数在某些应用场景下可以大大提高hql语句的性能,如需要多次解析json或者xml数据的应用场景。

 

10、聚合函数count和sum

Count和sum函数可能是在hql语句中使用的最为频繁的两个聚合函数了,但是在hive中count函数在计算distinct value时支持加入条件过滤。

 

本来来自:http://m.oschina.net/blog/355305

 

分享到:
评论

相关推荐

    Hive性能优化

    在Hive中,处理数据倾斜的常见方法是增加Map/Reduce作业的数量,通过增加更多的分区来分散数据负载,这类似于将大数据任务拆分成多个小任务来执行。 HiveQL执行过程中,可以将其视为底层的Map/Reduce程序来优化。...

    hive优化(ppt)

    列裁剪是另一种常见的Hive优化手段,指的是在SELECT语句中仅选择必要的列,避免全列扫描。例如,使用`SELECT mgid, mgid2 FROM mds_prod_grp_base_info WHERE dt='${date_qt}'`代替`SELECT * FROM mds_prod_grp_base...

    hive on spark mr 数据开发常见问题解决

    在日常开发中,建立一个汇总常见问题的知识库是提高效率的关键。遇到问题时,能够快速查找和应用解决方案,可以极大地提高团队的工作效率。同时,定期审查和更新这个知识库,确保它包含最新的错误信息和解决方案,将...

    Hive教程.pdf

    #### 第二部分:Hive执行原理与优化 - **Hive技术架构**: - **架构图**: 描述了Hive的组件和它们之间的交互。 - **Hive的核心**: 包括HiveQL解析器、编译器、优化器和执行器等。 - **Hive的底层存储**: 使用HDFS...

    Hive用户指南(Hive_user_guide)_中文版pdf

    1. **Hive基本概念**:Hive是一种数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,适合于数据汇总、分析。Hive构建在Hadoop之上,利用HDFS进行数据存储,MapReduce进行数据...

    Hive操作笔记(呕心沥血制作)

    通过以上内容,读者应该能理解 Hive 的基本概念、安装步骤以及常见问题的解决方法。在实际工作中,根据业务需求,还需要深入学习 Hive 的高级特性,如视图、JOIN 操作、UDF(用户定义函数)等,以实现更复杂的数据...

    hive sql + left join 数据缺失

    随着Hive版本的不断更新,部分用户在升级至Hive 3之后遇到了数据处理中的一个常见问题——在执行Left Join操作时出现数据缺失。 #### 二、问题复现 问题发生在如下的SQL语句中: ```sql SELECT a.* FROM ( SELECT ...

    streamsets数据采集常见问题汇总1

    9. **使用JDBC组件向Hive导数据时填写Hive元数据处理器注意时的问题** 使用场景:从JDBC源向Hive目标迁移数据。 问题描述:可能涉及到Hive元数据的正确映射。 解决方法:确保JDBC组件与Hive元数据处理器之间字段...

    apache-hive-1.1.0-bin.tar.gz

    Hive 提供了一个数据层抽象,将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,方便数据汇总、分析。`apache-hive-1.1.0-bin.tar.gz` 是 Apache Hive 1.1.0 版本的二进制发行包,包含了运行 Hive ...

    hive-introduction.pdf

    1. **数据仓库建设**:Hive 最常见的用途之一就是构建企业级数据仓库,用于存储、管理和分析大量历史数据。 2. **报表和BI分析**:利用HiveQL进行数据汇总、聚合等操作,生成各种报表和业务智能分析报告。 3. **数据...

    大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse

    Hadoop 的数据块大小设置、Zookeeper 的会话超时机制、HBase 的 Region 分裂、Hive 的分区表设计、Spark 的容错机制、Kafka 的生产者消费者模型、Flink 的状态持久化和ClickHouse 的索引策略等都是常见的面试问题。...

    hive course pdf

    在大数据处理领域,Hive作为一款基于Hadoop的数据仓库工具,以其便捷的SQL查询接口、数据仓库工具集、灵活的ETL(提取、转换、加载)功能,以及强大的数据汇总能力,受到了广大数据分析师和开发者的青睐。...

    hive-笔记.docx

    Hive 是一个基于 Hadoop 的数据仓库工具,它为海量数据集提供了便捷的数据汇总、分析和查询能力。Hive 的设计初衷是解决直接使用 Hadoop MapReduce 进行复杂查询时面临的困难,如学习成本高、开发周期短和实现复杂...

    Hadoop-2.8.0-Day08-Hive函数与HQL详解-课件与资料.zip

    3. **Hive的优化**:在实际使用中,理解Hive的执行计划和优化策略至关重要。比如,通过`EXPLAIN`命令可以查看Hive查询的执行逻辑,从而调整查询语句以提高性能。此外,使用分区和桶(Bucketing)可以进一步优化查询...

    大数据工具资料收集之hive.pdf

    Hive提供了一种类SQL的查询语言HQL,使得用户能够方便地对存储在Hadoop分布式文件系统(HDFS)上的数据进行查询、分析和汇总。 1. **Hive基础**: - Hive是建立在Hadoop之上的,使用HDFS作为底层数据存储,HQL...

    清华大学精品大数据实战课程(Hadoop、Hbase、Hive、Spark)PPT课件含习题(30页) 第4章 数据仓库工具Hi

    8. 解决常见问题和优化策略 通过学习这30页的PPT课件和习题,学生能够对Hive有深入的理解,掌握其在大数据处理中的关键作用,并能够运用Hive进行实际的数据分析工作。这样的资源对于想要从事大数据行业或者提升...

    03-2022年深圳大数据面试题汇总.pdf

    - **Hive SQL优化:**ON和WHERE子句的使用顺序对查询性能的影响。 #### 大数据处理框架 - **MapReduce流程:**从Map阶段到Reduce阶段的数据处理过程。 - **Spark Streaming容错机制:**基于RDD的容错机制,确保数据...

    2021最新最全大数据面试宝典-有答案

    Hive优化:优化Hive作业可以通过多种方式,包括调整MapReduce参数、分区、小文件合并、使用Tez或Spark执行引擎等。 Spark相关知识点 Spark与MapReduce相比效率更高:Spark的效率高于MapReduce,原因在于它使用了...

    hadoop 参考资料

    2. **Hadoop常见错误及解决办法汇总.docx**:这份文档很可能是针对Hadoop在实际操作中遇到的问题和解决方案的集合。通过阅读,用户可以了解常见的错误类型,如NameNode和DataNode的故障、MapReduce作业的错误等,...

Global site tag (gtag.js) - Google Analytics