hive日常积累优化技巧 -

月光杯

浏览: 389924 次
性别:
来自: 上海

最近访客更多访客>>

regicide

jybzjf

tangang

libo_591

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hive日常积累优化技巧

博客分类：

hive

一、join优化

Join查找操作的基本原则：应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join，且所有参与join的表中其参与join的key都相同，则会将所有的join合并到一个mapred程序中。案例：SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1) 在一个mapre程序中执行join
SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key2) 在两个mapred程序中执行join
Map join的关键在于join操作中的某个表的数据量很小，案例：
SELECT /*+ MAPJOIN(b) */ a.key, a.value
FROM a join b on a.key = b.key
Mapjoin 的限制是无法执行a FULL/RIGHT OUTER JOIN b，和map join相关的hive参数：hive.join.emit.interval hive.mapjoin.size.key hive.mapjoin.cache.numrows
由于join操作是在where操作之前执行，所以当你在执行join时，where条件并不能起到减少join数据的作用；案例：
SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)
WHERE a.ds=’2009-07-07′ AND b.ds=’2009-07-07′
最好修改为：
SELECT a.val, b.val FROM a LEFT OUTER JOIN b
ON (a.key=b.key AND b.ds=’2009-07-07′ AND a.ds=’2009-07-07′)
在join操作的每一个mapred程序中，hive都会把出现在join语句中相对靠后的表的数据stream化，相对靠前的变的数据缓存在内存中。当然，也可以手动指定stream化的表：SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)

二、group by 优化
Map端聚合，首先在map端进行初步聚合，最后在reduce端得出最终结果，相关参数：
· hive.map.aggr = true是否在 Map 端进行聚合，默认为 True
· hive.groupby.mapaggr.checkinterval = 100000在 Map 端进行聚合操作的条目数目
数据倾斜聚合优化，设置参数hive.groupby.skewindata = true，当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。

三、合并小文件
文件数目过多，会给 HDFS 带来压力，并且会影响处理效率，可以通过合并 Map 和 Reduce 的结果文件来消除这样的影响：
· hive.merge.mapfiles = true是否和并 Map 输出文件，默认为 True
· hive.merge.mapredfiles = false是否合并 Reduce 输出文件，默认为 False
· hive.merge.size.per.task = 256*1000*1000合并文件的大小

四、Hive实现(not) in
通过left outer join进行查询,（假设B表中包含另外的一个字段 key1
select a.key from a left outer join b on a.key=b.key where b.key1 is null
通过left semi join 实现 in
SELECT a.key, a.val FROM a LEFT SEMI JOIN b on (a.key = b.key)
Left semi join 的限制：join条件中右边的表只能出现在join条件中。

五、排序优化
Order by 实现全局排序，一个reduce实现，效率低
Sort by 实现部分有序，单个reduce输出的结果是有序的，效率高，通常和DISTRIBUTE BY关键字一起使用（DISTRIBUTE BY关键字可以指定map 到 reduce端的分发key）
CLUSTER BY col1 等价于DISTRIBUTE BY col1 SORT BY col1

六、使用分区
Hive中的每个分区都对应hdfs上的一个目录，分区列也不是表中的一个实际的字段，而是一个或者多个伪列，在表的数据文件中实际上并不保存分区列的信息与数据。Partition关键字中排在前面的为主分区（只有一个），后面的为副分区
静态分区：静态分区在加载数据和使用时都需要在sql语句中指定
案例：(stat_date=’20120625′,province=’hunan’)
动态分区：使用动态分区需要设置hive.exec.dynamic.partition参数值为true，默认值为false，在默认情况下，hive会假设主分区时静态分区，副分区使用动态分区；如果想都使用动态分区，需要设置set hive.exec.dynamic.partition.mode=nostrick，默认为strick
案例：(stat_date=’20120625′,province)

七、Distinct 使用
Hive支持在group by时对同一列进行多次distinct操作，却不支持在同一个语句中对多个列进行distinct操作。

八、Hql使用自定义的mapred脚本
注意事项：在使用自定义的mapred脚本时，关键字MAP REDUCE 是语句SELECT TRANSFORM ( … )的语法转换，并不意味着使用MAP关键字时会强制产生一个新的map过程，使用REDUCE关键字时会产生一个red过程。
自定义的mapred脚本可以是hql语句完成更为复杂的功能，但是性能比hql语句差了一些，应该尽量避免使用，如有可能，使用UDTF函数来替换自定义的mapred脚本

九、UDTF
UDTF将单一输入行转化为多个输出行，并且在使用UDTF时，select语句中不能包含其他的列，UDTF不支持嵌套，也不支持group by 、sort by等语句。如果想避免上述限制，需要使用lateral view语法，案例：
select a.timestamp, get_json_object(a.appevents, ‘$.eventid’), get_json_object(a.appenvets, ‘$.eventname’) from log a;
select a.timestamp, b.*
from log a lateral view json_tuple(a.appevent, ‘eventid’, ‘eventname’) b as f1, f2;
其中，get_json_object为UDF函数，json_tuple为UDTF函数。
UDTF函数在某些应用场景下可以大大提高hql语句的性能，如需要多次解析json或者xml数据的应用场景。

十、聚合函数count和sum
Count和sum函数可能是在hql语句中使用的最为频繁的两个聚合函数了，但是在hive中count函数在计算distinct value时支持加入条件过滤。

分享到：

装饰模式 | PostgreSQL服务启动又停止的解决方法

2014-03-14 09:32
浏览 817
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive日常积累优化技巧.pdf: Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL 语句快速实现简单的...

大数据运维工程师的基本职责[修改版].docx: 5. 平台管理：搭建、运维和管理Hadoop生态系统，包括Hadoop、Hbase、Kafka、Hive等组件的优化。三、任职资格 1. 经验要求：通常需要2年以上的服务器运维经验，特别是对车联网平台运维有经验者优先。 2. 技术技能...

个人使用大数据开发-计算机专业简历.doc: - **具体内容**：熟悉Hive的工作原理、数据仓库的建立及Hive性能优化技巧。 - **应用场景**：适用于构建企业级数据仓库，进行数据整合、分析与挖掘。 8. **Flume日志收集**： - **掌握情况**：熟悉 - **具体...

安川MP7系列工控系统源码解析：关键算法与硬件交互揭秘: 内容概要：本文深入剖析了安川MP7系列工业控制系统的关键源码，重点介绍了运动轨迹规划、通信协议处理以及故障处理机制等方面的技术细节。通过对实际代码片段的解读，揭示了该系统在硬件寄存器直接访问、特殊功能码处理等方面的独特之处。同时，文中还分享了一些基于实践经验得出的重要参数设置及其背后的故事，如特定摩擦补偿系数的选择原因等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对安川产品有一定了解并希望深入了解其内部工作机制的专业人士。使用场景及目标：帮助读者掌握安川MP7系列控制器的工作原理，提高对类似系统的维护能力和故障排查效率。对于想要进一步研究或二次开发该系统的开发者来说，也能提供宝贵的参考资料。其他说明：文章不仅限于理论讲解，还包括了许多来自一线的实际案例和经验教训，使读者能够更好地理解和应用所学知识。

自动化测试与脚本开发_Python3_pynput_键盘鼠标操作录制执行代码生成工具_用于自动化测试_脚本录制_重复操作模拟_宏命令生成_提高工作效率_支持GUI界面_跨平台兼容_.zip: 自动化测试与脚本开发_Python3_pynput_键盘鼠标操作录制执行代码生成工具_用于自动化测试_脚本录制_重复操作模拟_宏命令生成_提高工作效率_支持GUI界面_跨平台兼容_

嵌入式八股文面试题库资料知识宝典-深入分析Windows和Linux动态库应用异同.zip: 嵌入式八股文面试题库资料知识宝典-深入分析Windows和Linux动态库应用异同.zip

嵌入式八股文面试题库资料知识宝典-C语言总结.zip: 嵌入式八股文面试题库资料知识宝典-C语言总结.zip

风储直流微电网母线电压控制策略与双闭环MPPT技术研究: 内容概要：本文详细探讨了风储直流微电网中母线电压控制的关键技术。首先介绍了风储直流微电网的背景和发展现状，强调了母线电压控制的重要性。接着阐述了永磁风机储能并网技术，解释了永磁风机如何通过直接驱动发电机将风能转化为电能，并确保与电网的同步性和稳定性。然后深入讨论了双闭环控制MPPT技术，这是一种通过内外两个闭环控制系统来实现实时调整发电机运行参数的技术，确保风机始终处于最大功率点附近。最后，文章探讨了储能控制母线电压平衡的方法，即通过储能系统的充放电操作来维持母线电压的稳定。结论部分指出，通过这些技术的有机结合，可以实现对风储直流微电网的有效管理和优化控制。适合人群：从事新能源技术研发的专业人士、电气工程研究人员、风电系统工程师。使用场景及目标：适用于希望深入了解风储直流微电网母线电压控制策略的研究人员和技术人员，旨在帮助他们掌握最新的控制技术和方法，以提高系统的稳定性和效率。其他说明：文章还对未来风储直流微电网的发展进行了展望，指出了智能化和自动化的趋势，以及储能技术的进步对系统性能的影响。

嵌入式八股文面试题库资料知识宝典-C++object-oriented.zip: 嵌入式八股文面试题库资料知识宝典-C++object-oriented.zip

【操作系统开发】HarmonyOS目录结构详解：构建高效开发环境与跨设备协同应用: 内容概要：文章详细介绍了HarmonyOS的目录结构及其重要性，从整体框架到核心目录的具体功能进行了全面剖析。HarmonyOS凭借其分布式架构和跨设备协同能力迅速崛起，成为全球操作系统领域的重要力量。文章首先概述了HarmonyOS的背景和发展现状，强调了目录结构对开发的重要性。接着，具体介绍了根目录文件、AppScope、entry和oh_modules等核心目录的功能和作用。例如，AppScope作为全局资源配置中心，存放应用级的配置文件和公共资源；entry目录是应用的核心入口，负责源代码和界面开发。此外，文章还对比了HarmonyOS与Android、iOS目录结构的异同，突出了HarmonyOS的独特优势。最后，通过旅游应用和电商应用的实际案例，展示了HarmonyOS目录结构在资源管理和代码组织方面的应用效果。; 适合人群：具备一定编程基础，尤其是对移动操作系统开发感兴趣的开发者，包括初学者和有一定经验的研发人员。; 使用场景及目标：①帮助开发者快速理解HarmonyOS的目录结构，提高开发效率；②为跨设备应用开发提供理论和技术支持；③通过实际案例学习资源管理和代码组织的最佳实践。; 其他说明：HarmonyOS的目录结构设计简洁明了，模块职责划分明确，有助于开发者更好地管理和组织代码和资源。随着万物互联时代的到来，HarmonyOS有望在开发便利性和生态建设方面取得更大进展，吸引更多开发者加入其生态系统。

飞轮储能充放电控制Simulink仿真模型：基于永磁同步电机的矢量控制与dq轴解耦: 内容概要：本文详细介绍了飞轮储能充放电控制的Simulink仿真模型，重点在于采用永磁同步电机的矢量控制和dq轴解耦控制策略。充电时，外环控制转速，内环控制dq轴电流；放电时，外环控制直流母线电压，内环同样控制dq轴电流。文中还讨论了硬件与软件环境的选择，以及仿真模型的调试与运行情况，最终得出该模型具有良好的跟随性能和波形完美度。适用人群：从事电力电子系统、储能技术和Simulink仿真的研究人员和技术人员。使用场景及目标：适用于需要对飞轮储能系统进行深入研究和仿真的场合，旨在提高充放电效率和稳定性，满足不同应用场景的需求。其他说明：该仿真模型已调试完成，可以直接用于进一步的研究和实际应用，为未来的飞轮储能技术研发提供了有价值的参考。

嵌入式八股文面试题库资料知识宝典-北京瑞德方科技.zip: 嵌入式八股文面试题库资料知识宝典-北京瑞德方科技.zip

嵌入式八股文面试题库资料知识宝典-同方万维硬件测试工程师.zip: 嵌入式八股文面试题库资料知识宝典-同方万维硬件测试工程师.zip

1_15套python PDF格式.zip: 1_15套python PDF格式.zip

三相三电平整流器仿真：基于电压电流双闭环控制与SPWM调制的性能分析: 内容概要：本文详细介绍了三相三电平整流器的仿真过程及其性能分析。文中首先概述了三相三电平整流器的基本概念及其在电力系统中的重要作用，接着重点探讨了电压电流双闭环控制方式的工作原理和优势，以及SPWM调制技术的具体应用。通过仿真文件展示了整流器在不同条件下的响应情况，验证了这两种技术的有效性和优越性。最后，作者表达了对未来实际应用的期望。适合人群：从事电力电子研究的技术人员、高校相关专业师生、对电力控制系统感兴趣的工程爱好者。使用场景及目标：适用于希望深入了解三相三电平整流器工作原理和技术细节的研究人员；目标是在理论基础上掌握电压电流双闭环控制和SPWM调制的实际应用方法。其他说明：本文提供的仅为仿真文件，未涉及实物实验数据。

嵌入式八股文面试题库资料知识宝典-恒光科技.zip: 嵌入式八股文面试题库资料知识宝典-恒光科技.zip

嵌入式八股文面试题库资料知识宝典-北京天华威视科技有限公司面试题.zip: 嵌入式八股文面试题库资料知识宝典-北京天华威视科技有限公司面试题.zip

嵌入式八股文面试题库资料知识宝典-微软研究院笔试题目的答案.zip: 嵌入式八股文面试题库资料知识宝典-微软研究院笔试题目的答案.zip

Arduino UART实验例程【正点原子EPS32S3】: Arduino UART实验例程，开发板：正点原子EPS32S3，本人主页有详细实验说明可供参考。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive日常积累优化技巧

评论

发表评论

相关推荐

hive的数据类型和数据模型

hive介绍

从hive将数据导出到mysql

Hive 中内部表与外部表的区别与创建方法

Hive 常见问题与技巧

Hive 中内部表与外部表的区别与创建方法

Hive基本命令整理

最近访客更多访客>>