hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,默认为false.
下面是对于该参数的测试过程:
测试sql:
select r1.a
from (
select t.a from sunwg_10 t join sunwg_10000000 s on t.a=s.b) r1
join
(select s.b from sunwg_100000 t join sunwg_10 s on t.a=s.b) r2
on (r1.a=r2.b);
1 当参数为false的时候,三个job是顺序的执行
set hive.exec.parallel=false;
2 但是可以看出来其实两个子查询中的sql并无关系,可以并行的跑
set hive.exec.parallel=true;
总结:
在资源充足的时候hive.exec.parallel会让那些存在并发job的sql运行得更快,但同时消耗更多的资源
可以评估下hive.exec.parallel对我们的刷新任务是否有帮助.
转自 http://www.oratea.net/?p=1377
分享到:
相关推荐
Hive参数配置说明大全 Hive是一款基于Hadoop的数据仓库工具,用于数据的存储、查询和分析。在Hive中,参数配置起着非常重要的作用,它可以影响Hive的性能、安全性和执行效率。本文将对Hive的参数配置进行详细的解释...
`hive.exec.parallel.thread.number`可设定并行执行的线程数。 6. **启用MapReduce严格模式**:`hive.exec.mapreduce.strict.mode`开启后,Hive会拒绝一些可能导致性能下降或资源浪费的查询,如未指定分区的查询和...
13. **hive.exec.parallel** - **含义**:控制是否开启map/reduce job的并发提交,开启后可以加速执行过程。 - **默认值**:`false` - **建议设置**:对于复杂的查询或大数据量,开启并发可以显著提高效率。 14....
- 开启`hive.exec.parallel`,允许并行执行Map任务或Reduce任务,加速查询处理。 3. **索引使用**: - 虽然Hive目前的索引支持有限,但在某些场景下依然可以利用索引来优化查询。 #### 五、平台优化 1. **硬件...
- 除了设置 `hive.map.aggr`,还可以调整其他参数如 `hive.exec.parallel` 和 `hive.exec.compress.intermediate` 来并行执行任务和压缩中间结果。 13. **Hive 增加列**: - 可以使用 ALTER TABLE 命令向已有的表...
6. **Hive配置调整**:通过调整Hive的配置参数,如mapred.reduce.tasks、hive.exec.parallel等,来优化执行效率。 ### 实战应用 实战部分将涵盖实际项目中的具体场景,如数据清洗、报表生成、数据分析等,结合案例...
通过配置`hive.exec.parallel`为true,可以启用并行任务执行。 **9.6 严格模式** 严格模式能确保更安全、更一致的查询执行,通过设置`hive.mapred.supports.subdirectories`和`hive.exec.scratchdir.cleanup`等...
hive实现并发机制:hive里,同一sql里,会涉及到n个job,...如果每个job没有前后依赖关系,可以并发执行的话,可以通过设置该参数 set hive.exec.parallel=true,实现job并发执行,该参数默认可以并发执行的job数为8。
- 开启`hive.exec.parallel`配置,可以让Hive查询并行执行,提高处理速度。但要注意,过多的并行任务可能导致资源竞争,需合理设置并行度。 5. **数据倾斜优化** - 数据倾斜发生在数据分布不均匀时,某些Reducer...
3. **配置调优**:根据集群资源和任务特性调整Hive的配置参数,如mapred.tasktracker.map.tasks.maximum、hive.exec.parallel等。 四、Hive简易版思维导图 这个思维导图可能包含了Hive的基本概念、重要组件、查询...
- 调整Hive和Hadoop的相关配置参数,如`hive.exec.parallel`用于开启并行执行等。 ### 总结 Hive作为一款重要的大数据处理工具,在离线数据分析领域扮演着举足轻重的角色。通过HQL,用户能够以简单直观的方式完成...
4. 任务级别的优化:可以使用 set hive.optimize.ncache=true 语句来启用查询优化,或者使用 set hive.exec.parallel=true 语句来启用并行执行。 在解决数据倾斜问题之前,需要注意的是:没有瓶颈时谈论优化,都是...
Impala,源自Google的Dremel理念,旨在提供高效的数据查询能力,它摒弃了传统的Hive+MapReduce批处理方式,转而采用类似商业并行数据库的分布式查询引擎,包括Query Planner、Query Coordinator和Query Exec Engine...
为了支持即席查询,系统需要具备强大的存储能力,如Distribute File System(分布式文件系统)和Column Database(列式数据库),以及高效的Resource Management(资源管理)和Parallel Compute Framework(并行计算...
Impala采用了与传统并行关系数据库相似的分布式查询引擎,由Query Planner、Query Coordinator和Query Exec Engine三部分构成,能够直接从HDFS或HBase中执行SELECT、JOIN和统计函数等SQL查询,显著降低了查询延迟。...