`
yugouai
  • 浏览: 494896 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

hive的hive.exec.parallel参数说明

 
阅读更多

hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,默认为false.

 

下面是对于该参数的测试过程:

 

测试sql:

select r1.a
from (
   select t.a from sunwg_10 t join sunwg_10000000 s on t.a=s.b) r1 
   join 
   (select s.b from sunwg_100000 t join sunwg_10 s on t.a=s.b) r2 
   on (r1.a=r2.b);

 

1 当参数为false的时候,三个job是顺序的执行

set hive.exec.parallel=false;

 

2 但是可以看出来其实两个子查询中的sql并无关系,可以并行的跑

set hive.exec.parallel=true;

 

 

分享到:
评论

相关推荐

    hive参数配置说明大全

    Hive参数配置说明大全 Hive是一款基于Hadoop的数据仓库工具,用于数据的存储、查询和分析。在Hive中,参数配置起着非常重要的作用,它可以影响Hive的性能、安全性和执行效率。本文将对Hive的参数配置进行详细的解释...

    hive常见的优化方案ppt

    `hive.exec.parallel.thread.number`可设定并行执行的线程数。 6. **启用MapReduce严格模式**:`hive.exec.mapreduce.strict.mode`开启后,Hive会拒绝一些可能导致性能下降或资源浪费的查询,如未指定分区的查询和...

    hive配置说明

    13. **hive.exec.parallel** - **含义**:控制是否开启map/reduce job的并发提交,开启后可以加速执行过程。 - **默认值**:`false` - **建议设置**:对于复杂的查询或大数据量,开启并发可以显著提高效率。 14....

    hive参数优化文档

    - 开启`hive.exec.parallel`,允许并行执行Map任务或Reduce任务,加速查询处理。 3. **索引使用**: - 虽然Hive目前的索引支持有限,但在某些场景下依然可以利用索引来优化查询。 #### 五、平台优化 1. **硬件...

    最强HiveSQL开发指南.pdf

    6. **Hive配置调整**:通过调整Hive的配置参数,如mapred.reduce.tasks、hive.exec.parallel等,来优化执行效率。 ### 实战应用 实战部分将涵盖实际项目中的具体场景,如数据清洗、报表生成、数据分析等,结合案例...

    大数据企业级调优的完整过程:9.1 Fetch抓取;9.2 本地模式;9.3 表的优化;9.4 数据倾斜;9.5 并行执行

    通过配置`hive.exec.parallel`为true,可以启用并行任务执行。 **9.6 严格模式** 严格模式能确保更安全、更一致的查询执行,通过设置`hive.mapred.supports.subdirectories`和`hive.exec.scratchdir.cleanup`等...

    Hive实现并发

    hive实现并发机制:hive里,同一sql里,会涉及到n个job,...如果每个job没有前后依赖关系,可以并发执行的话,可以通过设置该参数 set hive.exec.parallel=true,实现job并发执行,该参数默认可以并发执行的job数为8。

    大数据开发+hive优化方法大全+hql优化

    - 开启`hive.exec.parallel`配置,可以让Hive查询并行执行,提高处理速度。但要注意,过多的并行任务可能导致资源竞争,需合理设置并行度。 5. **数据倾斜优化** - 数据倾斜发生在数据分布不均匀时,某些Reducer...

    Hive查询优化整理与Hive简易版思维导图

    3. **配置调优**:根据集群资源和任务特性调整Hive的配置参数,如mapred.tasktracker.map.tasks.maximum、hive.exec.parallel等。 四、Hive简易版思维导图 这个思维导图可能包含了Hive的基本概念、重要组件、查询...

    hive编程指南

    - 调整Hive和Hadoop的相关配置参数,如`hive.exec.parallel`用于开启并行执行等。 ### 总结 Hive作为一款重要的大数据处理工具,在离线数据分析领域扮演着举足轻重的角色。通过HQL,用户能够以简单直观的方式完成...

    Hive 千亿级数据倾斜解决方案.docx

    4. 任务级别的优化:可以使用 set hive.optimize.ncache=true 语句来启用查询优化,或者使用 set hive.exec.parallel=true 语句来启用并行执行。 在解决数据倾斜问题之前,需要注意的是:没有瓶颈时谈论优化,都是...

    impala学习总结.doc

    Impala,源自Google的Dremel理念,旨在提供高效的数据查询能力,它摒弃了传统的Hive+MapReduce批处理方式,转而采用类似商业并行数据库的分布式查询引擎,包括Query Planner、Query Coordinator和Query Exec Engine...

    大数据分析关键技术39.pptx

    为了支持即席查询,系统需要具备强大的存储能力,如Distribute File System(分布式文件系统)和Column Database(列式数据库),以及高效的Resource Management(资源管理)和Parallel Compute Framework(并行计算...

    impala学习总结.pdf

    Impala采用了与传统并行关系数据库相似的分布式查询引擎,由Query Planner、Query Coordinator和Query Exec Engine三部分构成,能够直接从HDFS或HBase中执行SELECT、JOIN和统计函数等SQL查询,显著降低了查询延迟。...

Global site tag (gtag.js) - Google Analytics