hive执行作业时reduce任务个数设置为多少合适？ - chunguo.wang - ITeye博客

`

黎明lm

浏览: 311226 次
性别:
来自: 北京

最近访客更多访客>>

baby孔祥超

jiazhigang

slipper-jay

woshiliukun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

dandongsoft：你写的不好用啊
solr 同义词搜索
黎明lm： meifangzi 写道楼主真厉害都分析源码了用了很久. ...
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker
meifangzi：楼主真厉害都分析源码了
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker
zhdkn：顶一个，最近也在学习设计模式，发现一个问题，如果老是看别人的博 ...
Java观察者模式（Observer）详解及应用
lvwenwen：木南飘香写道
高并发网站的架构

hive执行作业时reduce任务个数设置为多少合适？

博客分类：

hive

hive reducer hadoop exec mapreduce

阅读更多

Hive怎样决定reducer个数？

Hadoop MapReduce程序中，reducer个数的设定极大影响执行效率，这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的估计机制很弱，不指定reducer个数的情况下，Hive会猜测确定一个reducer个数，基于以下两个设定：

1. hive.exec.reducers.bytes.per.reducer（默认为1000^3）

2. hive.exec.reducers.max（默认为999）

计算reducer数的公式很简单：

N=min(参数2，总输入数据量/参数1)
通常情况下，有必要手动指定reducer个数。考虑到map阶段的输出数据量通常会比输入有大幅减少，因此即使不设定reducer个数，重设参数2还是必要的。依据Hadoop的经验，可以将参数2设定为0.95*(集群中TaskTracker个数)。

Reduce任务设置多少个？

正确的reduce任务的个数应该是0.95或者1.75 ×（节点数 ×mapred.tasktracker.tasks.maximum参数值）。如果任务数是节点个数的0.95倍，那么所有的reduce任务能够在 map任务的输出传输结束后同时开始运行。如果任务数是节点个数的1.75倍，那么高速的节点会在完成他们第一批reduce任务计算之后开始计算第二批 reduce任务，这样的情况更有利于负载均衡。

转自：http://luobeng.blogbus.com/logs/105130877.html

0
顶

0
踩

分享到：

mysql 慢日志查询操作 | SVN使用log,list,cat,diff查看所有及特定 ...

2012-04-05 18:05
浏览 1393
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive及Hadoop作业调优: 这包括了控制Map任务的数量、合理设置Reduce任务的数量、压缩中间数据以及减少磁盘IO。配置参数调优的目的是提高数据处理的效率和速度，降低不必要的资源消耗。 2. 自定义模块：调优过程中，用户可能需要根据自身...

hive优化经典.pdf: 在Hive中，一个作业是通过分析input目录下的数据文件来创建一个或多个Map任务的，而影响Map数量的主要因素包括input文件的总个数、文件大小以及集群设置的文件块大小。首先，当input目录下存在一个或多个文件时，...

hive性能优化: Hive会根据输入数据量动态计算Reduce任务数量，公式为`num_reduce_tasks = min(${hive.exec.reducers.max},${input.size} / ${hive.exec.reducers.bytes.per.reducer})`，其中`hive.exec.reducers.bytes.per.reducer...

写好Hive程序的五个提示，淘宝数据平台团队: 5. 注意性能监控和调整：监控Hive作业的执行情况，并根据资源消耗和任务执行时间进行相应的配置调整，如设置合适的Map和Reduce任务内存大小等。以上五个方面的提示，概括了在编写Hive程序时需要注意的性能优化和...

hive常见的优化方案ppt: 8. **控制并行Reduce任务**：通过`hive.exec.reducers.bytes.per.reducer`和`hive.exec.reducers.max`调整Reduce任务的数量和大小。 9. **启用向量化执行**：`hive.vectorized.execution.enabled`开启后，Hive将...

hive 优化策略、、、、: 6. 作业调度优化：合理安排作业的执行顺序和依赖关系，以及使用Hive的作业流功能，可以有效减少作业的执行时间和提高资源利用率。 7. 数据倾斜处理：数据倾斜是Hive性能问题的常见原因。通过数据预处理、使用动态...

Hive高级编程: 在Hive中，HiveQL被转换为MapReduce作业执行，例如： - **Join操作**：HiveQL支持标准的SQL JOIN语句，用于连接多个表，如`INSERT INTO TABLE pv_users SELECT pv.pageid,u.age FROM page_view pv JOIN user u ON ...

大数据企业级调优的完整过程：9.1 Fetch抓取；9.2 本地模式；9.3 表的优化；9.4 数据倾斜；9.5 并行执行: - **合理设置Reduce数**：根据业务需求和系统负载，平衡Reduce任务的数量。 **9.5 并行执行** 并行执行是提高大数据处理效率的重要手段，允许任务同时进行，减少整体处理时间。通过配置`hive.exec.parallel`为true...

Hive Hadoop Spark优化: 2. **Task并行度**：合理设置Map和Reduce任务数量，以充分利用集群资源，避免过载或资源浪费。 3. **内存调优**：根据数据规模和计算需求调整MapReduce的内存参数，防止内存溢出。 4. **Compressio编码**：使用压缩...

Hive-Spark小文件解决方案(企业级实战).docx: - **设置Hive参数**：启用Hive的文件合并功能，如`hive.merge.mapfiles`和`hive.merge.mapredfiles`，并在作业结束时设置合适的合并文件大小，如`hive.merge.size.per.task`和`mapred.max.split.size`。 - **选择...

hadoop MapReduce教材: Hadoop MapReduce还包含一个重要的组件——JobTracker（在Hadoop 2.x版本中被YARN取代），它是任务调度和资源管理的中心，负责协调Map和Reduce任务的执行，确保整个作业的正确完成。同时，TaskTracker是运行在每个...

Hadoop的Demo: 7. **性能优化**：通过调整Hadoop的配置参数，优化MapReduce作业的性能，比如设置合适的split大小、调整Map和Reduce的任务数量等。通过这个HadoopDemo项目，初学者不仅能掌握Hadoop的基本操作，还能对Hadoop的...

hadoop The Definitive Guide 2nd Edition: - **执行Reduce任务**：Reduce任务对来自各个Map任务的数据进行聚合处理。 - **写入结果**：Reduce任务完成后，结果被写入到HDFS中。综上所述，《Hadoop：全面指南第二版》不仅涵盖了Hadoop的基础概念和发展历史，...

SparkSQL的分布式执行引擎(Spark ThriftServer): 3. **Shuffle优化**：通过调整shuffle的分区策略和reduce任务数量，减少数据交换的开销。 4. **数据源读写优化**：选择合适的文件格式（如Parquet、ORC），利用压缩和分区等手段提高读写速度。总的来说，SparkSQL...

hadoop.pdf: 随后，在Reduce阶段，具有相同键的所有键值对被发送到同一个Reduce任务，Reduce任务将这些键值对聚合，并产生最终的结果。这一过程极大地提高了数据处理的效率，使得Hadoop能够轻松应对大规模数据集的挑战。 ### ...

大数据面试100题.pdf: 在YARN中执行任务的过程包括：客户端提交作业到YARN、ResourceManager启动一个ApplicationMaster、ApplicationMaster向ResourceManager申请资源、ResourceManager分配资源给NodeManager、NodeManager启动相应的容器...

sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz: 它将数据库查询任务分解为一系列独立的Map任务，每个任务处理一部分数据，然后由Reduce阶段进行聚合。这样，即使面对海量数据，也能高效地完成数据迁移。 **安装过程：** 1. 首先，你需要解压下载的压缩包，使用...

基于Hadoop各大类SQL查询系统对比: - **执行延迟**：每次执行作业都需要启动Task，不适合需要实时响应的应用场景。 #### 2. Impala **简介** Impala是由Cloudera开发的一款实时交互式SQL查询系统，受Google的Dremel启发。它采用类似商用并行关系...

大数据方向面试题大全.pdf: 9. Hive优化策略：可以通过增加分区、设置合适的执行器配置、使用压缩存储等手段对Hive查询进行优化。 10. 分析函数：Hive支持丰富的分析函数，用于执行复杂的分析查询。 Spark面试题： 1. Spark的Shuffle原理及...

Global site tag (gtag.js) - Google Analytics