hive reduce资源数过多导致集群内资源堵塞方案解决

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 1370 次

锁定老帖子主题：hive reduce资源数过多导致集群内资源堵塞方案解决精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
davidxiaozhi 等级: 初级会员性别: 文章: 5 积分: 60 来自: 北京	发表时间：2013-09-05 相关推荐: Hive优化方案 hive性能调优详解系列之hive语法和参数层面调优_数仓工程师必备hive调优方案 Hive优化系列之Map与Reduce数量选择 hadoop hive hbase 集群搭建 Hive 性能调优大全更多相关推荐我们先看一看map中对reduce个数产生影响的两个参数 hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1G） hive.exec.reducers.max（每个任务最大的reduce数，默认为999） hive计算reducer数的公式很简单N=min(参数2，总输入数据量/参数1) ,即如果reduce的输入（map的输出）总大小不超过1G,那么只会有一个reduce任务.。针对有些hql，由于我们的产生的计算中间数据量很庞大，那么必然到导致我们的reduce数目过大，甚至超过我们现有集群的全部reduce slots，如果计算时间过长，这必然导致后续提交的reduce任务处于超长的等待阶段，解决办法办法为一下两种 1.更换或者实现更加公平的作业调度器。 2.限制 hive.exec.reducers.max = 集群内slots的*0.75 大小: 12.1 KB 大小: 1.3 KB 大小: 2 KB 大小: 2.5 KB 大小: 2.9 KB 大小: 3.7 KB 查看图片附件声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → 综合技术版

跳转论坛: