hive执行job的时候卡死，执行进度总是0%，然后报错的问题分析和解决

静水深流

浏览: 19586 次
性别:
来自: 北京

最近访客更多访客>>

jiawei28888

bylijinnan

liuzhiyuan

bluecoyote

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2016-09 ( 2)
更多存档...

博客分类：

hive

hive hadoop

因为跨机房业务需要，在另一个机房部署了一个小型的hadoop集群，其中一个节点为namenode无计算节点datanode，而其它两个节点为datanode节点其中每过节点分配50G的内存，总共100G内存资源；而每台机器都是32核CPU，制定最高使用80% 即26核，配置如下：
yarn-site.xml

<property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>51200</value>
</property>
<property>
        <name>yarn.nodemanager.resource.cpu-vcores</name>
        <value>26</value>
</property>

因为目前主要是用hive做离线数据分析，一开始数据量少的情况下hive执行基本没什么问题，当我们的业务量上来之后，对应的数据量也上升，突然有一天发现，之前执行得好好的hive任务执行不成功。后来经过这控制台执行发现如下问题：

执行进度总是0%

过一段时间报上图的错误，然后退出。
也有的时候是报内存溢出：
Diagnostic Messages for this Task:
Error: java.lang.OutOfMemoryError: Java heap space

大概估计应该是集群资源不足导致。所以在网上搜索了一下关于hive内存溢出相关问题的文章，找到http://blog.csdn.net/godspeedlaile9/article/details/13776595，按照这篇文章提出的解决方案：
Currently hive.map.aggr.hash.percentmemory is set to 0.5. Try setting it to a lower value. i.e 'set hive.map.aggr.hash.percentmemory = 0.25;'
也就是说hive目前的这个属性是0.5，我们把它在hive中调整成0.25，调整完之后任务居然能够正常执行了。

但是其中的缘由确给我打了一个深深的问号？

查看了一下hive中hive.map.aggr.hash.percentmemory属性的说明：Hive Map 端聚合的哈稀存储所占用虚拟机的内存比例。
意思是说，当内存的Map大小，占到JVM配置的Map进程的25%的时候(默认是50%)，就将这个数据flush到reducer去，以释放内存Map的空间。
错误原因：Map端聚合时hash表所占用的内存比例默认为0.5，这个值超过可用内存大小，导致内存溢出。

PS：资源不足很多同学可能第一想的是加机器，我一开始也是这么想的，但是现实总是有差距，只能尽力做到物尽其用了。

欢迎大家提出不同的方案或补充！

参考资料：
http://dacoolbaby.iteye.com/blog/1880089
http://blog.csdn.net/lixucpf/article/details/20458617