`
davidxiaozhi
  • 浏览: 241539 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hive reduce资源数过多导致集群内资源堵塞方案解决

 
阅读更多

我们先看一看map中对reduce个数产生影响的两个参数

hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G) 
hive.exec.reducers.max(每个任务最大的reduce数,默认为999)

hive计算reducer数的公式很简单N=min(参数2,总输入数据量/参数1) ,即如果reduce的输入(map的输出)总大小不超过1G,那么只会有一个reduce任务.。

针对有些hql,由于我们的产生的计算中间数据量很庞大,那么必然到导致我们的reduce数目过大,甚至超过我们现有集群的全部reduce slots,如果计算时间过长, 这必然导致后续提交的reduce任务处于超长的等待阶段,解决办法办法为一下两种

1.更换或者实现更加公平的作业调度器。

2.限制 hive.exec.reducers.max = 集群内slots的*0.75

  • 大小: 12.1 KB
  • 大小: 1.3 KB
  • 大小: 2 KB
  • 大小: 2.5 KB
  • 大小: 2.9 KB
  • 大小: 3.7 KB
分享到:
评论

相关推荐

    Hadoop+Hive集群搭建步骤

    VM虚拟机上,安装ubantu搭建hadoop+Hive集群,步骤详细。

    Hadoop集群监控与Hive高可用.pdf

    本文档主要介绍了Hadoop集群监控和Hive高可用的解决方案,涵盖了Cacti和Ganglia两种监控工具的优缺点、Hive高可用集群的实现方案、HAProxy的应用和优化。 一、Hadoop集群监控 1. Cacti监控工具 Cacti是一种基于...

    Hive安装配套资源.zip

    本压缩包“Hive安装配套资源.zip”提供了在Linux CentOS环境下安装Hive所需的关键组件,包括Hive安装包、MySQL连接器、环境配置文件以及Hive的配置文件。 首先,`apache-hive-3.1.2-bin.tar.gz`是Hive的安装包,...

    Hadoop集群搭建及Hive的安装与使用

    2. **配置Hive**:修改`conf/hive-site.xml`,设置Hive的 metastore数据库(可以是本地的MySQL或Derby),Hadoop相关配置(指向已搭建好的Hadoop集群),以及Hive的其他参数。 3. **创建metastore数据库**:根据...

    使用IDEA工具连接CDH集群里面的hive组件

    "使用IDEA工具连接CDH集群里面的hive组件" 使用IDEA工具连接CDH集群里面的hive组件是数据开发中的一项重要任务。本文将详细介绍如何使用IDEA工具连接CDH集群里面的hive组件,包括建立java工程项目、添加hive开发的...

    大数据技术分享 Hadoop集群监控与Hive高可用方案 共17页.pdf

    Hadoop集群监控与Hive高可用方案 本文档主要介绍了Hadoop集群监控和Hive高可用方案两个方面的内容。下面是对这两个方面的详细说明: 一、Hadoop集群监控 Hadoop集群监控是指对Hadoop集群的运行状态进行实时监控,...

    Hadoop hbase hive sqoop集群环境安装配置及使用文档

    大数据集群 Hadoop HBase Hive Sqoop 集群环境安装配置及使用文档 在本文档中,我们将详细介绍如何搭建一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。该文档将分为四部分:Hadoop 集群...

    hive参数优化总结

    Reduce 数太小将导致文件处理或查询并发度小,Job 执行时间过长,容易堵塞集群。 影响 Reduce 数的主要因素有:input 文件数、input 文件大小、Reducer 的个数等。例如,假设 input 目录下有 3 个文件 a、b、c,...

    Hadoop集群监控与Hive高可用-向磊.pdf

    同时,通过介绍HAProxy+Hive的高可用解决方案及其优化方法,为Hive集群提供了更高的稳定性和可靠性。最后,通过介绍phpHiveAdmin的新功能和改进,展示了如何利用该工具增强Hive集群的管理和查询能力。这些内容对于...

    Hive整合HBase资源文件.zip

    标题 "Hive整合HBase资源文件.zip" 指向的是一个关于如何将Apache Hive与Apache HBase集成的教程或工具包。Hive是大数据处理领域的一个重要组件,主要用于结构化数据的查询和分析,而HBase则是一个分布式、列式存储...

    hive2.1.1中orc格式读取报数组越界错误解决方法

    在描述中提到的解决方案是替换相关的jar包,具体为`hive-exec-2.1.1-cdh6.3.2.jar`和`hive-orc-2.1.1-cdh6.3.2.jar`。这两个jar包分别是Hive执行引擎和ORC文件格式处理的实现,更新它们可能是为了修复特定版本中的...

    hive3资源包+安装文档

    hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,hive 在几百MB 的数据集上执行...

    Hue 常见问题解决方案,大数据平台的hue/hive常见问题总结 免费下载

    本文将围绕“Hue常见问题解决方案”这一主题,详细阐述Hue与Hive在大数据平台中可能遇到的问题以及相应的解决策略。 首先,我们来了解Hue的基本功能。Hue是Cloudera公司开发的一款开源Web应用程序,它提供了一个...

    Hive - A Warehousing Solution Over a Map-Reduce.pdf

    ### Hive:一种基于Map-Reduce的数据仓库解决方案 #### 一、引言 随着大数据时代的到来,数据集的规模正以前所未有的速度增长。这些数据不仅来自传统的商业领域,也涵盖了社交媒体、物联网等多个新兴领域。面对...

    Hive实现并发

    hive实现并发机制:hive里,同一sql里,会涉及到n个job,...如果每个job没有前后依赖关系,可以并发执行的话,可以通过设置该参数 set hive.exec.parallel=true,实现job并发执行,该参数默认可以并发执行的job数为8。

    Hive多字节分隔符解决方案.docx

    Hive多字节分隔符解决方案 Hive是一种基于Hadoop的数据仓库工具,用于存储和处理大量数据。然而,在加载数据到Hive表中时,我们可能会遇到多字节分隔符问题,即数据中的分隔符不是单字节的,而是多字节的。这种情况...

    基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

    需要注意的是,在HDFS客户端未实现多写的情况下,过多的Executor可能会导致核心资源浪费。 - **确定Executor核心数**:Cloudera建议设置`spark.executor.cores`为4、5或6,以尽可能减少空闲核心。假设集群共有155个...

    Hive常见错误及解决方案.docx

    Hive 常见错误及解决方案 Hive 是一个基于 Hadoop 的数据仓库工具,用于存储、查询和分析大规模数据。但是,在使用 Hive 过程中,经常会遇到一些常见错误,影响着整个项目的进度和效率。因此,本文将总结常见的 ...

Global site tag (gtag.js) - Google Analytics