hive dynamic partitions insert java.lang.OutOfMemoryError: Java heap space

lookqlp

浏览: 348757 次
性别:
来自: 上海

最近访客更多访客>>

jlbhdfsl

louShang123

ssydxa219

yc_zlj

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

cloudera
hadoop

hive dynamic partitions

动态分区问题，如果数据量大或者当动态分区大甚至只有十几个时，会出现如下异常：

2015-10-23 16:43:54,165 INFO [fetcher#10] org.apache.hadoop.mapreduce.task.reduce.ShuffleSchedulerImpl: assigned 20 of 34 to spark-03:13562 to fetcher#10
2015-10-23 16:43:54,166 WARN [main] org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hive (auth:SIMPLE) cause:org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#9
2015-10-23 16:43:54,167 WARN [main] org.apache.hadoop.mapred.YarnChild: Exception running child : org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#9
 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:134)
 at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:376)
 at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163)
 at java.security.AccessController.doPrivileged(Native Method)
 at javax.security.auth.Subject.doAs(Subject.java:415)
 at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1671)
 at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
Caused by: java.lang.OutOfMemoryError: Java heap space
 at org.apache.hadoop.io.BoundedByteArrayOutputStream.<init>(BoundedByteArrayOutputStream.java:56)
 at org.apache.hadoop.io.BoundedByteArrayOutputStream.<init>(BoundedByteArrayOutputStream.java:46)
 at org.apache.hadoop.mapreduce.task.reduce.InMemoryMapOutput.<init>(InMemoryMapOutput.java:63)
 at org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl.unconditionalReserve(MergeManagerImpl.java:304)
 at org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl.reserve(MergeManagerImpl.java:294)
 at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyMapOutput(Fetcher.java:511)
 at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyFromHost(Fetcher.java:329)
 at org.apache.hadoop.mapreduce.task.reduce.Fetcher.run(Fetcher.java:193)

参考issue：

https://issues.apache.org/jira/browse/MAPREDUCE-6108
https://issues.apache.org/jira/browse/MAPREDUCE-6447

源码：https://github.com/apache/hadoop/blob/trunk/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-core/src/main/java/org/apache/hadoop/mapreduce/task/reduce/MergeManagerImpl.java#L254

默认参数：https://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

mem参考http://stackoverflow.com/questions/24070557/what-is-the-relation-between-mapreduce-map-memory-mb-and-mapred-map-child-jav

参数理解：

mapreduce.map.java.opts   -xmx配置的  heap memory  cloudera mapreduce.map.java.opts.max.heap 一般设置java.opts为memory.mb的75%
mapreduce.reduce.java.opts  -xmx配置的  heap memory  cloudera mapreduce.reduce.java.opts.max.heap 一般设置java.opts为memory.mb的75%
mapreduce.map.memory.mb  1G默认
mapreduce.reduce.memory.mb 1G默认
mapreduce.reduce.memory.totalbytes

mapreduce.reduce.shuffle.parallelcopies shuffle开启的fetcher线程数 apache默认5，choudera默认10

mapreduce.reduce.shuffle.input.buffer.percent 默认0.7

mapreduce.reduce.shuffle.memory.limit.percent默认0.25

如上3个参数相乘得小于1，否则将报如上错。

将mapreduce.reduce.shuffle.parallelcopies调成5，可以解决此问题。

另外cloudera hive hive.stats.autogather默认为true，即插入数据时会优化统计，如此在大的动态分区时load数据后会有一段很长时间的统计，且操作hive元数据表，例如每个分区的文件数，行数等等。耗时比较长时可能会timeout，需要将其设成false。

详细查看 https://cwiki.apache.org/confluence/display/Hive/StatsDev。

分享到：

hive相关元数据迁移（mysql） | yarn NullPointerException

2015-10-26 18:03
浏览 3125
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hive-jdbc-1.1.0-cdh5.4.5-standalone.jar: Caused by: java.sql.SQLException: java.lang.ClassNotFoundException: org.apache.hive.jdbc.HiveDriver at com.trs.gateway.commons.hive.HiveFeature.getConnection(HiveFeature.java:57) at ...

数据库驱动常见错误"java.lang.ClassNotFoundException:解决了jsp连接Error establishing socket.: "java.lang.ClassNotFoundException: com.microsoft.jdbc.sqlserver.SQLServerDriver" 解决方案 [Microsoft][SQLServer 2000 Driver for JDBC]Error establishing socket. 解决了jsp连接　sql server 2000的问题

hadoop java.lang.UnsatisfiedLinkError: 解决方案：Exceptionin thread "main" java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeCo

hive-jdbc-2.1.0-standalone.jar: Caused by: java.sql.SQLException: java.lang.ClassNotFoundException: org.apache.hive.jdbc.HiveDriver at com.trs.gateway.commons.hive.HiveFeature.getConnection(HiveFeature.java:57) at ...

启动tomcat时错误: 代理抛出异常 : java.rmi.server.ExportException: Port already in use: 1099的解决办法: 　错误: 代理抛出异常错误: java.rmi.server.ExportException: Port already in use: 1099; nested exception is: java.net.BindException: Address already in use: JVM_Bind 　这里说的是1099端口被其它进程占用...

Could not resolve dependencies for project org.apache.hive:hive-exec:jar:2.3.0:: hive 开发UDF 使用maven工程引发jar包缺失 hive 开发UDF 使用maven工程引发jar包缺失

FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeExcepti: FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 解决方法 ...

cdh6.3.2升级hive至3.x后登陆HiveServer2连接失败.doc: [HiveServer2-Handler-Pool: Thread-55]: Error opening session: org.apache.hive.service.cli.HiveSQLException: Failed to open new session: java.lang.IllegalArgumentException: Cannot modify hive.query....

apache-hive-2.1.0-bin.tar.gz: 安装和配置Hive时，需要确保先安装了Java和Hadoop，并设置好相应的环境变量。然后，您可以根据需求配置Hive的metastore服务、Hive-site.xml配置文件，以及Hadoop的相关设置。一旦配置完成，就可以通过Hive CLI或...

apache-hive-3.1.3-bin.tar.gz: Apache Hive 是一个基于 Hadoop 的数据仓库工具，用于查询、管理和处理存储在 Hadoop 分布式文件系统（HDFS）中的大规模数据集。Hive 提供了一种结构化的数据模型和SQL-like 查询语言（HQL，Hive SQL），使得非...

Sqoop通过Phoenix导hbase数据到hive: 出现此问题时使用：java.lang.NullPointerException at org.json.JSONObject.(JSONObject.java:144) at org.apache.sqoop.util.SqoopJsonUtil.getJsonStringforMap(SqoopJsonUtil.java:43) at org.apache.sqoop....

SparkSQL通过Hive创建DataFrame: SparkSQL通过Hive创建DataFrame问题分析问题一 Caused by: org.apache.spark.sql.catalyst.analysis.NoSuchTableException: Table or view 'stu' not found in database 'default'; 分析：确实没有临时表View，...

apache-hive-2.1.1-bin.tar: apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tarapache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tarapache-hive-2.1.1-bin.tar apache-hive-2.1.1-...

apache-hive-3.1.2-bin.tar.gz: Apache Hive 是一个基于Hadoop的数据仓库工具，它允许用户通过SQL-like语法查询、管理大量结构化数据。在大数据处理领域，Hive 提供了一个灵活、可扩展的框架，使得数据分析人员能够对存储在Hadoop分布式文件系统...

apache-hive-2.3.7-bin.tar.gz: Apache Hive 是一个开源的数据仓库和分析工具，它构建在 Hadoop 生态系统之上，用于处理大规模数据集。Hive 提供了对结构化数据的存储、管理和分析能力，使得非编程背景的用户也能通过类 SQL 的查询语言（HQL，Hive ...

Hive错误之 Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误分析_xiaohu21的博客-CSDN博客.mht: Hive错误之 Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误分析_xiaohu21的博客-CSDN博客.mht

apache-hive-2.3.3-bin.tar.gz: 9. **Libraries**：包含各种依赖库，如Java库、SQL解析库、Hadoop相关库等，用于支持Hive的运行。在解压`apache-hive-2.3.3-bin`后，你会看到以下目录结构： - `bin`：包含可执行脚本，如启动和停止Hive服务的...

apache-hive-3.1.2-bin.tar.gz.zip: apache-hive-3.1.2-bin.tar.gz, 下载自：https://mirrors.bfsu.edu.cn/apache/hive/hive-3.1.2/，上传至CSDN备份，本资源下载后需要解压缩zip文件，才是原本的apache-hive-3.1.2-bin.tar.gz文件

atlas hive hook 编译依赖 apache-atlas-1.2.0-hive-hook.tar.gz: Hive Hook 是 Atlas 提供的一个关键组件，用于实现在 Apache Hive 操作时的元数据跟踪和审计。当你在处理 Hive 数据时，Hive Hook 可以捕获对表、分区等对象的创建、更新和删除操作，将这些元数据事件上报给 Atlas，...

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论