Spark OOM：java heap space，OOM:GC overhead limit exceeded

sjmz30071360

浏览: 124157 次
性别:
来自: 成都

最近访客更多访客>>

wuliao101

NoMoneyException

ella110727

chenyanfei

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

大数据

问题描述：

在使用spark过程中，有时会因为数据增大，而出现下面两种错误:

java.lang.OutOfMemoryError: Java heap space

java.lang.OutOfMemoryError：GC overhead limit exceeded

这两种错误之前我一直认为是executor的内存给的不够，但是仔细分析发现其实并不是executor内存给的不足，而是driver的内存给的不足。在standalone client模式下用spark-submit提交任务时（standalone模式部署时，默认使用的就是standalone client模式提交任务），我们自己写的程序（main）被称为driver，在不指定给driver分配内存时，默认分配的是512M。在这种情况下，如果处理的数据或者加载的数据很大（我是从hive中加载数据），driver就可能会爆内存，出现上面的OOM错误。

解决方法：

参考：http://spark.apache.org/docs/latest/configuration.html

方法一：在spark-submit中指定 --driver-memory memSize参数来设定driver的jvm内存大小，可以通过spark-submit --help查看其他可以设置的参数。

eg:

./spark-submit \
  --master spark://7070 \
  --class $MAIN_CLASS \
  --executor-memory 3G \
  --total-executor-cores 10 \
  --driver-memory 2g \
  --name $APP_NAME \
  --conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" \
  "$SPARK_APP_JAR"

方法二：在spark_home/conf/目录中，将spark-defaults.conf.template模板文件拷贝一份到/spark_home/conf目录下，命名为spark-defaults.conf，然后在里面设置spark.driver.memory memSize属性来改变driver内存大小。

eg:

 spark.master                       spark://master:7077
 spark.default.parallelism          10
 spark.driver.memory                2g
 spark.serializer                   org.apache.spark.serializer.KryoSerializer
 spark.sql.shuffle.partitions       50

spark执行任务时出现java.lang.OutOfMemoryError: GC overhead limit exceeded和java.lang.OutOfMemoryError: java heap space

最直接的解决方式就是在spark-env.sh中将下面两个参数调节的尽量大

export SPARK_EXECUTOR_MEMORY=6000Mexport SPARK_DRIVER_MEMORY=7000M

注意，此两个参数设置需要注意大小顺序：

SPARK_EXECUTOR_MEMORY < SPARK_DRIVER_MEMORY< yarn集群中每个nodemanager内存大小

总结一下Spark中各个角色的JVM参数设置：

(1)Driver的JVM参数：
    -Xmx，-Xms，如果是yarn- client模式，则默认读取spark-env文件中的SPARK_DRIVER_MEMORY值，-Xmx，-Xms值一样大小；如果是yarn- cluster模式，则读取的是spark-default.conf文件中的spark.driver.extraJavaOptions对应的JVM 参数值。
    PermSize，如果是yarn-client模式，则是默认读取spark-class文件中的JAVA_OPTS="-XX:MaxPermSize=256m $OUR_JAVA_OPTS"值；如果是yarn-cluster模式，读取的是spark-default.conf文件中的 spark.driver.extraJavaOptions对应的JVM参数值。
    GC 方式，如果是yarn-client模式，默认读取的是spark-class文件中的JAVA_OPTS；如果是yarn-cluster模式，则读取的是spark-default.conf文件中的spark.driver.extraJavaOptions对应的参数值。
以上值最后均可被spark-submit工具中的--driver-java-options参数覆盖。

(2)Executor的JVM参数：
    -Xmx，-Xms，如果是 yarn-client模式，则默认读取spark-env文件中的SPARK_EXECUTOR_MEMORY值，-Xmx，-Xms值一样大小；如果是yarn-cluster模式，则读取的是spark-default.conf文件中的 spark.executor.extraJavaOptions对应的JVM参数值。
    PermSize，两种模式都是读取的是spark-default.conf文件中的spark.executor.extraJavaOptions对应的JVM参数值。
    GC方式，两种模式都是读取的是spark-default.conf文件中的spark.executor.extraJavaOptions对应的JVM参数值。

(3)Executor数目及所占CPU个数
如果是yarn-client模式，Executor数目由spark-env中的SPARK_EXECUTOR_INSTANCES指定，每个实例的数目由SPARK_EXECUTOR_CORES指定；如果是yarn-cluster模式，Executor的数目由spark-submit工具的--num-executors参数指定，默认是2个实例，而每个Executor使用的CPU数目由--executor-cores指定，默认为1核。

分享到：

获取当前日期最初、最末时刻

2017-10-27 01:52
浏览 1616
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java内存溢出原因: - **错误日志**：`java.lang.OutOfMemoryError: Java heap space` 和 `java.lang.OutOfMemoryError: GC overhead limit exceeded` - **原因**：创建大量对象或者内存泄露可能导致Java堆空间不足。例如，大数据加载...

教你分析9种OOM常见原因及解决方案.docx: 2. GC Overhead Limit Exceeded 错误 * 原因分析：应用程序已经基本耗尽了所有可用内存，GC 也无法回收 * 解决方案：检查大对象的合理性、添加机器资源、做限流降级、找到持有的对象、修改代码设计 3. Permgen ...

高手总结的9种OOM常见原因及解决方案.docx: 高手总结了9种OOM常见原因及解决方案，涵盖Java heap space、GC overhead limit exceeded、Permgen space、Metaspace、Unable to create new native thread等多种情况。 1. Java heap space Java heap space错误...

【算法与数据结构】力扣763划分字母区间：C++实现字符串分割算法解析与代码示例: 内容概要：文章主要讲解了力扣763题——划分字母区间的解法。题目要求对字符串进行划分，使得每个字母只出现在一个子串中，并且这些子串是连续的。文中详细解释了算法的核心思想：从字符串的第一个字符开始，找到该字符最后一次出现的位置作为初始区间边界；然后遍历该区间内的所有字符，不断更新区间的右边界为当前字符最后出现位置的最大值，直到遍历结束，即得到一个完整的区间。最后通过示例代码演示了这一思路的具体实现方法，包括输入字符串、计算各字符最远出现位置、确定区间长度并输出结果等步骤。; 适合人群：对算法和数据结构有一定了解，特别是正在准备编程竞赛或面试的程序员。; 使用场景及目标：①理解划分字母区间的贪心算法思想；②掌握如何通过查找字符最后出现位置来构建不重叠的最优区间；③学习C++语言中字符串操作函数如rfind()的应用；阅读建议：在阅读时应重点关注算法的设计思路及其背后的逻辑，同时注意代码细节，如循环条件、边界处理等，可以尝试自己动手实现一遍加深理解。

base(1).apk.1: base(1).apk.1

(源码)基于C语言的STM32开发板功能支持库.zip: # 基于C语言的STM32开发板功能支持库 ## 项目简介本项目是针对STM32微控制器的开发板支持库，涵盖多种功能模块，像GPIO控制、LCD驱动、串行通信等。为开发者提供丰富库函数与示例代码，简化STM32微控制器开发流程。 ## 项目的主要特性和功能 1. GPIO控制可进行GPIO初始化、配置、读写及引脚锁定，方便控制引脚状态。 2. LCD驱动支持多种LCD型号，能完成初始化、设置颜色、显示字符、绘制图形等操作。 3. 串行通信提供串行通信端口初始化、配置与通信功能，支持USART等协议。 4. IO扩展器支持STMPE811等IO扩展器驱动，具备IO读写、Joystick配置等功能。 5. 时钟管理可进行系统时钟配置与管理，包括时钟源选择、分频因子设置。 6. 任务调度实现实时多任务操作系统（uCOS II）核心功能，如任务创建、删除等。 7. 同步机制提供事件标志、消息邮箱、互斥锁、队列和信号量等同步机制，用于任务间通信与同步。

(源码)基于Linux内核的MaliG610 GPU模拟及性能分析系统.zip: # 基于Linux内核的MaliG610 GPU模拟及性能分析系统 ## 项目简介本项目名为kbasevalhall，主要用于模拟一个MaliG610（用于RK3588）GPU。它提供了创建和初始化时间线对象的功能，可用于跟踪和记录GPU设备的状态与操作序列，为GPU的性能分析和调试提供有效工具。 ## 项目的主要特性和功能 1. 模拟MaliG610 GPU通过项目代码可以模拟出MaliG610 GPU，为相关开发和测试提供环境。 2. 时间线对象管理创建并初始化多种时间线对象，如逻辑处理单元（LPU）、地址空间（AS）和GPU对象等，用于跟踪GPU设备状态。 3. 上下文跟踪遍历设备中的所有上下文，为每个上下文创建新的时间线对象，跟踪地址空间分配和内核处理器队列状态信息。 4. 数据传输刷新所有流，确保摘要包传输到用户空间，方便应用程序访问GPU性能数据。

(源码)基于Arduino的恐龙游戏.zip: # 基于Arduino的恐龙游戏 ## 项目简介此项目是一个基于Arduino的恐龙游戏版本开发。包含了与游戏角色、场景元素相关的图形定义文件。通过二进制形式定义了游戏角色（如恐龙、角色腿等）以及场景元素（如云）的形状。这些图形定义被存储在AVR微控制器的PROGMEM中，用于游戏或应用程序的开发。 ## 项目的主要特性和功能 1. 图形定义项目包含多个图形定义文件，用于描述游戏角色和场景元素的形状。 2. 二进制图形表示所有的图形数据都以二进制形式存储，适用于在AVR微控制器上运行的游戏或应用程序。 3. 游戏角色和场景元素包括恐龙角色的主要形状、腿的形状，以及不同大小的云等场景元素。 ## 安装使用步骤由于此项目为源码文件，用户已经拥有项目的全部代码，接下来可以按照以下步骤进行安装和使用 1. 导入源码将源码文件导入Arduino开发环境。 2. 修改和优化根据需要进行修改和优化代码，以适应特定的硬件或功能需求。

(源码)基于AVR单片机的自动搅拌杯系统.zip: # 基于AVR单片机的自动搅拌杯系统 ## 项目简介本项目针对传统手动搅拌杯需频繁按压按钮搅拌饮品的不便，利用AVR单片机（ATtiny13和ATmega328p）打造了自动搅拌杯系统。该系统通过简单电路控制电机和LED灯，实现自动搅拌功能，同时具备低功耗特性，延长电池使用寿命。 ## 项目的主要特性和功能 1. 多模式自动搅拌可通过按钮切换不同的搅拌模式，如电机持续开启、每隔30秒开启5秒、每隔1分钟开启5秒、每隔1分30秒开启5秒等。 2. LED状态指示LED灯以不同频率闪烁，直观显示当前的工作模式。 3. 低功耗运行在Power Down模式下，ATtiny13仅消耗0.5uA电流，确保长时间闲置时电池电量的有效保存。 4. 时间可调节能够通过修改代码中的相关参数，灵活调整电机搅拌时间和LED闪烁时间。 ## 安装使用步骤 ### 安装

(源码)基于Node.js和IoT的心率监测系统.zip: # 基于Node.js和IoT的心率监测系统 ## 项目简介基于Node.js和IoT的心率监测系统是一个低成本的物联网（IoT）应用，旨在全天候监测用户的心率和血氧饱和度。该系统通过心率和血氧传感器定期提醒用户进行测量，并将数据传输到Web应用程序中供用户查看。用户可以配置测量时间和频率，Web应用程序采用响应式设计，支持桌面、平板和移动设备。 ## 项目的主要特性和功能 IoT集成使用低成本的IoT设备与心率和血氧传感器协同工作。周期性提醒全天候提醒用户在可配置的时间间隔内进行测量。响应式设计Web应用程序设计为在不同设备上提供一致的用户体验。数据传输和监控测量数据传输到Web应用程序，供用户监控。 ## 安装使用步骤 ### 1. 复制项目仓库 bash ### 2. 进入项目目录 bash cd 413FinalProject ### 3. 安装依赖 bash

基于LaTeX的Python与Shell脚本个人简历设计源码: 该项目是一个基于LaTeX的个人简历设计源码，集成了Python和Shell脚本功能，共包含54个文件，包括14个OTF字体文件、8个样式文件、8个TeX源文件、6个PDF文档、5个GZ压缩文件、2个JPG图片文件、1个BST模板文件、1个LICENSE授权文件、1个Makefile构建文件、1个Markdown文件。该项目适用于个人简历制作，提供专业的排版和个性化设计。

FLAC 3D流固耦合技术在近断层隧道围岩稳定性分析中的应用及代码解析: 内容概要：本文详细介绍了利用FLAC 3D进行近断层隧道围岩稳定性的流固耦合分析方法。首先构建了三维网格并设置了摩尔-库仑本构模型和相关材料参数，接着对断层带进行了特殊处理，降低了其力学性能。文中重点讲解了流固耦合的具体设置步骤，包括开启流体模式、设置水的物理属性以及孔隙水压初始化等。此外，还展示了如何通过历史记录和绘图功能监控计算过程中的重要参数变化，并提供了防止数值不稳定的经验建议。最后，作者分享了一个实际案例，强调了流固耦合分析对于提高隧道安全性和优化设计方案的重要性。适合人群：从事地下工程、岩土工程领域的研究人员和技术人员，尤其是那些需要掌握复杂地质条件下隧道稳定性评估技能的专业人士。使用场景及目标：适用于研究和解决靠近断层带的隧道工程项目中存在的围岩失稳风险问题，旨在帮助工程师更好地理解和预测隧道在渗流水作用下的行为，从而制定合理的支护措施。其他说明：文章不仅涵盖了理论知识，还包括大量实用的操作技巧和注意事项，有助于读者将所学应用于实际工作中。同时，文中提供的完整代码片段便于读者动手实践，加深理解。

2001-2023年上市公司-数字化转型工具变量: 数字化转型是指企业或个人利用数字技术，如大数据、云计算、人工智能等，对其业务流程、运营模式、决策方式等进行全面、深入的变革，以提高效率、降低成本、提升质量、增强竞争力。在这个过程中，工具变量扮演着至关重要的角色。本数据包含：原始数据、参考文献、代码do文件、最终结果。指标企业代码企业代码年份股票简称企业数字化转型程度。基于吴非方法构建工具变量：同行业其他企业数字化转型程度的均值工具变量：同行业数字化转型程度的均值工具变量：同行业同年份其他企业数字化转型程度的均值工具变量：同行业同年份数字化转型程度的均值工具变量：同地区同行业同年份数字化转型程度的均值工具变量：同地区同行业同年份其他企业数字化转型程度的均值行业名称制造业取两位代码，其他行业用大类

bellsoft-jdk17.0.15+10-windows-amd64.msi: BellSoft Liberica JDK 是一个经过严格测试和验证的 OpenJDK，它完全符合 Java SE 规范，在Linux, Windows, macOS, 和 Solaris 操作系统上运行无误

(源码)基于Azure和Kubernetes的乐高小人检测系统.zip: # 基于Azure和Kubernetes的乐高小人检测系统 ## 项目简介本项目是一个基于Azure和Kubernetes的乐高小人检测系统。项目结合了Azure机器学习服务进行模型训练和部署，利用Kubernetes进行集群管理和容器编排。通过ESP32CAM或树莓派作为图像采集设备，将采集到的图像发送到模型进行检测，并通过一个简单的网页展示检测结果。 ## 项目的主要特性和功能 1. 基础设施搭建支持Kubernetes集群和Azure环境的搭建，包括资源组、日志分析工作区、Arc连接的Kubernetes等资源的创建。 2. 模型训练使用Azure机器学习服务进行模型训练，支持自动机器学习（AutoML）功能，可同时尝试多种模型和超参数组合，提高模型性能。 3. 图像采集支持使用ESP32CAM或树莓派进行图像采集，并将采集到的图像存储到Kubernetes主节点。 4. 对象检测使用训练好的模型对采集到的图像进行乐高小人检测，并在网页上展示检测结果。

h5py-3.1.0-cp36-cp36m-macosx_10_9_x86_64.whl: 该资源为h5py-3.1.0-cp36-cp36m-macosx_10_9_x86_64.whl，欢迎下载使用哦！

【GitHub代码托管平台】从入门到精通：涵盖注册、仓库创建、客户端配置、SSH密钥设置、代码管理全流程及协作开发技巧: 内容概要：本文详细介绍了GitHub从入门到精通的各个方面，涵盖新手指南、核心操作、进阶技巧、实用工具与资源推荐以及常见问题解决方案。新手指南部分讲述了如何注册账号、创建仓库、安装配置客户端及SSH密钥配置；核心操作部分重点讲解了本地仓库初始化、版本提交与推送、文件状态与历史查看；进阶技巧部分探讨了分支管理策略、协作开发流程及冲突解决方法；实用工具与资源推荐部分介绍了GitHub Actions、GitHub Pages、GitHub Copilot等官方工具链，以及多个优秀学习资源库；常见问题解决方案部分则提供了关于权限问题处理和代码回滚方法的具体步骤。适合人群：适用于初次接触GitHub的新手开发者，以及希望深入了解GitHub高级功能、提高团队协作效率的中高级开发者。使用场景及目标：①帮助新手快速上手GitHub，掌握创建和管理仓库的基本技能；②教会用户如何进行版本控制、提交代码、查看历史记录等核心操作；③指导开发者进行高效的分支管理和团队协作，解决冲突并优化工作流程；④推荐实用工具和学习资源，提升开发效率和个人技能；⑤解决权限和代码回滚等常见问题，确保项目顺利进行。阅读建议：本文内容详实，覆盖范围广，建议读者根据自身需求选择性阅读。对于初学者，可以从新手指南开始逐步学习；对于有一定经验的开发者，可以直接跳转到感兴趣的部分，如进阶技巧或实用工具章节。在学习过程中，结合实际操作进行练习，以加深理解和记忆。

生物医学信号处理：Matlab实现心电信号ECG去噪的低通滤波与小波分解方法: 内容概要：本文深入探讨了心电信号（ECG）去噪的技术实现，特别是在生物医学信号处理领域的应用。文中介绍了两种主要的去噪方法：低通滤波和小波分解。首先，通过低通滤波器去除高频噪声如肌电干扰和工频干扰，保留低频的心电信号特征。其次，利用小波分解将信号分解到不同频率子带，通过阈值处理去除噪声并重构信号。此外，还展示了如何在Matlab中实现这些方法，并提供了详细的代码示例。为了增强用户体验，作者还开发了一个带有操作界面的工具，支持时域和频域波形的显示，并附有操作视频。适合人群：从事生物医学工程、信号处理的研究人员和技术人员，尤其是那些对心电信号处理感兴趣的初学者和中级开发者。使用场景及目标：适用于需要对心电信号进行预处理的研究和应用场景，如医疗设备开发、健康监测系统等。目标是提高心电信号的质量，减少噪声干扰，从而提升后续分析的准确性。其他说明：文中不仅提供了理论解释，还有具体的代码实现和操作指南，帮助读者更好地理解和应用这些技术。

基于Comsol的圆柱卷绕式锂电池结构与性能仿真分析: 内容概要：本文详细介绍了圆柱卷绕式锂电池的结构特点及其在Comsol Multiphysics中的建模与仿真方法。文章首先阐述了圆柱卷绕式电池的基本构成，包括正极、负极、隔膜、集流体和极耳的作用。接着，通过具体的Comsol建模步骤，如导入几何模型、定义材料属性、设置边界条件、模拟电流分布等，展示了如何利用Comsol进行电池性能的仿真分析。特别强调了极耳设计对电池性能的重要影响，并通过实例演示了如何优化极耳布局以提高电池效率。此外，文章还探讨了多物理场耦合仿真在电池热管理和电流分布优化中的应用。适合人群：从事电池研究、仿真分析的技术人员以及对锂电池建模感兴趣的科研工作者。使用场景及目标：适用于希望深入了解圆柱卷绕式锂电池内部结构和工作原理的研究人员和技术人员。通过仿真分析，能够优化电池设计，提高电池性能，特别是在极耳布局和热管理方面。其他说明：文中提供了多个Comsol建模的具体代码示例，有助于读者快速上手并进行实际操作。同时，文章还讨论了一些常见的建模难题及解决方案，如薄层网格划分和多物理场耦合等问题。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论