Netty OOM案例
问题:最近公司某产品商用发布在即,连续性能测试1个小时左右,开始发生时延变大、应答消息丢失等问题,最后抛出OOM异常,服务端宕机。
异常日志如下:
问题分析
通过异常堆栈和HeapAnalyzer工具分析,发现是Netty的内存池直接内存溢出,由于业务的消息接收和发送ByteBuf都使用了内存池直接内存,首先排查消息接收ByteBuf,业务处理流程如下:
1、业务的解码器继承自LengthFieldBasedFrameDecoder,根据报文中的消息长度做半包解码,解码成功之后将消息投递到后端业务线程池;
2、业务没有主动释放消息接收ByteBuf, 由于Netty解码之后会主动释放ByteBuf,所以不主动释放也没问题
排查完消息接收之后,再查看消息发送。消息发送流程是对请求消息包装之后,编码转发给其它第三方模块,消息发送采用了1个独立的发送线程,在发送线程中通过Netty的NioSocketChannel直接write ByteBuf,ByteBuf在发送线程中分配,发送完成之后没有调用release方法主动释放内存。
示例代码如下:
execut.execute(new Runnable() {
@Override
public void run() {
ByteBuf buf = PooledByteBufAllocator.DEFAULT.buffer(1024 * 1024);
CodeC.endcode(sendMessage, buf);
channel.write(buf);
//后续业务逻辑处理,没有主动释放内存
}
});
在业务线程中通过内存池申请了一个直接内存,编码发送之后并没有主动释放内存,是否有问题? 我们继续看Netty的源码:
通过代码分析,我们发现当Netty的ChannelOutboundBuffer将ByteBuf发送之后,会将ByteBuf从Entry[] buffer 中删除,同时调用safeRelease方法将ByteBuf释放。即便业务代码不主动释放发送的ByteBuf,Netty也会帮助用户释放,不应该发生内存泄漏啊?!
查看业务的Netty版本,发现业务使用的是Netty 4.0.X版本,突然想到了前段时间Netty 4内存池泄漏问题:在业务线程中通过内存池申请内存,又在Netty的NIO线程中释放内存,这会导致内存泄漏。该问题是Netty 4内存池机制和线程模型优化导致的问题,原理如下:
使用Netty 4.X +版本的内存池,内存的申请和释放必须要在同一个线程中,否则会导致内存引用错乱、内存溢出等问题。
问题定位出来之后,将内存池ByteBuf申请的代码迁移到ChannelHandler的CodeC中,由Netty的NIO线程统一申请和释放。优化之后,性能测试72个小时,内存占用平稳、GC正常,问题解决。
随后进行压力测试,客户端启动N个线程,使用同一个SocketChannel对服务端进行压测,24小时之后又发生了OOM异常,分析之后仍然是内存池的直接内存泄漏,怎么回事?
通过定位发现,在压力测试模式下,消息发送速度大于消息接收处理的速度,也就是说ByteBuf的申请速度大于释放速度,这导致了内存池不断膨胀,最终内存溢出。
如何解决这个问题? 业务建议通过调大服务端work线程数的方式提升服务端并行处理性能,但实际行不通。因为对于单链路场景,1个链路只被某一个work线程处理,增加work线程是没有效果的。
既然通过增大服务端线程数无法解决问题,那有没有更好的解决办法?方法有三个:
1、放弃内存池,使用非内存池模式;
2、动态流量控制;
3、采用多链路的方式。
使用非内存池模式,内存最终被JVM回收,而不是缓存在线程中,因而只要堆内存设置合适就可以解决内存溢出问题。
动态流控方案:可以使用Netty默认提供的流量整形功能,它可以解决两个问题:
1、防止由于上下游网元性能不均衡导致下游网元被压垮,业务流程中断
2、防止由于通信模块接收消息过快,后端业务线程处理不及时导致的“撑死”问题
原理如下:
多链路方案:通过调大服务端work线程个数,提升服务端的并行处理性能,满足高峰期的浪涌冲击。
案例总结
尽管Netty使用起来比较简单,但是如何在高并发和负载情况下保证系统平稳运行,却是并非一件易事。
除了完善的性能测试、压力测试之外,对Netty底层处理机制的理解和Code Review也是必不可少的。
相关推荐
Netty OOM案例 ##### 14.1 问题描述 Netty运行过程中出现OutOfMemoryError错误。 ##### 14.2 问题分析 分析OOM错误的原因,可能涉及内存泄露、大对象分配等问题。 ##### 14.3 问题总结 总结OOM错误的解决方法...
本文将深入探讨几个重要的性能分析和调优案例,这些案例涵盖了CPU热点分析、线程分析和内存分析。 ### CPU热点分析 #### 死循环导致高CPU 在某些情况下,程序中的死循环会导致单个CPU消耗达到100%。例如,Netty在...
轴类零件加工工艺设计.zip
资源内项目源码是来自个人的毕业设计,代码都测试ok,包含源码、数据集、可视化页面和部署说明,可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源,毕设答辩评审绝对信服的保底85分以上,放心下载使用,拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务,拿来就能用的绝对好资源!!! 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.txt文件,仅供学习参考, 切勿用于商业用途。
seaborn基本绘图人力资源数据集
移动机器人(sw三维)
自制html网页源代码查看器
3吨叉车的液压系统设计().zip
1_实验三 扰码、卷积编码及交织.ppt
北京交通大学软件学院自命题科目考试大纲.pdf
雅鲁藏布江流域 shp矢量数据 (范围+DEM).zip
基于RUST的数据结构代码示例,栈、队列、图等
NIFD:2024Q1房地产金融报告
详细介绍及样例数据:https://blog.csdn.net/li514006030/article/details/146916652
【工业机器视觉定位软件Vision-Detect】基于C#的WPF与Halcon开发的工业机器视觉定位软件(整套源码),开箱即用 有用户登录,图片加载,模板创建,通讯工具,抓边抓圆,良率统计,LOG日志,异常管理,九点标定和流程加载保存等模块,功能不是很完善,适合初学者参考学习。 资源介绍请查阅:https://blog.csdn.net/m0_37302966/article/details/146912206 更多视觉框架资源:https://blog.csdn.net/m0_37302966/article/details/146583453
内容概要:本文档详细介绍了Java虚拟机(JVM)的相关知识点,涵盖Java内存模型、垃圾回收机制及算法、垃圾收集器、内存分配策略、虚拟机类加载机制和JVM调优等内容。首先阐述了Java代码的编译和运行过程,以及JVM的基本组成部分及其运行流程。接着深入探讨了JVM的各个运行时数据区,如程序计数器、Java虚拟机栈、本地方法栈、Java堆、方法区等的作用和特点。随后,文档详细解析了垃圾回收机制,包括GC的概念、工作原理、优点和缺点,并介绍了几种常见的垃圾回收算法。此外,文档还讲解了JVM的分代收集策略,新生代和老年代的区别,以及不同垃圾收集器的工作方式。最后,文档介绍了类加载机制、JVM调优的方法和工具,以及常用的JVM调优参数。 适合人群:具备一定Java编程基础的研发人员,尤其是希望深入了解JVM内部机制、优化程序性能的技术人员。 使用场景及目标:①帮助开发人员理解Java代码的编译和执行过程;②掌握JVM内存管理机制,包括内存分配、垃圾回收等;③熟悉类加载机制,了解类加载器的工作原理;④学会使用JVM调优工具,掌握常用调优参数,提升应用程序性能。 其他说明:本文档内容详尽,适合用作面试准备材料和技术学习资料,有助于提高开发人员对JVM的理解和应用能力。
Android项目原生java语言课程设计,包含LW+ppt
戴德梁行&中国房地产协会:2021亚洲房地产投资信托基金研究报告
Android项目原生java语言课程设计,包含LW+ppt
Thinkphp6.0+vue个人虚拟物品发卡网站源码 支持码支付对接 扫码自动发货 源码一共包含两个部分thinkphp6.0后端文件,以及vue前端文件.zip