`

java线上常见问题定位

    博客分类:
  • java
阅读更多
一  线上常见问题定位

常见问题 1:CPU 利用率高

CPU 使用率是衡量系统繁忙程度的重要指标,一般情况下单纯的 CPU 高并没有问题,它代表系统正在不断的处理我们的任务,但是如果 CPU 过高,导致任务处理不过来,从而引起 load 高,这个是非常危险需要关注的。 CPU 使用率的安全值没有一个标准值,取决于你的系统是计算密集型还是 IO 密集型,一般计算密集型应用 CPU 使用率偏高 load 偏低,IO 密集型相反。

问题原因及定位:

1  频繁 FullGC/YongGC



查看 gc 日志



jstat -gcutil pid  查看内存使用和 gc 情况


2  代码消耗,如死循环,md5 等内存态操作



1)arthas (已开源:https://github.com/alibaba/arthas)



thread -n 5  查看 CPU 使用率最高的前 5 个线程(包含堆栈,第二部分有详解)



2)jstack 查找



ps -ef | grep java  找到 Java 进程 id



top -Hp pid  找到使用 CPU 最高的线程



printf ‘0x%x’  tid  线程 id 转化 16 进制



jstack pid | grep tid  找到线程堆栈

                  



ps:输入“1”可查看每个 CPU 的情况,之前有团队遇到单个 CPU 被中间件绑定导致 CPU 飚高的 case。

常见问题 2:load 高

load 指单位时间内活跃进程数,包含运行态(runnable 和 running)和不可中断态( IO、内核态锁)。关键字是运行态和不可中断态,运行态可以联想到 Java 线程的 6 种状态,如下,线程 new 之后处于 NEW 状态,执行 start 进入 runnable 等待 CPU 调度,因此如果 CPU 很忙会导致 runnable 进程数增加;不可中断态主要包含网络 IO、磁盘 IO 以及内核态的锁,如 synchronized 等。




问题原因及定位:

1  CPU 利用率高,可运行态进程数多

排查方法见常见问题一



2  iowait,等待 IO



vmstat  查看 blocked 进程状况



jstack -l pid | grep BLOCKED  查看阻塞态线程堆栈


3  等待内核态锁,如 synchronized

jstack -l pid | grep BLOCKED  查看阻塞态线程堆栈


profiler  dump 线程栈,分析线程持锁情况


常见问题 3:持续 FullGC

在了解 FullGC 原因之前,先花一点时间回顾下 jvm 的内存相关知识:

内存模型

新 new 的对象放在 Eden 区,当 Eden 区满之后进行一次 MinorGC,并将存活的对象放入 S0;


当下一次 Eden 区满的时候,再次进行 MinorGC,并将存活的对象和 S0 的对象放入S1(S0 和 S1 始终有一个是空的);


依次循环直到 S0 或者 S1 快满的时候将对象放入 old 区,依次,直到 old 区满进行 FullGC。


jdk1.7 之前 Java 类信息、常量池、静态变量存储在 Perm 永久代,类的原数据和静态变量在类加载的时候放入 Perm 区,类卸载的时候清理;在 1.8 中,MetaSpace 代替 Perm 区,使用本地内存,常量池和静态变量放入堆区,一定程度上解决了在运行时生成或加载大量类造成的 FullGC,如反射、代理、groovy 等。


回收器

年轻代常用 ParNew,复制算法,多线程并行;

老年代常用 CMS,标记清除算法(会产生内存碎片),并发收集(收集过程中有用户线程产生对象)。

关键常用参数

CMSInitiatingOccupancyFraction 表示老年代使用率达到多少时进行 FullGC;


UseCMSCompactAtFullCollection 表示在进行 FullGC 之后进行老年代内存整理,避免产生内存碎片。


问题原因及定位:

1  prommotion failed

从S区晋升的对象在老年代也放不下导致 FullGC(fgc 回收无效则抛 OOM)。


1)survivor 区太小,对象过早进入老年代。



jstat -gcutil pid 1000  观察内存运行情况;


jinfo pid  查看 SurvivorRatio 参数;


2)大对象分配,没有足够的内存。



日志查找关键字 “allocating large”;


profiler  查看内存概况大对象分布;


3)old 区存在大量对象。

实例数量前十的类:jmap -histo pid | sort -n -r -k 2 | head -10


实例容量前十的类:jmap -histo pid | sort -n -r -k 3 | head -10


dump 堆,profiler 分析对象占用情况



2  concurrent mode failed

在 CMS GC 过程中业务线程将对象放入老年代(并发收集的特点)内存不足。详细原因:

1)fgc 触发比例过大,导致老年代占用过多,并发收集时用户线程持续产生对象导致达到触发 FGC 比例。



jinfo  查看 CMSInitiatingOccupancyFraction 参数,一般 70~80 即可


2)老年代存在内存碎片。


jinfo  查看 UseCMSCompactAtFullCollection 参数,在 FullGC 后整理内存


常见问题 4:线程池满

Java 线程池以有界队列的线程池为例,当新任务提交时,如果运行的线程少于 corePoolSize,则创建新线程来处理请求。如果正在运行的线程数等于 corePoolSize 时,则新任务被添加到队列中,直到队列满。当队列满了后,会继续开辟新线程来处理任务,但不超过 maximumPoolSize。当任务队列满了并且已开辟了最大线程数,此时又来了新任务,ThreadPoolExecutor 会拒绝服务。

问题原因及定位:

1  下游 RT 高,超时时间不合理

业务监控



sunfire



eagleeye


2  数据库慢 sql 或者数据库死锁

日志关键字 “Deadlock found when trying to get lock”


Jstack 或 zprofiler 查看阻塞态线程


3  Java 代码死锁

jstack –l pid | grep -i –E 'BLOCKED | deadlock'


dump thread 通过 zprofiler 分析阻塞线程和持锁情况


常见问题 5:NoSuchMethodException

问题原因及定位:

1  jar 包冲突

java 在装载一个目录下所有 jar 包时,它加载的顺序完全取决于操作系统。

mvn dependency:tree  分析报错方法所在的 jar 包版本,留下新的


arthas:sc -d ClassName


XX:+TraceClassLoading


2  同类问题

ClassNotFoundException



NoClassDefFoundError



ClassCastException


二  常用工具介绍

常用命令

1  tail

-f   跟踪文件


2  grep

-i   忽略大小写


-v  反转查找


-E  扩展正则表达式 :grep -E 'pattern1|pattern2' filename


3  pgm

-b  开启并发


-p  指定并发数


-A  开启 askpass


4  awk

-F  指定分隔符:awk -F “|”  '{print $1}‘ | sort -r | uniq -c


5  sed

时间段匹配:sed '/2020-03-02 10:00:00/,/2020-03-02 11:00:00/p' filename


arthas

阿里巴巴开源 Java 诊断工具(开源地址:https://github.com/alibaba/arthas),基于 javaAgent 方式,使用 Instrumentation 方式修改字节码方式进行 Java 应用诊断。

基础功能介绍

dashboard:系统实时数据面板, 可查看线程,内存,gc 等信息


thread:jvm 线程堆栈信息,如查看最繁忙的前 n 线程


getstatic:获取静态属性值,如 getstatic className attrName 可用于查看线上开关真实值


sc:查看 jvm 已加载类信息,可用于排查 jar 包冲突


sm:查看 jvm 已加载类的方法信息


jad:反编译 jvm 加载类信息,排查代码逻辑没执行原因


watch:观测方法执行数据,包含出入参,异常等;


watch xxxClass xxxMethod " {params, throwExp} "  -e -x 2

watch xxxClass xxxMethod "{params,returnObj}" "params[0].sellerId.equals('189')" -x 2

watch xxxClass xxxMethod sendMsg '@com.taobao.eagleeye.EagleEye@getTraceId()'

trace:方法内部调用时长,并输出每个节点的耗时,用于性能分析


tt:用于记录方法,并做回放


三  常见问题恢复

1  线程池满


rpc 框架线程池满


高 RT 接口进行线程数限流


应用内线程池满


重启可短暂缓解,具体还得看问题原因


2  CPU 高,load 高

单机置换或重启,可短暂缓解,恢复看具体原因


集群高且流量大幅增加,扩容,恢复看具体原因


3  下游 RT 高

限流


降级


4  数据库

死锁


kill 进程


慢 sql


sql 限流


线上问题的排查是一个积累的过程,只有了解问题背后的原理才能更快速的定位和恢复,除此之外更需要有一些趁手的工具来辅助排查,从而降低整个团队问题定位和快恢的门槛。

转载自:https://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247495546&idx=1&sn=f435f56c3b92802ef649cd14bb60711b&chksm=e92ad275de5d5b63b9fc1e48463044ea1b234a4f28d0ad8d7964c42516f1cf7cae47c60162dc&scene=21#wechat_redirect
分享到:
评论

相关推荐

    Java线上故障排查方案(2).pdf

    首先,了解Java线上常见问题的分类是非常重要的。在生产环境中,问题可大致分为系统异常和业务异常两大类。系统异常通常指的是CPU占用率过高、磁盘使用率100%、系统可用内存低等情况;而业务异常则可能包括服务运行...

    Java线上故障排查方案.pdf

    Java线上故障排查是一项复杂而关键的任务,需要系统地收集和分析信息,以便快速定位并解决问题。文档中提到的各个知识点将帮助我们深入了解如何在Java环境中有效进行线上故障排查。 首先,文档提到了几种常见的排查...

    线上系统性问题定位与方法论.docx

    常见的问题排查工具箱包括 CPU:top –Hp、系统内存:free –m、IO:iostat、磁盘:df –h、网络链接:netstat、gc:jstat –gcutil、线程:jstack、Java 内存:jmap 等。 本文提供了一套相对有规律的问题定位处理...

    线上故障定位分析全套方案

    线上故障定位分析是IT运维中的重要环节,当系统出现异常时,快速准确地定位问题能够大大减少业务中断的时间,提高系统的稳定性和用户满意度。本文将详细介绍一套线上故障排查的全面方案,涵盖CPU、磁盘、内存和网络...

    深入理解Java源码:提升技术功底,深度掌握技术框架,快速定位线上问题

    总之,通过深入理解Java源码,特别是像Netty这样的高性能框架,我们可以提升技术基础,加快对新技术的掌握,快速定位和解决线上问题,甚至参与到开源社区的贡献,提升自己的专业水平和人际网络。无论是个人成长还是...

    线上服务CPU100%问题快速定位实战

    在IT运维领域,性能问题是常见的挑战之一,特别是在线上服务出现CPU利用率飙升至100%的情况下,快速准确地定位问题变得尤为重要。本文将详细介绍一种实战演练的方法,用于定位线上服务中的高CPU使用率问题,并通过...

    线上问题处理常用SQL

    在IT行业中,数据库管理和SQL...理解并掌握这些知识,不仅能帮助快速定位和解决问题,还能提升数据库管理的效率,确保线上服务的稳定运行。通过不断学习和实践,我们可以成为更优秀的数据库管理者和问题解决者。

    2021030516_基于java和mysql数据库的线上选课系统.rar

    系统还应该有完善的日志记录,便于追踪和定位问题。 综上所述,“2021030516_基于Java和MySQL数据库的线上选课系统”是一个集成了Java编程语言、MySQL数据库和现代Web技术的教育信息化解决方案。它充分体现了Java的...

    线上问题排查思路.pdf

    Arthas是一款功能强大且灵活的在线问题排查工具,它可以帮助开发者快速定位和解决在线问题。本文将详细介绍Arthas在线问题排查思路,包括常见的排查场景、改进策略和排查思路。 常见的排查场景 在实际开发中,我们...

    [OOM] 记一次线上OOM的问题 - ado19861

    在Java开发过程中,内存溢出(Out Of Memory,简称OOM)是常见的问题之一,它会导致应用程序崩溃或性能急剧下降。本文将详细探讨一个线上出现的OOM问题,以及如何通过日志分析、使用Eclipse的Memory Analyzer Tool...

    Java内存管理问题案例分享_技术大学.pdf

    在本案例分享中,我们将详细介绍Java内存的结构、内存管理的常用参数、内存问题排查工具以及如何解决常见内存问题。 首先,我们来了解Java内存的几个关键区域。Java运行时数据区分为几个部分,包括堆(Heap)、栈...

    Arthas(阿尔萨斯)是阿里巴巴开源的 Java 诊断工具.rar

    对分秒必争的线上异常, Arthas可帮助我们快速诊断相关问题。 公司有个渠道系统,专门对接三方渠道使用,没有什么业务逻辑,主要是转换报文和参数校验之类的工作,起着一个承上启下的作用。 最近在优化接口的响应...

    arthas培训文档arthas培训文档

    Arthas是一款强大的Java线上诊断工具,由Alibaba开源,它提供了多种功能,帮助开发者在不重启应用的情况下高效地解决线上问题。Arthas的使用可以极大提高问题定位和排查的效率,对于企业内部的运维和开发人员来说...

    线上故障排查全套路,总有一款适合你1

    当CPU使用率过高时,通常需要通过`jstack`分析线程堆栈来定位问题。可以使用`ps`找到目标进程的PID,然后使用`top -H -p pid`找出CPU占用高的线程。将PID转换为16进制后,通过`jstack pid | grep 'nid' -C5 --color`...

    支付宝电脑网页付款javademo

    10. **日志记录**:在Java Demo中,记录接口调用的日志是非常重要的,它可以帮助开发者在出现问题时快速定位和解决问题。 以上就是基于"支付宝电脑网页付款Java Demo"的相关知识点。在实际开发中,还需要关注支付宝...

    java开发的日志

    Java开发中的日志系统是软件开发过程中的重要组成部分,它为开发者提供了跟踪程序运行状态、定位问题和调试代码的关键工具。Log4j是Java领域广泛使用的日志框架之一,尤其在企业级应用中非常常见。本文将深入探讨Log...

Global site tag (gtag.js) - Google Analytics