昨天搞定了一个十万火急的issue,客户抱怨产品升级后系统会变慢和CPU使用率相当高,客户脾气很大,声称不尽快解决这个问题就退货,弄得我们 R&D压力很大,解决这个issue的任务分给了我,客户是南非的一个公司,由于时差问题,我只好在家远程解决问题,晚上8点半用 gotomeeting远程到客户电脑查看我们的系统,折腾了四个多小时,终于在凌晨时reproduce了这个high CPU,赶紧抓Log,用wireshark抓包,用gcore,gstack,strace和top保存了系统的相关输出。在第2天分析了这些文件后,找到了产品的bug,代码的作者分配了10K的缓冲区,并想当然认为10K足以够用,当然99%的情况下是够用的,但是在这1%的情况下出现了问题,缓冲区不幸被写满了,然后程序进入了死循环,导致high CPU。找到了问题了,fix就很容易了,客户的脾气也缓和了,fix很快就可以deliver给客户。反思解决问题的过程,觉得这个分析过程具有可复用性,值得总结一下。
1.用top命令查看哪个进程占用CPU高
gateway网关进程14094占用CPU高达891%,这个数值是进程内各个线程占用CPU的累加值。
14094 root 15 0 315m 10m 7308 S 891% 2.2 1:49.01 gateway
20642 root 17 0 17784 4148 2220 S 0.5 0.8 2:39.96 microdasys
1679 root 18 0 10984 1856 1556 R 0.3 0.4 0:22.21 sshd
22563 root 18 0 2424 1060 800 R 0.3 0.2 0:00.03 top
1 root 18 0 2156 492 460 S 0.0 0.1 0:01.59 init
2.用top -H -p pid命令查看进程内各个线程占用的CPU百分比
#top -H -p 14094
top中可以看到有107个线程,但是下面9个线程占用CPU很高,下面以线程14086为主,分析其为何high CPU
PID USER PR NI VIRT RES SHR S %CPU MEM TIME+ COMMAND
14086 root 25 0 922m 914m 538m R 101 10.0 21:35.46 gateway
14087 root 25 0 922m 914m 538m R 101 10.0 10:50.22 gateway
14081 root 25 0 922m 914m 538m S 99 10.0 8:57.36 gateway
14082 root 25 0 922m 914m 538m R 99 10.0 11:51.92 gateway
14089 root 25 0 922m 914m 538m R 99 10.0 21:21.77 gateway
14092 root 25 0 922m 914m 538m R 99 10.0 19:55.47 gateway
14094 root 25 0 922m 914m 538m R 99 10.0 21:02.21 gateway
14083 root 25 0 922m 914m 538m R 97 10.0 21:32.39 gateway
14088 root 25 0 922m 914m 538m R 97 10.0 11:23.12 gateway
3.使用gstack命令查看进程中各线程的函数调用栈
#gstack 14094 > gstack.log
在gstack.log中查找线程ID14086,由于函数栈会暴露函数细节,因此只显示了两个函数桢,线程ID14086对应线程号是37
#0 0x40000410 in __kernel_vsyscall ()
#1 0x40241f33 in poll () from /lib/i686/nosegneg/libc.so.6
4.使用gcore命令转存进程映像及内存上下文
#gcore 14094
该命令生成core文件core.14094
5。用strace命令查看系统调用和花费的时间
#strace -T -r -c -p 14094
-c参数显示统计信息,去掉此参数可以查看每个系统调用话费的时间及返回值。
% time seconds usecs/call calls errors syscall
------ ----------- ----------- --------- --------- ----------------------------
99.99 22.683879 3385 6702 poll
0.00 0.001132 0 6702 gettimeofday
0.00 0.000127 1 208 208 accept
0.00 0.000022 22 1 read
0.00 0.000000 0 1 write
0.00 0.000000 0 1 close
0.00 0.000000 0 14 time
0.00 0.000000 0 2 stat64
0.00 0.000000 0 4 clock_gettime
0.00 0.000000 0 7 send
0.00 0.000000 0 10 10 recvfrom
------ ----------- ----------- --------- --------- ------------------------------
100.00 22.685160 13652 218 total
gcore和实际的core dump时产生的core文件几乎一样,只是不能用gdb进行某些动态调试
(gdb) thread 37
[Switching to thread 37 (Thread 0x4696ab90 (LWP 14086))]#0 0x40000410 in __kernel_vsyscall ()
(gdb) where
#0 0x40000410 in __kernel_vsyscall ()
#1 0x40241f33 in poll () from /lib/i686/nosegneg/libc.so.6
可以根据详细的函数栈进行gdb调试,打印一些变量值,并结合源代码分析为何会poll调用占用很高的CPU。
因为代码涉及到公司产权,顾不在此做详细分析,需要明白的是分析的流程和使用的命令。
流程为:进程ID->线程ID->线程函数调用栈->函数耗时和调用统计->源代码分析
相关推荐
### Linux下高CPU解决方案 #### 一、问题背景与定位 在一次紧急的产品支持任务中,面对客户关于系统升级后性能下降以及CPU使用率异常升高的投诉,通过一系列的诊断和排查步骤,最终成功地定位并修复了一个由缓冲区...
"Linux下高性能网络I/O解决方案分析" 在现代计算机系统中,高性能网络I/O解决方案对系统的整体性能具有重要影响。本文旨在讨论Linux下高性能网络I/O解决方案的实现机制,并对其进行详细分析。 首先,Linux下的网络...
"Windows网络下的Linux解决方案"这个主题涵盖了一系列技术和策略,旨在使这两种操作系统能够无缝交互。以下是对这个主题的详细探讨: 首先,我们来谈谈为何需要这样的解决方案。Windows是企业环境中广泛应用的操作...
下面将详细介绍如何在Linux环境下查看某一进程的CPU占用率。 1. **使用`top`命令** `top`命令是最常用的实时监控系统资源的工具,它能够显示当前系统中所有运行的进程及其资源使用情况,包括CPU和内存。执行`top`...
本文将详细介绍如何在Linux环境下查看和设置CPU频率,包括图形界面下的操作方法和命令行下的具体步骤。 #### 二、在Gnome下查看CPU频率 在Gnome桌面环境中,可以通过添加一个名为“CPU频率范围监视器”的小工具来...
Linux项目解决方案
"Linux驱动程序兼容性及解决方案" Linux驱动程序兼容性是指Linux操作系统中驱动程序开发过程中的兼容性问题。驱动程序是计算机硬件和操作系统之间的接口,负责控制和管理硬件设备。Linux驱动程序的兼容性问题主要...
在Linux系统中,多核CPU的使用率管理是优化系统性能和资源分配的重要环节。"linux-让多核CPU达到指定的CPU使用率脚本"是一个旨在提升机器CPU使用率的实用工具,它能帮助系统管理员更好地控制和利用计算资源。下面...
在【代码中国.txt】和【代码中国.url】中,可能包含了关于如何在中国环境下实施该解决方案的具体代码示例、最佳实践或者相关技术支持网站链接,以便用户深入理解并成功部署中软Linux办公化系统。 通过阅读【中软...
"Linux NAT环境下网络音频视频问题的解决方案" 本文将围绕Linux NAT环境下网络音频视频问题的解决方案进行详细的知识点总结。 一、Linux NAT环境概述 Linux NAT环境是指使用Linux系统作为网络地址转换(NAT)...
首先,ubench是一款专门为Linux设计的性能测试工具,其主要功能是对处理器(CPU)和内存进行基准测试。CPU测试旨在衡量处理器的计算能力,包括整数运算、浮点运算以及多线程处理等性能;内存测试则关注内存的读写...
在附录部分,提供了在不同系统间安装的解决方案,如DVD驱动器在系统A上但需要在系统B上安装。可以采用网络挂载或创建tar文件的方式进行跨系统安装。 若需卸载SPEC CPU 2006,参考附录2中的步骤。请注意,卸载后,...
总的来说,Linux下的CPU压力测试软件帮助用户评估系统在高负载环境下的性能和稳定性,选择合适的工具取决于具体的测试需求和系统配置。通过合理使用这些工具,用户可以更好地理解自己的系统,并在必要时优化硬件或...
linux c程序获取cpu使用率及内存使用情况
基于Linux平台的Intranet解决方案
对于更复杂的硬件信息,例如CPU型号、核心数等,可以使用Qt的QProcess类来执行命令行工具,如Linux下的`lscpu`或Windows下的`wmic`,然后解析输出结果。 在实际应用中,我们还需要考虑到多线程和实时性问题,可能...
在Linux操作系统中,监控CPU和内存的使用情况是系统管理员日常任务的重要部分,这有助于优化系统性能、排查问题以及合理分配资源。以下是一些获取CPU和内存大小以及使用率的方法。 **一、CPU信息** 1. **查看CPU...