`
zhangxiong0301
  • 浏览: 360775 次
社区版块
存档分类
最新评论

Linux下高cpu解决方案(转载)

 
阅读更多

昨天搞定了一个十万火急的issue,客户抱怨产品升级后系统会变慢和CPU使用率相当高,客户脾气很大,声称不尽快解决这个问题就退货,弄得我们 R&D压力很大,解决这个issue的任务分给了我,客户是南非的一个公司,由于时差问题,我只好在家远程解决问题,晚上8点半用 gotomeeting远程到客户电脑查看我们的系统,折腾了四个多小时,终于在凌晨时reproduce了这个high CPU,赶紧抓Log,用wireshark抓包,用gcore,gstack,strace和top保存了系统的相关输出。在第2天分析了这些文件后,找到了产品的bug,代码的作者分配了10K的缓冲区,并想当然认为10K足以够用,当然99%的情况下是够用的,但是在这1%的情况下出现了问题,缓冲区不幸被写满了,然后程序进入了死循环,导致high CPU。找到了问题了,fix就很容易了,客户的脾气也缓和了,fix很快就可以deliver给客户。反思解决问题的过程,觉得这个分析过程具有可复用性,值得总结一下。

1.用top命令查看哪个进程占用CPU高
gateway网关进程14094占用CPU高达891%,这个数值是进程内各个线程占用CPU的累加值。

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND    
14094 root      15   0  315m  10m 7308 S 891%  2.2   1:49.01 gateway                                                                                 
20642 root      17   0 17784 4148 2220 S  0.5  0.8   2:39.96 microdasys                                                                                      
 1679 root      18   0 10984 1856 1556 R  0.3  0.4   0:22.21 sshd                                                                                            
22563 root      18   0  2424 1060  800 R  0.3  0.2   0:00.03 top                                                                                             
    1 root      18   0  2156  492  460 S  0.0  0.1   0:01.59 init       


2.用top -H -p pid命令查看进程内各个线程占用的CPU百分比

#top -H -p 14094
top中可以看到有107个线程,但是下面9个线程占用CPU很高,下面以线程14086为主,分析其为何high CPU

  PID USER      PR  NI  VIRT  RES  SHR S %CPU MEM    TIME+  COMMAND                         

14086 root      25   0  922m 914m 538m R  101 10.0  21:35.46 gateway                          

14087 root      25   0  922m 914m 538m R  101 10.0  10:50.22 gateway                           

14081 root      25   0  922m 914m 538m S   99 10.0   8:57.36 gateway                            

14082 root      25   0  922m 914m 538m R   99 10.0  11:51.92 gateway                              

14089 root      25   0  922m 914m 538m R   99 10.0  21:21.77 gateway                             

14092 root      25   0  922m 914m 538m R   99 10.0  19:55.47 gateway                               

14094 root      25   0  922m 914m 538m R   99 10.0  21:02.21 gateway                                

14083 root      25   0  922m 914m 538m R   97 10.0  21:32.39 gateway                                 

14088  root       25   0   922m 914m  538m R    97 10.0   11:23.12  gateway


3.使用gstack命令查看进程中各线程的函数调用栈
#gstack 14094 > gstack.log
在gstack.log中查找线程ID14086,由于函数栈会暴露函数细节,因此只显示了两个函数桢,线程ID14086对应线程号是37

Thread 37 (Thread 0x4696ab90 (LWP 14086)):
#0  0x40000410 in __kernel_vsyscall ()
#1  0x40241f33 in poll () from /lib/i686/nosegneg/libc.so.6


4.使用gcore命令转存进程映像及内存上下文

#gcore 14094
该命令生成core文件core.14094


5。用strace命令查看系统调用和花费的时间
#strace -T -r -c -p 14094

-c参数显示统计信息,去掉此参数可以查看每个系统调用话费的时间及返回值。

% time     seconds  usecs/call     calls    errors        syscall

------ ----------- ----------- --------- --------- ----------------------------

99.99   22.683879        3385      6702                     poll

  0.00    0.001132           0      6702                     gettimeofday

  0.00    0.000127           1       208       208          accept

  0.00    0.000022          22         1                    read

  0.00    0.000000           0         1                    write

  0.00    0.000000           0         1                    close

  0.00    0.000000           0        14                    time

  0.00    0.000000           0         2                    stat64

  0.00    0.000000           0         4                    clock_gettime

  0.00    0.000000           0         7                    send

  0.00    0.000000           0        10        10          recvfrom

------ ----------- ----------- --------- --------- ------------------------------

100.00   22.685160                 13652       218 total




6.用gdb调试core文件,并线程切换到37号线程
gcore和实际的core dump时产生的core文件几乎一样,只是不能用gdb进行某些动态调试

(gdb) gdb gateway core.14094
(gdb) thread 37
[Switching to thread 37 (Thread 0x4696ab90 (LWP 14086))]#0  0x40000410 in __kernel_vsyscall ()
(gdb) where
#0  0x40000410 in __kernel_vsyscall ()
#1  0x40241f33 in poll () from /lib/i686/nosegneg/libc.so.6

可以根据详细的函数栈进行gdb调试,打印一些变量值,并结合源代码分析为何会poll调用占用很高的CPU。
因为代码涉及到公司产权,顾不在此做详细分析,需要明白的是分析的流程和使用的命令。

流程为:进程ID->线程ID->线程函数调用栈->函数耗时和调用统计->源代码分析
分享到:
评论

相关推荐

    Linux下高性能网络I_O解决方案分析.pdf

    "Linux下高性能网络I/O解决方案分析" 在现代计算机系统中,高性能网络I/O解决方案对系统的整体性能具有重要影响。本文旨在讨论Linux下高性能网络I/O解决方案的实现机制,并对其进行详细分析。 首先,Linux下的网络...

    Windows网络下的Linux解决方案

    "Windows网络下的Linux解决方案"这个主题涵盖了一系列技术和策略,旨在使这两种操作系统能够无缝交互。以下是对这个主题的详细探讨: 首先,我们来谈谈为何需要这样的解决方案。Windows是企业环境中广泛应用的操作...

    Linux下如何查看某一进程的CPU占用率_linux进程cpu使用率.zip

    下面将详细介绍如何在Linux环境下查看某一进程的CPU占用率。 1. **使用`top`命令** `top`命令是最常用的实时监控系统资源的工具,它能够显示当前系统中所有运行的进程及其资源使用情况,包括CPU和内存。执行`top`...

    Linux查看与设置CPU频率

    本文将详细介绍如何在Linux环境下查看和设置CPU频率,包括图形界面下的操作方法和命令行下的具体步骤。 #### 二、在Gnome下查看CPU频率 在Gnome桌面环境中,可以通过添加一个名为“CPU频率范围监视器”的小工具来...

    Linux项目解决方案.doc

    Linux项目解决方案

    RTLinux对Linux关中断的解决方案.pdf

    RTLinux对Linux关中断的解决方案 本文主要介绍了RTLinux对Linux关中断的解决方案。Linux操作系统启用禁止中断的原因有两个:一是操作系统为了保护重要的系统程序代码暂停接受中断;二是Linux内核的进程经常关闭中断...

    Linux下的ODBC解决方案.pdf

    "Linux下的ODBC解决方案" 一、ODBC概述 ODBC(Open Database Connectivity)是一种开放式的数据库连接标准,它允许不同的数据库管理系统(DBMS)和应用程序之间进行交互。ODBC提供了一种统一的接口,使得开发人员...

    Linux驱动程序兼容性及解决方案.pdf

    "Linux驱动程序兼容性及解决方案" Linux驱动程序兼容性是指Linux操作系统中驱动程序开发过程中的兼容性问题。驱动程序是计算机硬件和操作系统之间的接口,负责控制和管理硬件设备。Linux驱动程序的兼容性问题主要...

    linux-让多核CPU达到指定的CPU使用率脚本

    在Linux系统中,多核CPU的使用率管理是优化系统性能和资源分配的重要环节。"linux-让多核CPU达到指定的CPU使用率脚本"是一个旨在提升机器CPU使用率的实用工具,它能帮助系统管理员更好地控制和利用计算资源。下面...

    中软Linux办公化系统解决方案

    在【代码中国.txt】和【代码中国.url】中,可能包含了关于如何在中国环境下实施该解决方案的具体代码示例、最佳实践或者相关技术支持网站链接,以便用户深入理解并成功部署中软Linux办公化系统。 通过阅读【中软...

    Linux NAT环境下网络音频视频问题的解决方案.pdf

    "Linux NAT环境下网络音频视频问题的解决方案" 本文将围绕Linux NAT环境下网络音频视频问题的解决方案进行详细的知识点总结。 一、Linux NAT环境概述 Linux NAT环境是指使用Linux系统作为网络地址转换(NAT)...

    基于国产Linux桌面的农村家庭远程教育平台解决方案.pdf

    基于国产Linux桌面的农村家庭远程教育平台解决方案 本解决方案旨在解决我国农村地区教育水平普遍较低下的问题,通过基于国产Linux系统平台,提供了一体化的教育信息服务,涵盖农技、中小学教育、妇幼保健与公共卫生...

    linux环境下测试CPU和内存性能软件

    首先,ubench是一款专门为Linux设计的性能测试工具,其主要功能是对处理器(CPU)和内存进行基准测试。CPU测试旨在衡量处理器的计算能力,包括整数运算、浮点运算以及多线程处理等性能;内存测试则关注内存的读写...

    linux下cpu压力测试软件

    总的来说,Linux下的CPU压力测试软件帮助用户评估系统在高负载环境下的性能和稳定性,选择合适的工具取决于具体的测试需求和系统配置。通过合理使用这些工具,用户可以更好地理解自己的系统,并在必要时优化硬件或...

    Windows网络下的Linux解决方案 Dustin Puryear 张乐 中国水利水电出版社

    Windows网络下的Linux解决方案 Dustin Puryear 张乐 中国水利水电出版社

    CPU2006-LINUX

    在附录部分,提供了在不同系统间安装的解决方案,如DVD驱动器在系统A上但需要在系统B上安装。可以采用网络挂载或创建tar文件的方式进行跨系统安装。 若需卸载SPEC CPU 2006,参考附录2中的步骤。请注意,卸载后,...

    linux c程序获取cpu使用率及内存使用情况

    linux c程序获取cpu使用率及内存使用情况

Global site tag (gtag.js) - Google Analytics