`
cfyme
  • 浏览: 275135 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

一个load过高的故障排查案例

 
阅读更多

现象: 6台4核机器load 全部在30以上,cpu使用us在90%, mem使用在90%,swap使用了100K,机器缓慢,前台浏览器页面打开缓慢,超时后白屏。
措施: top, shift+h ,shift + p, 找出消耗cpu时间最多的线程ID,dump 堆栈信息,找到该线程,看在做什么,发现有多个线程在执行同一个方法。该方法内有一个循环,从一个node节点向上找其父节点,并不断将该节点数据放入List,猜测该节点的父节点ID肯定与该节点形成死循环了,导致while不能跳出。修改代码限制向上寻找的层级,达到一定数量后,从循环中跳出,重新发布后,问题解决。


总结:1,排查cpu消耗类故障方法。
1)top shift+h shift+p ,找到java 进程编号,在列出所有线程按cpu消耗排序,找到执行时间最长的线程ppid。
2)java/bin/jstack PID > /tmp/jstack.log 导出堆栈信息。
3)将10进制的PID转换成16进制(a-f字符要小写),在该文件中寻找该16进制的PPID,并查看该线程堆栈信息,看这些线程在做什么。
4)找到堆栈中对应代码查看,是否有消耗cpu的大循环,修改,发布会解决问题。
2,同时,如果内存消耗过大导致频繁full gc,可以按照如下方法排查:
1)使用jmap dump jvm内存到指定目录,可引起full GC , 慎重操作。
2)使用ftp或其他方法,将文件拉到本地机器。使用mat,分析堆内存,利用leak suspect找出可能的内存泄漏。

 

转载地址:http://religiose.iteye.com/blog/1488806

分享到:
评论

相关推荐

    Server 2008 R2 之二十八AD RMS故障排除

    面对故障,采取系统性的故障排查与解决策略,不仅能够快速恢复服务,还能提升整体系统的健壮性和可靠性。通过本文的深入解析,希望能帮助读者有效应对AD RMS中的常见故障,保障网络环境的安全与高效运作。

    Oracle Load Balance解@老熊

    #### 案例一:负载不均衡问题分析 **现象** 在本案例中,系统管理员发现了一个两节点的 Oracle 10g RAC 数据库系统无法实现负载均衡,几乎所有会话都连接到了第二个节点(resrac2),而第一个节点(resrac1)的连接数很...

    Load-Flow.rar_flow_load flow_load flow analysis

    2. **故障排查**:当电网发生异常时,可以通过历史负载流动数据来追溯问题源头,分析故障原因。 3. **运行调度**:实时或预测的负载流动分析可以帮助调度员优化发电组合,平衡供需,维持电压稳定。 4. **设备健康...

    网络故障检测与维护电子教案

    总之,网络故障检测与维护是一个涵盖广泛的技术领域,包括硬件、软件、协议配置等多个层面。理解和掌握这些知识,对于维护网络系统的正常运行至关重要。本电子教案提供了深入的理论指导和实践案例,对于学习者和IT...

    CCIE交换工程案例与配置

    - **HSRP (Hot Standby Router Protocol)**:用于为终端用户提供一个虚拟的默认网关,当主路由器发生故障时,备用路由器可以接管主路由器的角色。 - **VRRP (Virtual Router Redundancy Protocol)**:类似于HSRP,但...

    排查Linux服务器迟缓故障.pdf

    【Linux服务器迟缓故障排查】 在遇到Linux服务器访问速度变慢的问题时,首先需要进行故障诊断。本案例中,服务器运行Web服务,采用Apache+TomCat的架构,并连接Oracle数据库。通过执行`top`命令,观察到CPU占用率高...

    FANUC PICTURE案例 .zip

    通过学习这些内容,读者可以了解如何将FANUC PICTURE应用于无心磨床的控制,包括程序编写、调试、故障排查等方面的知识。对于工程师和操作员来说,这是一份宝贵的参考资料,有助于提升他们在实际工作中的技能和效率...

    KEL102-KEL103-user-manual-DC-Electronic-Load)_KoradKEL102_KEL103

    四、维护与故障排查 1. **定期清洁**:保持设备表面干净,防止灰尘影响散热。 2. **故障提示**:当设备显示故障代码时,参照手册的故障代码表进行排查。 3. **安全注意事项**:遵循操作规程,避免短路和过载,...

    Day09【JQuery】源码及综合案例

    - 故障排查:学习如何调试 jQuery 代码,找出并修复问题。 通过这个主题的学习,你将能够熟练掌握 jQuery 的基本操作,并能运用到实际项目中,提升网页开发效率。同时,对 jQuery 源码的了解有助于你理解其工作...

    计算机案例大全.pdf

    这些案例涵盖了计算机启动和运行过程中的常见故障及诊断方法,涉及到硬件兼容性、驱动程序、系统文件完整性、硬件故障检测以及BIOS设置等多个关键环节。理解并掌握这些知识点对于解决日常计算机问题至关重要。在排查...

    a63822322的主板电池没电引起罕见故障的说明

    此外,它提醒我们,在排查硬件故障时,不能仅仅依赖于经验和常规思路,而是要根据实际情况灵活应对,细致检查每一个可能的环节。同时,对于CMOS电池没电后电脑短暂启动的现象,可能是因为主板在电源接通后为CMOS电池...

    MySQL线上常见故障剖析

    #### 一、故障概述与分类 在MySQL的日常运维中,经常会出现各种各样的故障,这些故障可能源自于不同的层面,包括但不限于应用层、数据库层、操作系统层等。通过对这些故障的深入分析,可以帮助我们更好地理解和解决...

    J750 train

    5. **故障排查**:学习如何诊断和解决J750系统中出现的问题,包括日志分析和硬件故障排除。 6. **安全性和稳定性**:理解J750的安全特性,以及如何确保系统稳定运行。 7. **实战演练**:通过实际项目或案例研究,...

    CCNP高级路由

    在IT领域,CCNP(Cisco Certified Network Professional)是Cisco认证体系中的一个重要级别,它专注于网络专业人士所需的高级技能。"CCNP高级路由"是这个认证的一部分,涵盖了深入的路由技术,包括但不限于路由协议...

    华为编程开发规范与案例

    与开发人员在测试组环境多次重复以上步骤,发现11群的计次表话单有时正常,有时其出中继群号就为一个随机值,发生异常的频率比较高。为什么其它群的话单正常,唯独11群不正常呢?11群是四个群中最小的群,其中继计...

    A10负载均衡及运维培训

    运维方面,培训可能涵盖了监控、故障排查、性能优化和安全策略等内容。监控是确保系统正常运行的重要环节,包括实时查看设备状态、流量统计和性能指标。当出现故障时,运维人员需要快速定位问题并采取相应措施。性能...

    dns-loadtest

    在这个案例中,`dns-loadtest`可能就是一个用Go语言编写的工具,Go语言以其并发性能和轻量级线程(goroutines)而受到青睐,适合开发此类高并发应用。 inet.af/netaddr库是Go语言中的一个第三方库,提供了IP地址和...

    DP-600微软MCP ET.pdf

    8. **故障排除与监控**:掌握故障排查技巧,使用Azure Monitor等工具进行系统监控。 9. **业务场景模拟**:通过实际案例研究,加深对特定业务场景下数据工程挑战的理解。 综上所述,这份文档为准备参加DP-600考试...

    NP认证指南813交换

    CCNP(Cisco Certified Network Professional)是思科认证中的一个重要级别,其中Switch部分专注于网络交换技术,是构建和管理企业级网络的关键组成部分。这本书详细介绍了813交换考试的相关知识点,旨在帮助读者...

Global site tag (gtag.js) - Google Analytics