`
unbounder
  • 浏览: 174345 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

一次排查事故纪录

    博客分类:
  • java
阅读更多
服务器大范围报读超时,排查记录:
8月13日:
1 周一晚上根据op jmap的内存,发现老年代和年轻代都是百分之九十九。因为老年代满后会引起fullgc,检查gc日志证实频繁fullgc,但是fullgc几乎没有效果,导致jvm连续fullgc,所有线程等待,引起读超时现象。
2 op给出的jmap histo里面有大量keywordtype对象,怀疑有大量这种对象被引用没有释放
3 根据事故点的dump日志发现有大量log4j在争夺root时被blocked,同事给出优化建议,将lo4j的子日记不打到catalina.out里面。
8月14日:
3 同事排查代码未发现keywordtype有被map、list引用的情况
4 替换log4j,子log不打到catalina.out里面,并且将earth日志隔离出去,business层增加buffer,上线。解决log4j瓶颈问题,但是仍然大量读超时,并且发现dump出来的线程快照里面基本上都是runnable的线程,此时仍然频繁fullgc,且fullgc未果,大家怀疑heap里面到底有什么东西。另外发现了使用log4j的buffer的一个问题,发生业务日志丢失的情况,具体问题还没有排查出来结果。
5 要求op准备jmap事故现场的heap.bin来排查
8月15日:
6 早上有两台服务器重启后丢失业务日志,有一台服务器重启失败,十个小时左右无流量。
7 检查事故现场的heap.bin,这东西很大时,别直接jhat,开一个两倍或者三倍的内存在jhat -J-mx14g heap.bin。
8 检查heap.bin,同事发现大量的keywordtype最终没有被引用,而且这些keywordtype里面的内容大致相同。排查出这些keywordtype属于同一用户。检查访问日志,发现这个用户发送了一些大批量的查询请求,发送内容又大部分重复,发送的时间点和fullgc开始的时间点吻合。怀疑受到恶意攻击或者客户程序bug引起。
9 根据以上排查,让pm联系这个客户,得知这个客户在进行线上试验。
10 和qa、op协作,紧急上线。完成修复

分享到:
评论
1 楼 lisongqiu168 2012-09-07  
888

相关推荐

    一次Mysql死锁排查过程的全纪录

    本文将详细记录一次特定的MySQL死锁排查过程,以便于理解和处理类似的问题。 首先,死锁的基本概念是:当两个事务A和B相互持有对方需要的锁时,就会发生死锁。在事务A等待事务B释放锁的同时,事务B也在等待事务A...

    HttpAsyncClient

    HttpAsyncClient 4.1.1版本是对这个库的一次重要更新,它增强了性能和稳定性,同时也引入了一些新的特性和改进。 1. **异步非阻塞I/O模型**: HttpAsyncClient基于NIO(Non-blocking Input/Output)实现,允许应用...

    2006年上半年电力安全心得体会.doc

    2. 事故与障碍:尽管整体安全指标良好,但仍有输电线路事故1次,输电线路一类障碍3次,以及18次农配事故。这些事故多由外部因素如恶劣天气、施工机械碰撞、雷击等原因引起。 3. 工作票执行:执行的第一、二种工作票...

    安全警示片的观后感.docx

    - **时间**:本文档记录的是2021年10月10日下午3点的一次安全教育培训活动。 - **组织单位**:金城公司,面向其下属各分公司。 - **形式**:观看安全事故警示片,并进行讨论。 ### 二、事故案例分析 - **案例来源*...

    锅炉巡回检查制度.doc

    10. 记录与处理:巡回检查中发现的任何问题都应及时处理,并将检查结果详细记录在锅炉及附属设备的运行纪录内,便于后续的故障排查和设备维护。 总结来说,锅炉巡回检查制度是一个全面而细致的预防性维护措施,通过...

    Java异常诊断greys-anatomy.zip

    时间隧道,tt命令能以时间维度纪录下监控期内的每一次调用环境 多人并行协作 基于C/S架构的任务模式甚至能让多人同时远程到同一进程上执行不同的指令、脚本,非常适合团队一起进行线上问题...

    火电厂检修部工作计划总结.doc

    同时,安全纪录得到了显著改善,安全事故发生率降低,工作票合格率高,安全活动频繁,员工的安全意识也得到提升,通过安全培训和宣传教育营造了良好的安全文化氛围。 在技术管理上,检修部注重设备的健康状况,加强...

    泵送客户操作手测试题(2).docx

    - 臂架轴销、底盘传动轴十字轴承等关键部件需要定期进行润滑维护,一般推荐每工作一定小时数或周期进行一次润滑。 - 发动机更换机油的同时也需要更换相应的滤清器,以保证机油循环系统的清洁度。 7. **锂基脂的...

    供电公司上半年目标考核工作完成情况总结.pdf

    2. 强化应急管理,进行了应急演练和预警控制,组织了迎峰度夏防汛反事故演习,修订有序用电工作意见,成功应对3次负荷纪录刷新,保障了电网的稳定运行和电力供应的有序性。 3. 打击电力设施盗窃和窃电行为,35千伏...

    软件开发设计文档定义.pdf

    - 最新发布日期:最近一次更新或发布的日期。 - 文档变更纪录:记录每次修改的详情,包括变更人、日期和具体更改内容。 III. 文档评审: 文档评审是质量保证的重要步骤,确保文档的准确性和完整性。产品组和QA组的...

    微信之道(讲述微信系统架构的PPT)

    目前已成为苹果中国区App Store下载量第一的应用程序,其“摇一摇”功能的日使用次数更是超过了亿次。 #### 三、微信的“三位一体” - **产品的精准**:指产品定位明确,功能简洁而高效,能够满足用户的核心需求。 ...

    loadrunner常见问题分析

    - **应对措施**:进一步排查服务器配置和硬件资源,确保其能满足高并发场景下的需求。 **5. 系统稳定性分析** - **表现形式**:如果事务响应时间先缓慢上升后趋于平缓,再突然下降,这通常表示系统稳定性下降。 ...

    驱动精灵(可以备份驱动,也可以升级驱动)

    1、增加软件安全模式,在这种模式下驱动精灵将只执行核心模块,用于排查问题 2、增加Windows安全模式自动判断功能,保证软件可用性 3、驱动备份功能升级,备份后的驱动与原始驱动完全一致(不含控制面板) 4、完全版...

Global site tag (gtag.js) - Google Analytics