本文主要是通过一次对AIX服务器的硬件故障排查过程来引进一个故障排查的思路,希望大家拍砖。
# errpt
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
BFE4C025 0416192308 P H sysplanar0 UNDETERMINED ERROR
# errpt -aj
BFE4C025
---------------------------------------------------------------------------
LABEL: SCAN_ERROR_CHRP
IDENTIFIER: BFE4C025
Date/Time: Wed Apr 16 19:23:10 2008
Sequence Number: 120
Machine Id: 000599F6D700
Node Id: PEKAX019
Class: H
Type: PERM
Resource Name: sysplanar0
#系统平台错误,根据经验可先通过
Resource Class: planar
diag sysplanar0 -v -e 查看相关日志在通过
Resource Type: sysplanar_rspc
lsmcode -A检查
微码是否过旧
,如
果
微码没问
Location:
题,那么应该是硬件
故障
Description
UNDETERMINED ERROR
Failure Causes
UNDETERMINED
Recommended Actions
RUN SYSTEM DIAGNOSTICS.
Detail Data
PROBLEM DATA
0644 00E0 0000 01B4 8E00 8E00 0000 0000 0000 0000 4942 4D00 5048 0030 0100 EA10
...省略了一些
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
Diagnostic Analysis
Diagnostic Log sequence number: 104
Resource tested: sysplanar0
Resource Description: System Planar
Location:
SRC: B17CE433
Description: Surveillance Error Predictive Error, general. Refer to
the system service documentation for more information.
Additional Words: 2-030000F0 3-53B71510 4-C13920FF 5-400000FF
6-00000000 7-000007F7 8-00000800 9-00000000
Possible FRUs:
Priority: H Maintainence Procedure: FSPSP33
Location: n/a
Priority: M Maintainence Procedure: FSPSP04
Location: n/a
Priority: L FRU: 32N1272
S/N: YL1126327097 CCIN: 293A
Location: U787F.001.DPM2DCM-P1-C7
---------------------------------------------------------------------------
打开IBM 硬件信息中心
http://publib.boulder.ibm.com/infocenter/powersys/v3r1m5/index.jsp
搜索
1)
SRC
B17CE433
System Reference Code (SRC)主要用于描述系统错误的代码
Explanation
This error log entry is generated when the HMC fails to send its heartbeat message within the allotted time. The reason could be network issues, or the Ethernet cable is disconnected.
Response
If this is a tracking event, no service actions are required. Otherwise, use the FRU and procedure callouts detailed with the SRC to determine service actions.
2)FSPSP33:
A problem has been detected in the connection with the HMC.
Ensure that the cable connectors to the network from the HMC, managed system, managed system partitions, and other HMCs are securely connected. If the connections are not secure, plug the cables back into the proper spots and make sure that the connections are good.
Check to see if the HMC is working correctly or if the HMC was disconnected incorrectly from the managed system, managed system partitions, and other HMCs. If either has happened, reboot the HMC. For more information, see Shutting down, rebooting, and logging off the HMC.
Verify that the network connection between the HMC, managed system, managed system partitions, and other HMCs is working properly. If you have a high performance switch (HPS) network, verify that the network connection to the CSM Management Server is also working. If the connection is not working properly, contact the customer network support to correct the problems.
If applicable, service the next FRU.
If the problem continues to persist, contact your next level of support. This ends the procedure
3)FSPSP04:
A problem has been detected in the service processor firmware.
4)FRU:32N1272
Field Replace Unit(FRU)现场可更换单元
在电脑上的一些可更换的部件。主要是厂商为了节省成本,把设备分成多个FRU,直接更换而不修。(该FRU号没有找到结果,有时候事实就是这样!)
5)CCIN:293A
custom card identification number(CCIN)自定义识别号
6)Location: U787F.001.DPM2DCM-P1-C7
实际的物理位置,其中U787F.001.DPM2DCM为逻辑分区标识,P1-C7为物理设备标识
通过Location结合FRU与CCIN可定位到实际设备,定位的时候注意比对Maintainence Procedure避免定位错误。
定位结果
相关说明
参考至:http://rocolex.blog.163.com/blog/static/68446410201062102627624/
http://www.loveunix.net/archiver/tid-129933.html
http://www-947.ibm.com/systems/support/i/probsolv/src/index.html
http://baike.baidu.com/view/1511517.htm
http://jingh3209.blog.163.com/blog/static/15696672009421113615882/
本文原创,转载请注明出处、作者
如有错误,欢迎指正
邮箱:czmcj@163.com
分享到:
相关推荐
该工具能够帮助系统管理员快速识别和解决可能出现的硬件问题,确保服务器的稳定运行。下面我们将详细介绍DSA工具及其相关组件。 首先,DSA.exe是DSA工具的主要执行文件,它包含了一系列的检测程序和接口,可以对IBM...
IBM硬件管理控制台(Hardware Management Console,简称HMC)是专为管理IBM Power System服务器而设计的一款强大工具。HMC提供了统一的用户界面,使得系统管理员能够高效地配置和管理基于Power架构的服务器及其上的...
IBM是全球知名的IT巨头,其在硬件和服务器领域拥有深厚的技术积累。2018年IBM发布的最新硬件和服务器Visio图库,为IT专业人员提供了丰富的设计资源,特别是对于网络系统设计工作,这些图库的价值不可忽视。Visio是一...
【IBM T60 硬件详解】 IBM ThinkPad T60是一款经典的商务笔记本电脑,以其坚固耐用的设计和出色的性能赢得了用户的广泛赞誉。这款设备在硬件配置上具有多个亮点,让我们一起深入了解一下。 1. 处理器:T60通常配备...
本文将基于“IBM-AIX——查看硬件设备信息(如序列号等)”这一主题,详细解析AIX环境下如何查看和验证包括机器型号、序列号、操作系统版本、CPU信息、内存信息以及外存信息在内的关键硬件设备数据。 ### 第一章:...
### IBM-T30硬件手册知识点概述 #### 一、IBM ThinkPad T30 简介 IBM ThinkPad T30 是一款高端商务笔记本电脑,以其卓越的性能、可靠的品质和出色的便携性而闻名。该款笔记本电脑适用于专业用户和企业级应用,拥有...
### IBM 管理硬件管理控制台(HMC) #### 概述 IBM 硬件管理控制台(Hardware Management Console, HMC)是用于管理 IBM System i 和 System p 系列服务器的关键工具。它提供了丰富的图形用户界面,使得管理员能够...
IBM p7硬件管理控制台是IBM Power Systems服务器系列的一个关键组件,主要负责管理和监控IBM Power7(POWER7)架构的服务器设备。这个控制台提供了集中化的管理界面,使得管理员能够有效地控制、配置和维护IBM Power...
IBM服务器x3850硬件安装手册.pdf IBM服务器x3850硬件安装手册.pdf是IBM System x3850设备的安装手册,涵盖了设备的配置、安装、使用和维护等方面的知识点。下面是从该手册中提取的相关知识点: 1. 产品特性 IBM ...
IBM在硬件技术上不断创新,3D芯片堆叠技术允许芯片在垂直方向上堆叠,提高了数据传输速度,降低了延迟,并减少了功耗,对于高性能计算和数据中心应用有显著优势。 5. **IBM-Tape**:这部分内容涉及IBM的磁带存储...
给大家提供一个IBM硬件信息 资料网站 http://publib.boulder.ibm.com/infocenter/pseries/v5r3/index.jsp?topic=/com.ibm.pseries.doc/hardware_docs/p660_6m1.htm
IBM HP 多网口工控设备硬件信息收集脚本
数据中心被视为企业的核心,不仅包含硬件设施,还涉及到人员配置、IT运维管理和信息安全等多个层面。 在设计数据中心时,首要考虑的是业务需求,从整体IT基础设施规划开始,涵盖计算能力、存储需求、服务器容量、灾...
IBM小型机的一般性的故障的查找和分析,帮助你解决一般性的问题
IBM System x3650 M4 是一款针对企业级应用设计的高性能服务器,适用于数据库管理、虚拟化、企业应用程序、协作/电子邮件、流媒体、Web服务、高性能计算(HPC)、Microsoft RemoteFX以及云应用程序等多种场景。...
IBM 服务器硬件故障检测板详解 IBM 服务器硬件故障检测板是 IBM 服务器中的一种重要组件,负责检测服务器硬件的故障情况。该板上提供了多种指示灯,每种指示灯都对应着特定的硬件故障。了解这些指示灯的含义对于...
### IBM P系列小型机日常维护、故障定位与故障排除 #### 一、环境与电源管理 在进行IBM P系列小型机的日常维护时,首先需要注意的是环境与电源管理。这包括温度、湿度以及电源的稳定性等方面。 - **温度**:理想...
综上所述,“IBM-P750服务器硬件指南”不仅提供了丰富的硬件部件位置信息,还详细解释了如何使用地址编码来定位和管理这些部件。这对于服务器的安装、维护和故障排查等工作来说是非常宝贵的资料。