`

数据库服务器硬盘故障分析及建议

阅读更多

产品信息:

品:DL580 G5

号:487381-B21

序列号:CNG941S242

硬件架构:

DL580 G5单机

系统架构:

REDHAT LINUX ENTERPRISE 5 + ORACLE DATABASE

故障现象:

一台DL580 G5 BAY5上一块300G硬盘与0607日亮红灯报警,在0608日惠普金牌服务工程师更换上新硬盘后,后台同步数据20~30分钟后,同一阵列中另外一块BAY2硬盘亦亮红灯,操作系统死机。重启服务器后,无法正常进入操作系统,LOGVOL04有文件损坏。

故障分析:

1.RAID5实质内容为N-1的阵列特性,本CASEDL580 G5是由8块硬盘构成,所以实际应用中,为7块硬盘的容量在被实际数据使用,另外一块的硬盘容量可以简单理解为存放校验数据。所以,RAID5阵列模式下,只允许损坏一块硬盘。RAID5阵列模式下,不对存储的数据进行备份,而是把数据和相对应的奇偶校验信息存储到组成RAID5的各个磁盘上,并且奇偶校验信息和相对应的数据分别存储于不同的磁盘上。当RAID5的一块硬盘数据发生损坏后,利用剩下的数据和相对应的奇偶校验信息去恢复被损坏的数据。

4个硬盘为例:见下图

2.CASE中,DL580 G50607日出现第一块即BAY5硬盘亮红灯,在次日即0608日早晨0700左右,此阵列中的另外一块硬盘BAYA2亦出现了读错误,但尚未达到报废的程度,所以未亮红灯报警,请见下图通过日志读到的BAY2硬盘错误信息:

06-08-2011 07:41:35

Physical Drive Drive State

Drive failed. SCSI Port 1 SCSI ID 2 Physical drive 0002. Failure reason: Aborted command. Configured drive flag 01. Spare drive flag 00. Big drive 00000002. Enclosure bay 02. Enclosure box 00. (00 04 00 00 00 00 00 00 00 00 00 02 00 00 00 0e 00 00 00 01 00 00 00 00 00 00 00 02 07 db 06 08 00 00 6c 2f 02 17 1b 68 00 00 00 06)

06-08-2011 07:41:35

Logical Drive Status

State change, logical drive 00000000. Previous logical drive state: Logical drive is currently recovering. New logical drive state: Logical drive failed. Old spare status: 00000000 New spare status: No spare assigned (00 05 00 00 00 00 00 00 00 00 00 00 00 00 00 05 00 00 00 01 00 00 00 00 00 00 00 00 07 db 06 08 00 00 6c 2f 02 17 1b 68 00 00 00 07)

通过以上内容可以看出,此RAID5阵列中先后有两块硬盘出现问题,所以阵列信息已经不完整。

3.所以,在更换完第一块硬盘即BAY5硬盘后,通过其它7块硬盘抓取回校验数据时,在读到BAY2硬盘上相应的数据时发生紊乱,所以出现如下报错现象:

4.BAY2硬盘在06112200左右彻底报错,亦亮红灯。

以上为此次的故障分析。

后续建议:

1.通过以上的分析可以看出,在相对较重要的一个系统中,如果采用RAID5阵列级别的冗余模式,数据方面的风险是很大的。因为在后台,数据时刻产生,校验数据亦时刻产生,对硬盘的读写负荷是很大的,如果一个以上的硬盘出现坏块甚至完全报FAIL的话,整个阵列是非常危险甚至会导致应用系统崩溃的。

2.通过此次故障,建议贵公司在重要应用系统的服务器中采用RAID5+HOTSPAREADG两种阵列模式,此两种模式均允许在同一时间段内损失两块硬盘。

3.定期进行相关硬件的检测及日志的搜集,以达到提前查询是否会有故障隐患的产生及防范,此项内容惠普金牌服务可以协助。如果有必要惠普金牌服务可以提供两个月进行一次的巡检(需要提前安排停机时间)。

4.如果在此服务器同一网段中有WINDOWS系统平台的机器,可以考虑安装惠普目前正在主推的IRS远程监控软件,通过此软件,被监控的服务器会在故障产生时自动将相关报错内容通过网络的方式发送给惠普CALLCENTER,惠普客服端会通过邮件的方式主动告知用户,以做好故障出现后及时的修复动作。(此软件为免费,但是需主机端开放三个端口以连接到互联网)

以上为本次故障产生原因的分析及后续建议,如有其它疑问欢迎随时来电。

分享到:
评论

相关推荐

    硬盘播出系统视频服务器故障处理.pdf

    视频服务器的主要组件包括MagiStream视频服务器、数据库服务器、二级存储硬盘阵列系统、播控工作站和上载工作站等。这些组件之间通过网络进行交换,实现了视频服务器的高效益和灵活性。 在视频服务器的操作过程中,...

    数据库服务器搭建方案

    #### 五、案例分析——简约型数据库服务器方案 对于预算有限的企业,本方案还提供了一种成本更低的简约型配置方案: - **服务器**:选择x3850,每台服务器同样配置两块硬盘并设置为RAID-1模式。 - **存储设备**:...

    MySQL数据库:数据库故障.pptx

    2. **系统故障**:系统故障通常涉及数据库服务器的崩溃,可能由硬件故障、操作系统错误或软件冲突导致。重启数据库服务通常可以解决这类故障。 3. **介质故障**:涉及物理存储设备的故障,如硬盘损坏,需要备份恢复...

    数据库服务器维护手册

    数据库服务器是信息系统的核心组成部分,负责存储、管理和检索数据。本维护手册主要针对数据库的入门级用户和希望提高技能的专业人员,旨在提供服务器维护的技术和技巧。以下是对标题和描述中涉及知识点的详细说明:...

    服务器软件故障应急预案.docx

    - **表现**: 硬盘故障。 - **处理步骤**: - 使用 `umount /dev/sdb` 卸载有问题的磁盘分区。 - 更换新磁盘后,通过 `dmesg | tail` 查看系统识别情况。 - 使用 `mkfs.xfs /dev/sdb` 对新磁盘进行格式化。 - 最后...

    数据库服务器选型原则及实例解说.doc

    数据库服务器的选型是IT系统建设中的重要环节,因为它直接影响到业务系统的稳定性和效率。数据库服务器需要处理大量的业务数据,因此在选择时需要综合考虑多个因素。 首先,**高性能原则**是选型的基础。服务器必须...

    局域网的服务器故障分析与排除.pdf

    【局域网服务器故障分析与排除】涉及到的关键知识点主要包括服务器硬件故障排查、软件故障诊断以及局域网环境对服务器稳定性的影响。以下是对这些知识点的详细解释: 1. **服务器硬件故障排除** - **开机完全黑屏*...

    2021如何选购数据库服务器.docx

    在2021年,随着信息化技术的飞速发展,数据库服务器扮演着至关重要的角色,尤其在论坛、电商、ERP等行业的业务运营中。选择合适的数据库服务器是确保企业稳定运行、数据安全的关键。本文将从五个主要方面详细介绍...

    数据库服务器选购注意事项.docx

    数据库服务器是企业信息化建设的核心组件,负责存储、管理和处理大量数据。在选择数据库服务器时,有几个关键因素需要考虑,以确保系统的稳定性和高效性能。 首先,**硬件冗余性**是服务器选择的重要标准。服务器...

    SQL Server数据库服务器高性能设置

    SQL Server数据库服务器的高性能设置是确保企业信息系统高效运行的关键。以下是一些关键点的详细解释: 1. **服务器规划**: - **64位操作系统**:选择64位的操作系统,如Windows Server 2008 64位,能够支持更大...

    服务器维修故障大全

    3. **硬盘故障**:硬盘坏道、固件错误或控制器故障会引发数据丢失、系统崩溃等问题。 4. **电源供应器**:电源故障可能导致服务器突然断电或无法启动。 5. **散热系统**:风扇失效、散热器堵塞可能引发过热,影响...

    Oracle 10g数据库服务器的安装与卸载.ppt

    Oracle 10g数据库服务器的安装与...总的来说,Oracle 10g数据库服务器的安装与卸载涉及多个层面的技术知识,包括系统配置、软件安装、故障排查和数据管理。熟练掌握这些技能对于管理和维护Oracle数据库环境至关重要。

    数据库服务器规划之IO子系统.doc

    数据库服务器的规划是确保高效运行的关键,特别是在IO子系统这一环节。IO子系统涉及服务器对数据的读写性能,直接影响数据库的响应时间和整体性能。在规划数据库服务器的IO子系统时,有两个主要方面需要考虑:磁盘...

    数据库服务器项目技术规范书.doc

    数据库服务器项目技术规范书详细规定了采购方对构建大规模数据库系统的服务器硬件、软件兼容性、安全性、设备能力、服务和配置的要求。以下是这些要求的详细解释: 1. **基本要求**: - **非OEM产品**:确保采购的...

    SQL SERVER数据库故障的定位和修复——从广东汕汾高速公路收费系统一例数据库故障谈起.pdf

    在硬件层面无明显异常的情况下,可以进一步检查数据库配置和操作日志,分析是否因数据库参数设置不当、存储空间不足、索引碎片过多或者并发操作冲突等问题导致的故障。SQL SERVER提供了DBCC CHECKDB命令,用于检查...

    Oracle数据库的故障恢复机制.pdf

    然而,在实际应用中,数据库管理员(DBA)会遇到数据库故障,例如软件方面的数据库指令异常中断、操作系统的系统组件破坏、病毒感染等,以及硬件方面的内存故障、硬盘容量不足、电源崩溃等。这些故障都会给日常的...

    服务器故障应急流程.doc

    服务器故障应急流程是确保企业业务连续性和数据安全性的重要机制。这一流程主要分为以下几个关键部分: 1. **电力故障应急方案**: - 目标是在电力故障时保持关键服务器、路由器和交换机的运行,以维持基本网络...

    数据库服务器安装规范.docx

    数据库服务器的安装规范是保障数据安全和系统稳定运行的关键步骤,以下是对这些规范的详细解释: 一、安装准备与系统调整 在安装数据库之前,必须确保服务器已经过充分的优化和配置,不再需要进一步的改动,例如...

    chap3Oracle数据库服务器的安装与卸载.pptx

    在安装Oracle数据库服务器之前,需要进行充分的准备工作,以确保安装过程的顺利进行。 首先,安装环境的选择至关重要。Oracle数据库对硬件有一定的要求,例如至少需要Pentium 200 MHz的CPU,最小256 MB的RAM(推荐...

Global site tag (gtag.js) - Google Analytics