断电故障导致ASM DiskGroup故障及恢复案例
ASM在RAC环境中的使用已经极其广泛,但是往往由于对ASM的认识不够,很多时候在处理故障时会陷入谜团,前一段在客户环境中就遇到了一个ASM的棘手问题。
客户由于断电导致了存储故障,进而使得部分磁盘对主机不可见,某个磁盘组无法加载,此时客户尝试过重启数据库,结果遇到了如下错误:
- Thu Jun 25 05:00:11 2009
-
Errors in file /u01/app/oracle/admin/billing/udump
- /billing1_ora_8184.trc:
-
ORA-15062: ASM disk is globally closed
-
ORA-15025: could not open disk '/dev/rdsk/c12t0d2'
-
ORA-27041: unable to open file
-
HPUX-ia64 Error: 6: No such device or address
- Additional information: 3
- Thu Jun 25 05:00:29 2009
-
Errors in file /u01/app/oracle/admin/billing/udump
- /billing1_ora_8761.trc:
- ORA-15062: ASM 磁盘已全局关闭
-
ORA-15025: 无法打开磁盘 '/dev/rdsk/c12t0d2'
- ORA-27041: 无法打开文件
-
HPUX-ia64 Error: 6: No such device or address
- Additional information: 3
- Thu Jun 25 05:00:29 2009
-
Errors in file /u01/app/oracle/admin/billing/udump
- /billing1_ora_8759.trc:
-
ORA-15062: ASM disk is globally closed
-
ORA-15025: could not open disk '/dev/rdsk/c12t0d2'
-
ORA-27041: unable to open file
-
HPUX-ia64 Error: 6: No such device or address
- Additional information: 3
注意在这个提示中,有一个重要提示:ORA-15062: ASM 磁盘已全局关闭。也就是说,由于磁盘无法访问,ASM将磁盘全局关闭,ASM磁盘组也不可用。
如果强制打开数据库,Oracle会将该磁盘组的所有文件OFFLINE离线处理,然后Open数据库:
- Thu Jun 25 06:10:41 2009
-
KCF: write/open error block=0xce0db online=1
- file=148 +DG_DATA_03/billing/datafile/tbs_table_20.256.654268217
-
error=15081 txt: ''
-
Automatic datafile offline due to write error on
- file 148: +DG_DATA_03/billing/datafile/tbs_table_20.256.654268217
-
KCF: write/open error block=0x72b online=1
- file=21 +DG_DATA_03/billing/datafile/tbs_idx_20.265.654273237
-
error=15078 txt: ''
-
Automatic datafile offline due to write error on
- file 21: +DG_DATA_03/billing/datafile/tbs_idx_20.265.654273237
-
KCF: write/open error block=0x4c6e9 online=1
- file=50 +DG_DATA_03/billing/datafile/tbs_dailytable_20.270.656595577
-
error=15078 txt: ''
这就造成了进一步的一个现象,在数据库看来,始终有一个磁盘组处于MOUNTED的状态,数据库无法连接,也就无法访问其中的数据:
- SQL> select name,state from v$asm_diskgroup_stat;
-
NAME STATE
-
- DG_DATA_01 CONNECTED
- DG_DATA_02 CONNECTED
- DG_DATA_03 MOUNTED
这其实很正常,Oracle不访问该DG中的磁盘,该磁盘就保持了MOUNTED状态,我们只要尝试访问该磁盘中的文件,该磁盘组就会显示为数据库连接的CONNECTED状态。简单地通过如下rman的copy命令就激活了该磁盘组的磁盘访问:
- RMAN> copy datafile '+DG_DATA_03/billing/datafile
-
/tbs_20.264.654269073' to '/backup/a.dbf';
接下来通过recover那些被OFFLINE的文件,再执行ONLINE操作,就将数据库恢复到了正常状态。
分享到:
相关推荐
标题中的“【故障】ASM diskgroup dismount with \"Waited 15 secs for write IO to PST\"”描述了一个Oracle Automatic Storage Management (ASM)磁盘组出现的问题,即在尝试卸载ASM磁盘组时,系统等待了15秒用于...
2. **恢复操作**:根据故障原因,可能需要重启ASM实例、修复硬件、恢复网络连接或者调整配置。 3. **数据恢复**:如果OCR或Voting Disk的数据丢失,可能需要从备份恢复。确保有定期备份并验证备份的可用性至关重要...
Oracle RAC ASM 磁盘组故障解决办法 本文旨在解决 Oracle RAC 环境中的磁盘组故障问题,具体来说是解决磁盘无法挂载、集群服务无法启动的问题。通过对问题的分析和解决,文章将从问题的背景、问题描述、故障解决...
- **ASM_DISKGROUP、ASM_DISKSTRING、ASM_POWER_LIMIT**:这些参数用于控制ASM实例的行为,如磁盘组的定义、故障恢复策略等。 综上所述,ASM体系结构的设计充分考虑了高性能、高可用性和易于管理的需求,通过其丰富...
- **故障恢复**:当出现磁盘故障时,可以通过该视图来确定受影响的磁盘,并采取相应的恢复措施。 ### 2. V$ASM_DISKGROUP 视图 #### 2.1 概述 `V$ASM_DISKGROUP`视图提供了ASM磁盘组的相关信息,包括磁盘组的状态...
故障分析阶段,我们发现ASM存储的元数据损坏,这是导致无法挂载diskgroup的主要原因。元数据是ASM管理磁盘组结构的关键信息,包括数据文件的位置、大小等。因此,恢复的第一步是获取ASM的底层元数据,并尝试重组存储...
- **视图**:Oracle提供了多个V$视图,如V$ASM_DISKGROUP、V$ASM_DISK、V$ASM_OPERATION等,用于监控ASM的状态和性能。 - **X$视图**:X$前缀的视图提供了更底层的ASM信息,如X$KFFXP、X$KFGRP等,通常用于故障诊断...
在面临ASM恢复时,了解其内部工作原理以及如何备份和恢复ASM磁盘头是关键。可以参考如CSDN博主tianlesoftware的文章系列,以及Oracle官方文档,以获取更深入的ASM知识。例如,了解如何使用RMAN(Recovery Manager)...
DISKGROUP ASM_DISKSTRING ASM_POWER_LIMIT ASM_PREFERRED_READ_FAILURE_GROUPS INSTANCE_TYPE` 涉及到 ASM 参数,包括磁盘组参数、磁盘字符串(标识 ASM 磁盘)、电源限制(ASM 功率限制控制再平衡操作的速度)以及...
磁盘组是ASM存储的逻辑单位,包含一组磁盘,提供冗余和故障恢复能力。可以创建、扩展、修改和删除磁盘组,以调整存储策略和容量。 - **查询ASM信息** 使用SQL查询语句或者ASM专用工具如`asmcmd`,可以获取ASM...
3.迁移步骤的详细说明:整个迁移过程可以分为十个步骤,包括划分 ASM 磁盘、备份 OCR、Voting Disk、ASM 磁盘头和数据库、创建新的 DISKGROUP、迁移 OCR 和 Vote Disks 到新磁盘组、迁移 ASM Spfile 到新磁盘组、...
本文将详细介绍Oracle12c中关于ASM(Automatic Storage Management)磁盘组管理的关键知识点,包括磁盘组属性的理解与配置、创建磁盘组的过程及注意事项。 #### 一、Disk Group 属性详解 磁盘组属性是指绑定到特定...
ALTER DISKGROUP data SET ATTRIBUTE 'compatible.asm' = '11.2.0.3'; ``` ##### 3. 再平衡操作 ```sql ALTER DISKGROUP data REBALANCE; ``` 通过上述介绍,我们可以看到Oracle ASM不仅是一种高效的存储管理系统...
对于高可用性环境来说,备份和恢复Oracle Cluster Registry (OCR) 文件以及Voting disk是非常重要的,这有助于在集群故障后快速恢复服务。 ##### 8.3 ASM元数据备份与修复 定期备份ASM的元数据,并掌握如何在必要时...
ASM是Oracle数据库系统中一个集成的存储管理解决方案,它提供了自动化的磁盘管理和故障恢复功能,简化了存储管理,并提高了系统的性能和可用性。 **ASM的基本概念** Oracle ASM是一种自动化的、基于集群的存储管理...
Oracle ASM(Automatic Storage Management)是Oracle数据库中的一种集成存储管理系统,它提供了自动化的磁盘管理和故障恢复功能。本文主要讨论了在ASM实例遇到问题时如何进行重启操作,以确保数据库服务的连续性和...
asm diskgroup迁移存储和数据diskgroup修改normal冗余