【故障】ASM diskgroup dismount with "Waited 15 secs for write IO to PST"

Askerain

浏览: 35513 次
性别:
来自: 杭州

最近访客更多访客>>

nangon

zyc201909

a5546868001

jackhman

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Oracle数据库故障修复
Oracle数据库理论基础

oracle _asm_hbeatiowait ASM diskgroup dismount Waited 15 secs for write IO to PST

ASM diskgroup dismount with "Waited 15 secs for write IO to PST"

SYMPTOMS

Normal or high redundancy diskgroup is dismounted with these WARNING messages.

Note-ASM alert.log

Sat Mar 07 05:03:10 2015
WARNING: Waited 15 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 15 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 18 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 18 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 21 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 21 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 24 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 24 secs for write IO to PST disk 1 in group 2.
Sat Mar 07 05:03:22 2015
WARNING: Waited 27 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 27 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 30 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 30 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 33 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 33 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 36 secs for write IO to PST disk 1 in group 2.
WARNING: Waited 36 secs for write IO to PST disk 1 in group 2.
Sat Mar 07 05:03:34 2015

ASM alert.log日志中出现如上所示的WARNING信息：WARNING: Waited 15 secs for write IO to PST disk 1 in group 2.该日志信息的大意为PST通信链路在访问磁盘组2中的磁盘1的时候等待了15秒钟，而且触发了持续的等待。超时等待会在频率触发的基础上递增每次的等待时间。出现这种状况的原因一般与操作系统网络通信链路，数据库主机磁盘或者超时参数的设置有关。我们继续查看ASM的alert.log日志来进一步分析。

Note-DiskGroup Dsimounted

Mon Mar 09 16:32:11 2015
NOTE: process _b000_+asm1 (1051) initiating offline of disk 0.3915951733 (DATA_0000) with mask 0x7e in group 2
NOTE: process _b000_+asm1 (1051) initiating offline of disk 1.3915951732 (DATA_0001) with mask 0x7e in group 2
NOTE: checking PST: grp = 2
GMON checking disk modes for group 2 at 7 for pid 28, osid 1051
ERROR: no read quorum in group: required 2, found 1 disks
NOTE: checking PST for grp 2 done.
NOTE: initiating PST update: grp = 2, dsk = 0/0xe968ae75, mask = 0x6a, op = clear
NOTE: initiating PST update: grp = 2, dsk = 1/0xe968ae74, mask = 0x6a, op = clear
GMON updating disk modes for group 2 at 8 for pid 28, osid 1051
ERROR: no read quorum in group: required 2, found 1 disks
Mon Mar 09 16:32:11 2015
NOTE: cache dismounting (not clean) group 2/0xEF985E9D (DATA) 
NOTE: messaging CKPT to quiesce pins Unix process pid: 1056, image: oracle@rac1 (B001)
Mon Mar 09 16:32:11 2015
NOTE: halting all I/Os to diskgroup 2 (DATA)
Mon Mar 09 16:32:11 2015
NOTE: LGWR doing non-clean dismount of group 2 (DATA)
NOTE: LGWR sync ABA=30.108 last written ABA 30.108
WARNING: Offline for disk DATA_0000 in mode 0x7f failed.
WARNING: Offline for disk DATA_0001 in mode 0x7f failed

磁盘组2中的磁盘1因为某种原因导致反应缓慢或者HANG住，从而在ASM层面触发等待。但是，oracle的ASM机制仅仅在磁盘noresponsiness状态等待15秒钟，这是默认情况下的设置。虽然持续等待机制在11.2.0.4版本中会自动增加等待时间，但是该磁盘IO的等待也会有一个极限。当ASM确信磁盘组中的磁盘没有反应之后，便会OFFLINE该目标故障磁盘。

Mon Mar 09 16:32:11 2015
kjbdomdet send to inst 2
detach from dom 2, sending detach message to inst 2
Mon Mar 09 16:32:11 2015
NOTE: No asm libraries found in the system
Mon Mar 09 16:32:11 2015
List of instances:
 1 2
Dirty detach reconfiguration started (new ddet inc 1, cluster inc 16)
ASM Health Checker found 1 new failures
 Global Resource Directory partially frozen for dirty detach
* dirty detach - domain 2 invalid = TRUE 
 128 GCS resources traversed, 0 cancelled
Dirty Detach Reconfiguration complete
Mon Mar 09 16:32:11 2015

同时，oracle ASM也会尝试重新配置ASM 相应故障磁盘的通信链路并保存此时的集群件和ASM通信链路的状态。在以上的日志信息中表现为DETACH RECONFIGURATION信息。在此之后Oracle会尝试重新建立故障盘的通信链路和MOUNT目标磁盘组，从而恢复原有的正常状态。

Mon Mar 09 16:32:27 2015
 Received dirty detach msg from inst 2 for dom 2
Mon Mar 09 16:32:27 2015
List of instances:
 1 2
Dirty detach reconfiguration started (new ddet inc 2, cluster inc 16)
 Global Resource Directory partially frozen for dirty detach
* dirty detach - domain 2 invalid = TRUE 
 128 GCS resources traversed, 0 cancelled
freeing rdom 2
Dirty Detach Reconfiguration complete

Mon Mar 09 16:32:41 2015
NOTE:Waiting for all pending writes to complete before de-registering: grpnum 2
Mon Mar 09 16:32:58 2015
Errors in file /u01/app/grid/diag/asm/+asm/+ASM1/trace/+ASM1_ora_14247.trc:
ORA-15079: ASM file is closed
Errors in file /u01/app/grid/diag/asm/+asm/+ASM1/trace/+ASM1_ora_14247.trc:
ORA-15079: ASM file is closed
Errors in file /u01/app/grid/diag/asm/+asm/+ASM1/trace/+ASM1_ora_14247.trc:
ORA-15079: ASM file is closed
Errors in file /u01/app/grid/diag/asm/+asm/+ASM1/trace/+ASM1_ora_14247.trc:
ORA-15079: ASM file is closed

Mon Mar 09 16:33:11 2015
SUCCESS: diskgroup DATA was dismounted
SUCCESS: alter diskgroup DATA dismount force /* ASM SERVER:4019740317 */
Mon Mar 09 16:33:11 2015
NOTE: diskgroup resource ora.DATA.dg is offline
SUCCESS: ASM-initiated MANDATORY DISMOUNT of group DATA
Mon Mar 09 16:33:11 2015
Errors in file /u01/app/grid/diag/asm/+asm/+ASM1/trace/+ASM1_ora_14247.trc:
ORA-15078: ASM diskgroup was forcibly dismounted
Errors in file /u01/app/grid/diag/asm/+asm/+ASM1/trace/+ASM1_ora_14247.trc:
ORA-15078: ASM diskgroup was forcibly dismounted
Errors in file /u01/app/grid/diag/asm/+asm/+ASM1/trace/+ASM1_ora_14247.trc:
ORA-15078: ASM diskgroup was forcibly dismounted
WARNING: requested mirror side 1 of virtual extent 5 logical extent 0 offset 724992 is not allocated; I/O request failed
WARNING: requested mirror side 2 of virtual extent 5 logical extent 1 offset 724992 is not allocated; I/O request failed
Errors in file /u01/app/grid/diag/asm/+asm/+ASM1/trace/+ASM1_ora_14247.trc:
ORA-15078: ASM diskgroup was forcibly dismounted
ORA-15078: ASM diskgroup was forcibly dismounted
Mon Mar 09 16:33:11 2015
SQL> alter diskgroup DATA check /* proxy */ 
ORA-15032: not all alterations performed
ORA-15001: diskgroup "DATA" does not exist or is not mounted
ERROR: alter diskgroup DATA check /* proxy */
NOTE: client exited [14233]
Mon Mar 09 16:33:16 2015
NOTE: [crsd.bin@rac1 (TNS V1-V3) 1581] opening OCR file

CAUSE

Delayed ASM PST heart beats on ASM disks in normal or high redundancy diskgroup,thus the ASM instance dismount the diskgroup.By default, it is 15 seconds.
By the way the heart beat delays are sort of ignored for external redundancy diskgroup.ASM instance stop issuing more PST heart beat until it succeeds PST revalidation.
but the heart beat delays do not dismount external redundancy diskgroup directly.

+ Some of the paths of the physical paths of the multipath device are offline or lost

+ During path 'failover' in a multipath set up

+ Server load, or any sort of storage/multipath/OS maintenance

The Doc ID 10109915.8 briefs about Bug 10109915(this fix introduce this underscore parameter). And the issue is with no OS/Storage tunable timeout mechanism in a case of a Hung NFS Server/Filer.And then _asm_hbeatiowait helps in setting the time out.

SOLUTION

1] Check with OS and Storage admin that there is disk unresponsiveness.

2] Possibly keep the disk responsiveness to below 15 seconds.

This will depend on various factors like
+ Operating System
+ Presence of Multipath ( and Multipath Type )
+ Any kernel parameter

So you need to find out, what is the 'maximum' possible disk unresponsiveness for your set up.For example, on AIX rw_timeout setting affects this and defaults to 30 seconds.
Another example is Linux with native multipathing. In such set up, number of physical paths and polling_interval value in multipath.conf file, will dictate this maximum disk unresponsiveness.
So for your set up ( combination of OS / multipath / storage ), you need to find out this.
3] If you can not keep the disk unresponsiveness to below 15 seconds, then the below parameter can be set in the ASM instance ( on all the Nodes of RAC ):

_asm_hbeatiowait

As per internal bug 17274537 , based on internal testing the value should be increased to 120 secs, the same will be fixed in 12.2
Run below in asm instance to set desired value for _asm_hbeatiowait

alter system set "_asm_hbeatiowait"=<value> scope=spfile sid='*';

And then restart asm instance / crs, to take new parameter value in effect.

alert__ASM1.zip (24.9 KB)
下载次数: 0

分享到：

【故障】SYSAUX表空间使用率过高的问题处理 | 【故障】RAC ASM磁盘路径故障导致OCR和Vo ...

2016-05-04 11:30
浏览 2952
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

【故障】ASM diskgroup dismount with \"Waited 15 secs for write IO to PST\": 标题中的“【故障】ASM diskgroup dismount with \"Waited 15 secs for write IO to PST\"”描述了一个Oracle Automatic Storage Management (ASM)磁盘组出现的问题，即在尝试卸载ASM磁盘组时，系统等待了15秒用于...

《数据结构》（02331）基础概念: 内容概要：本文档《数据结构》（02331）第一章主要介绍数据结构的基础概念，涵盖数据与数据元素的定义及其特性，详细阐述了数据结构的三大要素：逻辑结构、存储结构和数据运算。逻辑结构分为线性结构（如线性表、栈、队列）、树形结构（涉及根节点、父节点、子节点等术语）和其他结构。存储结构对比了顺序存储和链式存储的特点，包括访问方式、插入删除操作的时间复杂度以及空间分配方式，并介绍了索引存储和散列存储的概念。最后讲解了抽象数据类型（ADT）的定义及其组成部分，并探讨了算法分析中的时间复杂度计算方法。适合人群：计算机相关专业学生或初学者，对数据结构有一定兴趣并希望系统学习其基础知识的人群。使用场景及目标：①理解数据结构的基本概念，掌握逻辑结构和存储结构的区别与联系；②熟悉不同存储方式的特点及应用场景；③学会分析简单算法的时间复杂度，为后续深入学习打下坚实基础。阅读建议：本章节内容较为理论化，建议结合实际案例进行理解，尤其是对于逻辑结构和存储结构的理解要深入到具体的应用场景中，同时可以尝试编写一些简单的程序来加深对抽象数据类型的认识。

【工业自动化】施耐德M580 PLC系统架构详解：存储结构、硬件配置与冗余设计: 内容概要：本文详细介绍了施耐德M580系列PLC的存储结构、系统硬件架构、上电写入程序及CPU冗余特性。在存储结构方面，涵盖拓扑寻址、Device DDT远程寻址以及寄存器寻址三种方式，详细解释了不同类型的寻址方法及其应用场景。系统硬件架构部分，阐述了最小系统的构建要素，包括CPU、机架和模块的选择与配置，并介绍了常见的系统拓扑结构，如简单的机架间拓扑和远程子站以太网菊花链等。上电写入程序环节，说明了通过USB和以太网两种接口进行程序下载的具体步骤，特别是针对初次下载时IP地址的设置方法。最后，CPU冗余部分重点描述了热备功能的实现机制，包括IP通讯地址配置和热备拓扑结构。适合人群：从事工业自动化领域工作的技术人员，特别是对PLC编程及系统集成有一定了解的工程师。使用场景及目标：①帮助工程师理解施耐德M580系列PLC的寻址机制，以便更好地进行模块配置和编程；②指导工程师完成最小系统的搭建，优化系统拓扑结构的设计；③提供详细的上电写入程序指南，确保程序下载顺利进行；④解释CPU冗余的实现方式，提高系统的稳定性和可靠性。其他说明：文中还涉及一些特殊模块的功能介绍，如定时器事件和Modbus串口通讯模块，这些内容有助于用户深入了解M580系列PLC的高级应用。此外，附录部分提供了远程子站和热备冗余系统的实物图片，便于用户直观理解相关概念。

某型自动垂直提升仓储系统方案论证及关键零部件的设计.zip: 某型自动垂直提升仓储系统方案论证及关键零部件的设计.zip

2135D3F1EFA99CB590678658F575DB23.pdf#page=1&view=fitH: 2135D3F1EFA99CB590678658F575DB23.pdf#page=1&view=fitH

agentransack文本搜索软件: 可以搜索文本内的内容，指定目录，指定文件格式，匹配大小写等

Windows 平台 Android Studio 下载与安装指南.zip: Windows 平台 Android Studio 下载与安装指南.zip

Android Studio Meerkat 2024.3.1 Patch 1（android-studio-2024.3.1.14-windows-zip.zip.002): Android Studio Meerkat 2024.3.1 Patch 1（android-studio-2024.3.1.14-windows.zip）适用于Windows系统，文件使用360压缩软件分割成两个压缩包，必须一起下载使用： part1: https://download.csdn.net/download/weixin_43800734/90557033 part2: https://download.csdn.net/download/weixin_43800734/90557035

4-3-台区智能融合终端功能模块技术规范（试行）.pdf: 国网台区终端最新规范

4-13-台区智能融合终端软件检测规范（试行）.pdf: 国网台区终端最新规范

【锂电池剩余寿命预测】Transformer-GRU锂电池剩余寿命预测（Matlab完整源码和数据）: 1.【锂电池剩余寿命预测】Transformer-GRU锂电池剩余寿命预测（Matlab完整源码和数据） 2.数据集：NASA数据集，已经处理好，B0005电池训练、B0006测试； 3.环境准备：Matlab2023b，可读性强； 4.模型描述：Transformer-GRU在各种各样的问题上表现非常出色，现在被广泛使用。 5.领域描述：近年来，随着锂离子电池的能量密度、功率密度逐渐提升，其安全性能与剩余使用寿命预测变得愈发重要。本代码实现了Transformer-GRU在该领域的应用。 6.作者介绍：机器学习之心，博客专家认证，机器学习领域创作者，2023博客之星TOP50，主做机器学习和深度学习时序、回归、分类、聚类和降维等程序设计和案例分析，文章底部有博主联系方式。从事Matlab、Python算法仿真工作8年，更多仿真源码、数据集定制私信。

基于android的家庭收纳App的设计与实现.zip: Android项目原生java语言课程设计，包含LW+ppt

大学生入门前端-五子棋vue项目: 大学生入门前端-五子棋vue项目

二手车分析完整项目，包含源代码和数据集，包含：XGBoost 模型，训练模型代码，数据集包含 10,000 条二手车记录的数据集，涵盖车辆品牌、型号、年份、里程数、发动机缸数、价格等: 这是一个完整的端到端解决方案，用于分析和预测阿联酋（UAE）地区的二手车价格。数据集包含 10,000 条二手车信息，覆盖了迪拜、阿布扎比和沙迦等城市，并提供了精确的地理位置数据。此外，项目还包括一个基于 Dash 构建的 Web 应用程序代码和一个训练好的 XGBoost 模型，帮助用户探索区域市场趋势、预测车价以及可视化地理空间洞察。数据集内容项目文件以压缩 ZIP 归档形式提供，包含以下内容：数据文件： data/uae_used_cars_10k.csv：包含 10,000 条二手车记录的数据集，涵盖车辆品牌、型号、年份、里程数、发动机缸数、价格、变速箱类型、燃料类型、颜色、描述以及销售地点（如迪拜、阿布扎比、沙迦）。模型文件： models/stacking_model.pkl：训练好的 XGBoost 模型，用于预测二手车价格。 models/scaler.pkl：用于数据预处理的缩放器。 models.py：模型相关功能的实现。 train_model.py：训练模型的脚本。 Web 应用程序文件： app.py：Dash 应用程序的主文件。 callback

《基于YOLOv8的船舶航行违规并线预警系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

《基于YOLOv8的工业布匹瑕疵分类系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

CodeCount.exe: 此为代码审查工具可查文件数，字节数，总行数，代码行数，注释行数，空白行数，注释率等

商业数据分析与Python实现：企业破产概率及抽样技术解析（复现论文或解答问题，含详细可运行代码及解释）: 内容概要：本文档涵盖了一项关于企业破产概率的详细分析任务，分为书面回答和Python代码实现两大部分。第一部分涉及对业务类型和破产状态的边际分布、条件分布及相对风险的计算，并绘制了相应的二维条形图。第二部分利用Python进行了数据处理和可视化，包括计算比值比、识别抽样技术类型、分析鱼类数据集以及探讨辛普森悖论。此外，还提供了针对鱼类和树木数据的统计分析方法。适合人群：适用于有一定数学和编程基础的学习者，尤其是对统计学、数据分析感兴趣的大学生或研究人员。使用场景及目标：①帮助学生掌握统计学概念如边际分布、条件分布、相对风险和比值比的实际应用；②教授如何用Python进行数据清洗、分析和可视化；③提高对不同类型抽样技术和潜在偏见的理解。其他说明：文档不仅包含了理论知识讲解，还有具体的代码实例供读者参考实践。同时提醒读者在完成作业时需要注意提交格式的要求。

MCP快速入门实战，详细的实战教程: MCP快速入门实战，详细的实战教程

python，playwright基础: python，playwright基础

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论