`
itspace
  • 浏览: 978998 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

记一次Oracle rac vip启动错误处理

阅读更多
这几天出差在外,由于考试将近,在出差途中,也不忘学习啊,悲剧。由于本机上缺少一套rac环境,所以打算在虚拟机上安装Oracle rac 10g,基础环境为linux as3+Oracle 10.2.0.1。公有网卡和私有网卡采用host only模式。本人在虚拟机上安装rac 10g起码不下5次了,考虑到虚拟机的不稳定性,每次安装都不是很顺利,磕磕碰碰,但每次都基本上在1天之内能完成的,但这一次比较郁闷,花的时间比较长,所以值得注意的地方也比较多(以前由于比较顺利,很多地方忽视了)。如需要注意防火墙关闭,主机和宿机之间的时间同步,共享存储的划分,虚拟机参数的设置,虚拟机之间的网关设置,软件包的安装等等。其中有三个地方需要我们尤其注意,
1、软件包的安装,强烈建议将develop tool全装上,如果你时间多,可以一个一个包慢慢安装!
2、虚拟机参数的设置,为了让同行们少走弯路,虚拟机参数应设置为(注意虚拟机版本为
引用
vmware server 2.0)
disk.locking = "FALSE"
diskLib.dataCacheMaxSize = "0"
diskLib.dataCacheMaxReadAheadSize = "0"
diskLib.dataCacheMinReadAheadSize = "0"
diskLib.dataCachePageSize = "4096"
diskLib.maxUnsyncedWrites = "0"
scsi1.present = "TRUE"
scsi1.virtualDev = "lsilogic"
scsi1.sharedBus = "VIRTUAL"

我正是因为参数设置不准确,碰到了很多稀奇古怪的问题,如asm磁盘组不能同时挂载,或者一节点挂载之后,磁盘头损坏等,为了这个问题几乎折腾了一整天,往事不堪回首!因为我当初只设置了如下三个参数:
引用
disk.locking = "FALSE"
diskLib.dataCacheMaxSize = "0"
scsi1.sharedBus = "VIRTUAL"

3、虚拟机共享磁盘最好需分配好大小,这是经验之谈,虽然找不到什么理论根据,但是实践表明预分配好的磁盘出现坏块的几率大大减小,很多莫名其妙的问题就是坏块引起的。但是预分配好磁盘可能会在一开始占用空间。
4、虚拟机不要设置网关,这个问题困扰了很久,也将近耗时1天,之前我设置了和公有网卡同一网段的网关,设置好,安装crs之后,古怪的事情发生了:
a、节点间vip经常莫名掉线
b、vip地址经常跑错节点,即1节点启动2节点的vip,但是1节点不能启动自身vip地址
c、vip地址不能被nodeapp带动
这三个怪现象困扰了我好久,期间尝试了crs重装升级,网卡从hostonly模式转成bridge模式,更换网关,但是故障依旧。crsd.log错误日志也仅仅显示
引用
2011-06-24 13:33:51.682: [  CRSRES][570047408]0Attempting to start `ora.racsvr1.vip` on member `racsvr1`
2011-06-24 13:34:04.374: [  CRSAPP][570047408]0StartResource error for ora.racsvr1.vip error code = 1
2011-06-24 13:34:07.884: [  CRSRES][570047408]0Start of `ora.racsvr1.vip` on member `racsvr1` failed.

使劲浑身解数,问题还得不到解决,比较郁闷,此时突然想起,单独尝试启动vip,错误不一样了

引用
[oracle@racsvr1 oracle]$ crs_start ora.racsvr1.vip
Attempting to start `ora.racsvr1.vip` on member `racsvr1`
Start of `ora.racsvr1.vip` on member `racsvr1` failed.
CRS-1006: No more members to consider

CRS-0215: Could not start resource 'ora.racsvr1.vip'.


马上查metalink,根据 metalink 文档 CRS-0215: Could not start resource 'ora..vip' [ID 356535.1]
修改$ORA_CRS_HOME/bin/racgvip将参数FAIL_WHEN_DEFAULTGW_NOT_FOUND=0,此参数的意思vip启动时检查默认网关不存在时不进行报错。
设置好参数之后,继续尝试启动,这次采用nodeapp带动vip,继续报错。这次报错和metalink 文档Bug 5076555: VIP CRASHING FAIL_WHEN_DEFAULTGW_NOT_FOUND=0 SEEMS TO BE IGNORED很类似,但是没有解决方案。这里需要鄙视一下Oracle,Oracle既然已经将其归为bug了,竟然无动于衷,解决方案也不给一个。
引用
[oracle@racsvr1 oracle]$ srvctl start nodeapps -n racsvr1
racsvr1:ora.racsvr1.vip:ping to 10.20.30.99 via eth0 failed, rc = 1 (host=racsvr1)
racsvr1:ora.racsvr1.vip:ping to 10.20.30.99 via eth0 failed, rc = 1 (host=racsvr1)
racsvr1:ora.racsvr1.vip:Interface eth0 checked failed (host=racsvr1)
racsvr1:ora.racsvr1.vip:Invalid parameters, or failed to bring up VIP (host=racsvr1)
CRS-1006: No more members to consider
CRS-0215: Could not start resource 'ora.racsvr1.vip'.
racsvr1:ora.racsvr1.vip:ping to 10.20.30.99 via eth0 failed, rc = 1 (host=racsvr1)
racsvr1:ora.racsvr1.vip:ping to 10.20.30.99 via eth0 failed, rc = 1 (host=racsvr1)
racsvr1:ora.racsvr1.vip:Interface eth0 checked failed (host=racsvr1)
racsvr1:ora.racsvr1.vip:Invalid parameters, or failed to bring up VIP (host=racsvr1)
CRS-1006: No more members to consider
CRS-0215: Could not start resource 'ora.racsvr1.LISTENER_RACSVR1.lsnr'.

其实上面提示已经很明确,ping to 10.20.30.99 via eth0 failed,但是我们ping网关完全没问题
引用
[oracle@racsvr1 oracle]$ ping 10.20.30.99
PING 10.20.30.99 (10.20.30.99) 56(84) bytes of data.
64 bytes from 10.20.30.99: icmp_seq=0 ttl=64 time=0.028 ms
64 bytes from 10.20.30.99: icmp_seq=1 ttl=64 time=0.028 ms
64 bytes from 10.20.30.99: icmp_seq=2 ttl=64 time=0.028 ms
64 bytes from 10.20.30.99: icmp_seq=3 ttl=64 time=0.026 ms

--- 10.20.30.99 ping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 3032ms
rtt min/avg/max/mdev = 0.026/0.027/0.028/0.005 ms, pipe 2

此时解决又一陷入僵局,FAIL_WHEN_DEFAULTGW_NOT_FOUND参数不起作用!根据此参数的说明
引用
# set it to 0 for checkIf() to return success if default gateway is not found,

似乎此参数仅仅在网关不存在时才生效?于是马上删除网关:
引用
[oracle@racsvr1 oracle]$ su -
Password:
[root@racsvr1 root]#  route delete default gw 10.20.30.99

为了启动生效,将配置文件也同时注释掉网关内容
引用
#cat /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=racsvr1
#GATEWAY=10.20.30.99

再次启动vip时,终于启动成功了!鼓掌!!!
引用
[oracle@racsvr1 oracle]$ crs_start ora.racsvr1.vip
Attempting to start `ora.racsvr1.vip` on member `racsvr1`
Start of `ora.racsvr1.vip` on member `racsvr1` succeeded.


以上问题,可能在实体机上不会碰到,也可能我对vmware掌握不精(本来就不精),反正终于解决了!!!记录一下安装时间(6.22 16:00-6.24:14:30),以作留念!
分享到:
评论

相关推荐

    安装Oracle11gR2RAC的记录

    在给出的知识点中,主要涉及到Oracle11g RAC(Real ...安装Oracle RAC还会涉及到节点间的网络通信配置、VIP(虚拟IP)的设置以及共享存储的配置。在安装过程中,应仔细阅读Oracle的官方文档,并遵循其推荐的最佳实践。

    ORACLE中安装RAC指导书(初学者总结).

    Oracle RAC,全称为Real Application Clusters,是Oracle数据库的一项高级特性,允许多个数据库实例同时访问同一物理数据存储,提供高可用性和负载均衡。对于初学者来说,理解并掌握RAC的安装过程至关重要,因为这将...

    oracle 10G rac

    在Linux环境下部署Oracle 10g RAC,可以充分利用Linux平台的稳定性和安全性特性,为关键业务提供强大的数据管理和处理能力。 #### 二、安装前准备 **1. 修改虚拟机配置** 在安装Oracle 10g RAC之前,需要先进行...

    oracle_RAC维护.docoracle_RAC维护.doc

    Oracle RAC(Real Application Clusters)是Oracle数据库的一个高级特性,它允许多个实例同时访问同一个物理数据库,提供高可用性和负载均衡。在RAC环境中,数据库被分布式存储在多个节点上,每个节点上运行一个...

    Oracle 19c CDB RAC To RAC ActiveDataguard部署方案

    在本文档中,我们将详细介绍如何部署一个Oracle 19c CDB RAC (Real Application Clusters) 到另一个RAC环境下的ActiveDataGuard(ADG)。此部署方案不仅适用于灾难恢复场景,还能在生产环境中实现近实时的数据复制,...

    HACMP&RAC启停操作

    这将依次停止RAC相关的各种服务,如Global Services Daemon (GSD),Oracle Notification Service (ONS),VIP,以及监听器等。 请注意,这些操作应该在有经验的DBA或系统管理员的指导下进行,因为错误的操作可能导致...

    OracleClusterware.pptx

    Oracle Clusterware是一款由Oracle公司提供的集群软件,它在Oracle Real Application Clusters (RAC)环境中起着至关重要的作用。RAC是一种高可用性解决方案,允许多个数据库实例在共享的物理硬件上同时运行,以实现...

    ORACLE_CRS日常维护命令

    Oracle Cluster Resource Manager (CRS) 是Oracle Real Application Clusters (RAC) 环境中的核心组件,负责管理和监控集群中的资源。这篇文章将详细介绍ORACLE CRS的一些常用维护命令,帮助你进行日常操作。 1. ...

    Oracle数据库日常维护手册v1.8.pdf

    在对Oracle数据库进行日常维护时,涉及到的管理和检查项目十分丰富,包括对数据库状态的检查、日志文件的审核、对象状态的监控、性能的监控、安全性检查、Oracle RAC运行状态的监控以及一些其他必要检查等。...

    kettle集群配置需要

    9. **集群配置注意事项**:在Kettle集群配置中,可能需要考虑数据同步、作业调度和错误处理策略,以确保整个集群的一致性和可靠性。 总之,配置Kettle连接Oracle RAC的关键在于创建一个描述所有RAC节点的...

    BLOG_OCR的备份与恢复_LHR.pdf

    11. 故障排查和文档的正确查阅:在处理Oracle集群问题时,经常需要根据实际错误信息,查阅Oracle Metalink文档和社区论坛,找到对应的解决方案。同时,故障排查过程中,要仔细分析集群状态和日志文件,以确保采取的...

Global site tag (gtag.js) - Google Analytics