在Oracle数据库运行期间,DBA应该对数据库的运行日志及表空间的使用情况进行监控,及早发现数据库中存在的问题。
一、Oracle警告日志文件监控
Oracle在运行过程中,会在警告日志文件(alert_SID.log)中记录数据库的一些运行情况:
●数据库的启动、关闭,启动时的非缺省参数;
●数据库的重做日志切换情况,记录每次切换的时间,及如果因为检查点(checkpoint)操作没有执行完成造成不能切换,会记录不能
切换的原因;
●对数据库进行的某些操作,如创建或删除表空间、增加数据文件;
●数据库发生的错误,如表空间不够、出现坏块、数据库内部错误(ORA-600)
DBA应该定期检查日志文件,根据日志中发现的问题及时进行处理
问题处理
启动参数不对检查初始化参数文件
因为检查点操作或归档操作没有完成造成重做日志不能切换如果经常发生这样的情况,可以考虑增加重做日志文件组;想办法提高检
查点或归档操作的效率;
有人未经授权删除了表空间检查数据库的安全问题,是否密码太简单;如有必要,撤消某些用户的系统权限
出现坏块检查是否是硬件问题(如磁盘本生有坏块),如果不是,检查是那个数据库对象出现了坏块,对这个对象进行重建
表空间不够增加数据文件到相应的表空间
出现ORA-600根据日志文件的内容查看相应的TRC文件,如果是Oracle的bug,要及时打上相应的补丁
二、数据库表空间使用情况监控(字典管理表空间)
数据库运行了一段时间后,由于不断的在表空间上创建和删除对象,会在表空间上产生大量的碎片,DBA应该及时了解表空间的碎片
和可用空间情况,以决定是否要对碎片进行整理或为表空间增加数据文件。
select tablespace_name,
count(*) chunks ,
max(bytes/1024/1024) max_chunk
from dba_free_space
group by tablespace_name;
上面的SQL列出了数据库中每个表空间的空闲块情况,如下所示:
TABLESPACE_NAME CHUNKS MAX_CHUNK
-------------------- ---------- ----------
INDX 1 57.9921875
RBS 3 490.992188
RMAN_TS 1 16.515625
SYSTEM 1 207.296875
TEMP 20 70.8046875
TOOLS 1 11.8359375
USERS 67 71.3671875
其中,CHUNKS列表示表空间中有多少可用的空闲块(每个空闲块是由一些连续的Oracle数据块组成),如果这样的空闲块过多,比如平
均到每个数据文件上超过了100个,那么该表空间的碎片状况就比较严重了,可以尝试用以下的SQL命令进行表空间相邻碎片的接合:
alter tablespace 表空间名 coalesce;
然后再执行查看表空间碎片的SQL语句,看表空间的碎片有没有减少。如果没有效果,并且表空间的碎片已经严重影响到了数据库的
运行,则考虑对该表空间进行重建。
MAX_CHUNK列的结果是表空间上最大的可用块大小,如果该表空间上的对象所需分配的空间(NEXT值)大于可用块的大小的话,就会提
示ORA-1652、ORA-1653、ORA-1654的错误信息,DBA应该及时对表空间的空间进行扩充,以避免这些错误发生。
对表空间的扩充对表空间的数据文件大小进行扩展,或向表空间增加数据文件,具体操作见“存储管理”部份。
三、查看数据库的连接情况
DBA要定时对数据库的连接情况进行检查,看与数据库建立的会话数目是不是正常,如果建立了过多的连接,会消耗数据库的资源。
同时,对一些“挂死”的连接,可能会需要DBA手工进行清理。
以下的SQL语句列出当前数据库建立的会话情况:
select sid,serial#,username,program,machine,status
from v$session;
输出结果为:
SID SERIAL# USERNAME PROGRAM MACHINE STATUS
---- ------- ---------- ----------- --------------- --------
1 1 ORACLE.EXE WORK3 ACTIVE
2 1 ORACLE.EXE WORK3 ACTIVE
3 1 ORACLE.EXE WORK3 ACTIVE
4 1 ORACLE.EXE WORK3 ACTIVE
5 3 ORACLE.EXE WORK3 ACTIVE
6 1 ORACLE.EXE WORK3 ACTIVE
7 1 ORACLE.EXE WORK3 ACTIVE
8 27 SYS SQLPLUS.EXE WORKGROUP\WORK3 ACTIVE
11 5 DBSNMP dbsnmp.exe WORKGROUP\WORK3 INACTIVE
其中,
SID 会话(session)的ID号;
SERIAL# 会话的序列号,和SID一起用来唯一标识一个会话;
USERNAME 建立该会话的用户名;
PROGRAM 这个会话是用什么工具连接到数据库的;
STATUS 当前这个会话的状态,ACTIVE表示会话正在执行某些任务,INACTIVE表示当前会话没有执行任何操作;
如果DBA要手工断开某个会话,则执行:
alter system kill session 'SID,SERIAL#';
注意,上例中SID为1到7(USERNAME列为空)的会话,是Oracle的后台进程,不要对这些会话进行任何操作。
四、控制文件的备份
在数据库结构发生变化时,如增加了表空间,增加了数据文件或重做日志文件这些操作,都会造成Oracle数据库控制文件的变化,
DBA应及进行控制文件的备份,备份方法是:
执行SQL语句:
alter database
backup controlfile to '/home/backup/control.bak';
或:
alter database
backup controlfile to trace;
这样,会在USER_DUMP_DEST(初始化参数文件中指定)目录下生成创建控制文件的SQL命令。
五、检查数据库文件的状态
DBA要及时查看数据库中数据文件的状态(如被误删除),根据实际情况决定如何进行处理,检查数据文件的状态的SQL如下:
select file_name,status
from dba_data_files;
如果数据文件的STATUS列不是AVAILABLE,那么就要采取相应的措施,如对该数据文件进行恢复操作,或重建该数据文件所在的表空
间。
六、检查数据库定时作业的完成情况
如果数据库使用了Oracle的JOB来完成一些定时作业,要对这些JOB的运行情况进行检查:
select job,log_user,last_date,failures
from dba_jobs;
如果FAILURES列是一个大于0的数的话,说明JOB运行失败,要进一步的检查。
七、数据库坏块的处理
当Oracle数据库出现坏块时,Oracle会在警告日志文件(alert_SID.log)中记录坏块的信息:
ORA-01578: ORACLE data block corrupted (file # 7, block #)
ORA-01110: data file: '/oracle1/oradata/V920/oradata/V816/users01.dbf'
其中,代表坏块所在数据文件的绝对文件号,代表坏块是数据文件上的第几个数据块
出现这种情况时,应该首先检查是否是硬件及操作系统上的故障导致Oracle数据库出现坏块。在排除了数据库以外的原因后,再对发
生坏块的数据库对象进行处理。
1.确定发生坏块的数据库对象
SELECT tablespace_name,
segment_type,
owner,
segment_name
FROM dba_extents
WHERE file_id =
AND
between block_id AND block_id+blocks-1;
2.决定修复方法
如果发生坏块的对象是一个索引,那么可以直接把索引DROP掉后,再根据表里的记录进行重建;
如果发生坏块的表的记录可以根据其它表的记录生成的话,那么可以直接把这个表DROP掉后重建;
如果有数据库的备份,则恢复数据库的方法来进行修复;
如果表里的记录没有其它办法恢复,那么坏块上的记录就丢失了,只能把表中其它数据块上的记录取出来,然后对这个表进行重建。
3.用Oracle提供的DBMS_REPAIR包标记出坏块
exec DBMS_REPAIR.SKIP_CORRUPT_BLOCKS('','');
4.使用Create table as select命令将表中其它块上的记录保存到另一张表上
create table corrupt_table_bak
as
select * from corrupt_table;
5.用DROP TABLE命令删除有坏块的表
drop table corrup_tatble;
6.用alter table rename命令恢复原来的表
alter table corrupt_table_bak
rename to corrupt_table;
7.如果表上存在索引,则要重建表上的索引
八、操作系统相关维护
DBA要注意对操作系统的监控:
●文件系统的空间使用情况(df -k),必要时对Oracle的警告日志及TRC文件进行清理
●如果Oracle提供网络服务,检查网络连接是否正常
●检查操作系统的资源使用情况是否正常
●检查数据库服务器有没有硬件故障,如磁盘、内存报错
常用命令
crs
最常用命令:
crs_stat –t 以缩略形式查看crs状态
crs_start –all 启动crs所有资源
crs_stop –all 停止crs所有资源
crsctl start resources 启动crs所有资源(比crs_start层次深)
crsctl stop resources 停止crs所有资源(比crs_start层次深)
crsctl start crs 启动crs
crsctl start crs 停止crs
查看当前数据库状态
select instance_number, instance_name ,host_name, version, status from v$instance;
查看表空间使用情况
select a.tablespace_name,nvl(sum(a.bytes),0)/1024/1024 total_space,
nvl(sum(b.bytes),0)/1024/1024 free_space
from dba_data_files a,dba_free_space b
where a.tablespace_name=b.tablespace_name
group by a.tablespace_name;
每天维护工作
1.检查crs状态
命令使用示例: 主机名:db1/db2 State为online为正常
# /opt/oracle/product/10.2/crs/bin/crs_stat -t
Name Type Target State Host
------------------------------------------------------------
ora....SM1.asm application ONLINE ONLINE db1
ora....B1.lsnr application ONLINE ONLINE db1
ora.db1.gsd application ONLINE ONLINE db1
ora.db1.ons application ONLINE ONLINE db1
ora.db1.vip application ONLINE ONLINE db1
ora....SM2.asm application ONLINE ONLINE db2
ora....B2.lsnr application ONLINE ONLINE db2
ora.db2.gsd application ONLINE ONLINE db2
ora.db2.ons application ONLINE ONLINE db2
ora.db2.vip application ONLINE ONLINE db2
ora.orcl.db application ONLINE ONLINE db1
ora....l1.inst application ONLINE ONLINE db1
ora....l2.inst application ONLINE ONLINE db2
2.检查数据库状态 sid=orcl1 status为open是正常
SQL> select instance_number, instance_name ,host_name, version, status from v$instance;
INSTANCE_NUMBER INSTANCE_NAME HOST_NAME VERSION
STATUS
--------------- ---------------- ---------------------------------------------------------------- -----------------
------------
1 orcl1 db1 10.2.0.1.0 OPEN
3.检查监听程序状态
$ lsnrctl status
LSNRCTL for IBM/AIX RISC System/6000: Version 10.2.0.3.0 - Production on 27-AUG-2007 11:06:50
Copyright (c) 1991, 2006, Oracle. All rights reserved.
Connecting to (ADDRESS=(PROTOCOL=tcp)(HOST=)(PORT=1521))
STATUS of the LISTENER
------------------------
Alias LISTENER
Version TNSLSNR for IBM/AIX RISC System/6000: Version 10.2.0.3.0 - Production
Start Date 15-JUN-2007 16:13:58
Uptime 72 days 18 hr. 52 min. 52 sec
Trace Level off
Security ON: Local OS Authentication
SNMP ON
Listener Parameter File /opt/oracle/product/10.2/db_1/network/admin/listener.ora
Listener Log File /opt/oracle/product/10.2/db_1/network/log/listener.log
Listening Endpoints Summary...
(DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=hldzjdb01)(PORT=1521)))
Services Summary...
Service "+ASM" has 1 instance(s).
Instance "+ASM1", status BLOCKED, has 1 handler(s) for this service...
Service "+ASM_XPT" has 1 instance(s).
Instance "+ASM1", status BLOCKED, has 1 handler(s) for this service...
Service "hljdb" has 1 instance(s).
Instance "hljdb1", status READY, has 1 handler(s) for this service...
Service "hljdb1XDB" has 1 instance(s).
Instance "hljdb1", status READY, has 1 handler(s) for this service...
Service "hljdb_XPT" has 1 instance(s).
Instance "hljdb1", status READY, has 1 handler(s) for this service...
The command completed successfully
4.检查oracle 警告日志(在ORACLE_BASE/ADMIN/SID/BDUMP/ALTER_SID.LOG)中是否有报错,如果有报错进行检查,并且进行处理
操作以下以orcl1为sid作例)
su – oracle
$ cd $ORACLE_BASE/admin/orcl1/bdump
$ ls al*
alert_db1.log
$ more alert_orcl1.log
然后对显示内容进行查看即可,按空格翻页
5.检查监听日志(在ORACLE_HOME/NETWORK/LOG/)检查是否有报错
操作:
$ cd $ORACLE_HOME/network/log
$ ls
listener.log listener_db1.log sqlnet.log
$ more listener.log
然后对显示内容进行查看即可,按空格翻页
6.数据库运行过程中是否有异常的数据库启动停止
操作以下以orcl1为sid作例)
su – oracle
$ cd $ORACLE_BASE/admin/hljdb/bdump
$ ls al*
alert_orcl1.log
$ more alert_hljdb1.log
查看日志中是否有
ALTER DATABASE OPEN
This instance was first to open
内容显示,确认显示的时间确实是数据库手工启动的时间
查看日志中是否有
Completed: ALTER DATABASE CLOSE NORMAL
内容显示,确认显示的时间是否是数据库手工关闭的时间
转自:http://zhangyafeng0917.blog.163.com/blog/static/44436412201161111363478/
分享到:
相关推荐
Oracle12c双节点RAC在Linux7环境下的部署,本文档适用对象为 DBA 或具备一定 Linux/Oracle 基础知识的人员, 对 Oracle Enterprise Linux 操作系统下的 Oracle12.2.0.1 双节点 RAC 在 OEL 7.4 环境下的部署及初始化...
rac节点架构图,图片,便与你更加形象的了解rac
Oracle RAC,全称Real Application Clusters,是Oracle数据库的一个重要特性,允许数据库在一个集群环境中运行,提供高可用性和负载均衡。在RAC环境中,关键数据的共享存储和多节点并发访问是其核心挑战。 并发控制...
oracle_rac 日常基本维护命令,主要是一些rac的日常维护命令。
阿里云ECS环境下的Oracle 19C RAC双节点集群安装部署是一个复杂的过程,涉及到多个环节和系统配置。在CentOS 7.6操作系统上搭建这样的环境,首先要确保满足Oracle 19C的软硬件需求。官方推荐的操作系统版本为Linux ...
SCAN(Single Client Access Name)是Oracle RAC中的一个服务名称,用于简化客户端对集群中多个节点的访问。验证SCAN的状态有助于确保客户端能够正确地访问集群。 #### 16.9 VIP状态验证 VIP(Virtual IP Address...
Oracle Real Application Clusters (RAC) 是一种高可用性解决方案,它允许多个数据库实例同时访问同一个数据库。为了确保RAC集群的正常运行,日常的基本维护是必不可少的。本文将详细介绍一系列Oracle RAC常用的维护...
在数据库领域中,RAC(Real Application Clusters)是Oracle数据库的一个集群技术,它允许多个数据库实例共享相同的物理数据库,从而为用户和应用程序提供高可用性和扩展性。RAC技术通常应用在需要保证数据高可用的...
记录一次单节点RAC(练习用)安装过程 记录一次单节点RAC(练习用)安装过程
删除 RAC 故障节点是一个复杂的过程,需要遵守严格的步骤以确保整个集群的稳定性。在删除 RAC-1 节点时,需要确保 RAC-2 节点的稳定性,然后按照上述步骤删除 RAC-1 节点的相关信息。只有这样,才能确保整个集群的...
### Oracle RAC日常维护指令详解 #### 一、概述 Oracle Real Application Clusters (RAC) 是一种由Oracle公司开发的集群技术,旨在为大型企业级应用提供高性能、高可用性和可扩展性的数据库解决方案。在Oracle RAC...
Oracle RAC 日常管理和维护 Oracle RAC(Real Application Clusters)是一种高可用、高性能的集群解决方案,旨在提供高级别的可用性、可伸缩性和低成本计算能力。以下是 Oracle RAC 日常管理和维护的重要知识点: ...
总之,向Oracle RAC 10g集群添加新节点是一个涉及多层面的过程,需要仔细规划和执行。通过遵循上述步骤,并确保每个环节都得到妥善处理,可以成功地扩展集群的容量,以应对不断增长的业务需求。在实际操作中,应参考...
本文将介绍 Oracle RAC 的日常基本维护命令,包括实例和服务的状态监控、数据库配置、ASM 实例状态、节点应用程序的状态、集群数据库的配置、服务和 ASM 实例的配置等。 实例和服务的状态监控 在 Oracle RAC 中,...
- Virtual IP:虚拟IP,用于故障切换,当一个节点故障时,VIP会迅速转移到其他节点,减少服务中断时间。 3. **OCR(Oracle Cluster Registry)和Voting Disk** - OCR存储集群配置信息,如节点列表、CRS应用、资源...
在本文中,我们将详细探讨如何将一个拥有两个节点的Oracle RAC 11.2.0.1.0系统升级到11.2.0.4.0版本。Oracle RAC(Real Application Clusters)是一种数据库高可用性解决方案,允许在多台服务器之间共享单个数据库...
RAC(Real Application Clusters)是一种高可用性解决方案,允许多个服务器节点组成一个集群来提供数据库服务。在 RAC 环境中,添加或删除节点是常见的维护操作。本文将详细介绍如何删除添加 RAC 节点,包括创建新...
Oracle RAC是一种可以支持数据库的集群技术,允许多个节点共享对同一数据库的访问,提高数据库的可用性和可伸缩性。本文档重点介绍在Oracle Enterprise Linux (OEL) 7.4环境下的Oracle **.*.*.*版本的双节点RAC部署...
现在的RAC环境是2节点的RAC,节点是RAC1和RAC2,在本文档中,我们要添加一个节点:RAC3。