第一部份 高可用性系统概述
一、计算机系统的故障分类以及故障发生的概率分析
发生 原因 |
计算机软硬件故障 |
人为操作失误 电脑病毒 黑客入侵 失窃 |
资源不足引起的计划性停机。 |
生产地点的自然灾害。 |
产生 原因 |
硬件失效(如硬盘毁坏)。 软件设计缺陷——操作系统和应用程序有时存在缺陷使数据被破坏(如Y2K问题)。 |
人为因素不可避免——失误可以很容易地删除重要数据。 外面的系统破坏者在蓄意攻击系统。 |
业务的快速增长。 |
火灾、闪电、水灾、飓风、龙卷风以及地震都可能发生。 |
发生 概率 |
可能性最大、最频繁。 |
经常发生、与企业人员、网络设计有关。 |
业务增长越快的企业,发生亦越频繁。 |
发生概率较小。 |
预防 方法 |
实现硬件冗余,提高业务系统的高可用。 |
提高人员素质和系统自动化运行管理,加强网络安全防范。 |
系统设计考率业务的发展。 |
异地保存。 |
具体 措施 |
磁盘阵列 本地双机热备份 |
数据冷备份 安装杀毒软件 网络防火墙 |
本地双机热备份、增加硬件资源、软件升级。 |
数据冷备份 灾难恢复中心 |
二、高可用系统解决的问题
对现代企业来说,利用计算机系统来提供及时可靠的信息和服务是必不可少 的另一方面,计算机硬件与软件都不可避免地会发生故障,这些故障有可能给 企业带来极大的损失,甚至整个服务的终止、网络的瘫痪。对于那些任何停工都将产生严重的财产损失、名誉损失、甚至生命损失的关键性应用的企业或公司,系 统的高可用性显得更为重要。因此,必须有适当的措施来确保计算机系统提供不间断的服务,以维护系统的可用性。信息系统的可用性通常在两种情况下会受到影 响,一种是系统当机、错误操作和管理引起的异常失败,另一种是由于系统维护和升级,需要安装新的硬件或软件而正常关机。高可靠性软件必须为这两种情况提供 不间断的系统服务。
三、高可用性的定义及与容错技术比较
(1)高可用性与容错技术
高可用性HA(High Availability)指的是通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性。它与被认为是不间断操作的容错技术有所不同。HA系统是目前企业防止核心计算机系统因故障停机的最有效手段。
容错FT(Fault Tolerant)技术一般利用冗余硬件交叉检测操作结果。当发现异常时,故障部件会被隔离开而不影响用户的操作。
高可用性方案则利用更少的冗余部件同时由软件检测故障,一旦故障发生立即隔离损坏部件,通过提供故障恢复实现最大化系统和应用的可用性。
容错技术随着处理器速度的加快和价格的下跌而越来越多地转移到软件中。未来容错技术将完全在软件环境下完成,那时它和高可用性技术之间的差别也就随之消失了。
(2)高可用性系统的功能
F 软件故障监测与排除
F 备份和数据保护
F 管理站能够监视各站点的运行情况,能随时或定时报告系统运行状况,故障能及时报告和告警,并有必要的控制手段
F 实现错误隔离以及主、备份服务器间的服务切换
(3)故障恢复
建立一个故障恢复系统,每一个重要部件都必须配有冗余备件,当一个部件出现问题时,它会自动被备件替代而不影响系统正常运行,这就是常说的故障恢复。
高可用性系统的目标是尽量实现不停机操作。故障被掩饰掉,而且尽量不修改最终的应用程序。
(4)服务延续性
保持系统的正常运行非常重要,除了人为错误操作和管理引起的异常失败外,正常的软硬件维修时不影响系统运行也很关键。开放系统使大量供应商带来了大量不同 的软件产品,每一种产品都有自己的升级周期,最简单的系统也要有2到3个主要部件在不同时候做升级,这就大大降低了系统的可用性。因此,也需要为升级和阶 段性维护创建相应的容错环境。
(5)实现高可用
高可用性更注重整体资源的可用性而不是某一物理部件的可用性,因此它有系统级和部件级之分。为了实现高可用性,服务器、应用程序以及周围环境被整体当作一个系统来看待。任何一个有可能影响系统正常运行的故障都会被发现和修复,保证系统尽快地恢复运行。
第二部分 ROSE HA高可用性软件
美国ROSE数据公司(ROSE Datasystem Inc.)是一家专门从事高可用性系统设计及研发的公司,主要产品ROSE HA是基于Windows NT/2000、UNIX、LINUX、Solaris、SCO UNIX for IBM等操作系统平台的高可用性软件,为Client/Server结构的应用提供高可用性的解决方案。ROSE HA在国内的主要用户有:上海宝山钢铁公司、武汉市工商银行、沈阳电信局、上海埔东电信局、佛山人民银行、湖南邮电局、长沙电信局、上海汇廉商场、外经贸部、广东珠海公安局、邮电部OA系统、各地电信97工程及新华社等等。
一、 ROSE HA高可用性软件的工作模式
工作原理:主机工作,从机处于监控准备状况;当主机宕机时,从机接管主机的一切工作,待主机恢复正常后,按使用者的设定以自动或手动方式将服务切换回主机上运行。
(2) 双工方式
工作原理:两台主机同时运行各自的服务工作且相互监测情况,当任一台主机宕机时,另一台主机立即接管它的一切工作,保证工作实时。
二、 ROSE HA高可用性软件的组成
ROSE HA软件的组成
服务程序(Service)
为客户提供服务的进程,如NFS或Oracle、Sybase、Informix等数据库服务。
HA代理(Agent)
HA代理监视服务的可用性,并向HA管理进程报告服务的状态。
HA管理进程(HA Manager)
HA管理进程是ROSE HA软件的核心进程,由它来初始化系统配置,接来自HA代理的信息,并通过私用网与其它服务器的HA管理进程通信,协调运行服务器与备份服务器间的关系。
GUI管理工具(Administration Tool)
系统管理者通过GUI管理工具管理、监视服务的运行状态。
三、 ROSE HA软件的运行过程
系统启动后,ROSE HA首先启动HA MANAGER管理程序,根据高可用性系统的配置结构初始化,然后启动必要的服务和代理程序来监控和管理系统服务。HA代理程序用来监控、监测、诊断和管理硬件软件服务。
代理程序检测到该服务处于活动状态,HA MANAGER就会认为该服务处于活动状态,HA MANAGER会定时通知后备服务器上的HA MANAGER,其每项服务处于正常。
当代理程序检测到某个服务发生故障时,它就通知HA MANAGER管理程序。HA软件首先会重新起动该服务多次(可由用户设定),如果启动不能成功,该服务会由HA转移到后备服务器上。
HA周期性地检测系统硬件的状态,如果硬件发生故障,HA会把与该硬件相关的服务转移到后备服务器上。
当某项服务发生转移时,HA首先在运行服务器上停止该服务,之后,由备份服务器上的HA在备份服务器上启动该服务。由于停止和启动该服务都需要一定的时间,所以当服务被切换(转移)时,该服务会有短暂的中断,转移完成后,服务自动恢复正常运行。
考虑到一些数据库系统(如Oracle、Sybase、Informix等)以及其他一些应用软件(如Domino Server、WWW Server等),ROSE HA在HA管理模块(HA Manager)的基础上,提供了一系列的Agent软件模块。
Agent为一个软件监视模块,监控数据库服务或其他应用服务的运行。当运行服务器发生故障时,由Agnet检测到之后,Agent向HA主控软件请求,进行相应的处理动作。
总之,ROSE HA软件极大程度上减少了人的介入,提高了系统的可靠性与安全性,使服务能高可靠的运行。
相关推荐
《RoseHA 10.0技术白皮书》是一份详细介绍RoseHA高可用系统解决方案的专业文档,旨在帮助企业构建稳定、高效的双机高可用环境。RoseHA解决方案的核心在于通过增加一台服务器和一个共享存储设备,来确保关键业务的...
RoseHA,全称为Rose High Availability,是一款专注于提供企业级高可用性解决方案的软件。在本文中,我们将深入探讨RoseHA的功能特性、工作原理以及其在实际应用场景中的重要作用。 RoseHA的核心功能在于确保关键...
通过深入阅读官方手册并结合软件的实际操作,可以系统地掌握RoseHA 10.0的各个方面,无论是IT管理员还是开发者,都能从中获得宝贵的实践经验,为企业的IT基础设施构建坚固的高可用性屏障。这份"RoseHA 10.0 for ...
RoseHA 是一个高可用性解决方案,旨在提供高可用性和故障转移功能。以下是 RoseHA for LINUX 安装教程文档及常用命令。 安装前的准备 在安装 RoseHA 之前,需要准备好硬件环境和操作系统。硬件环境包括 VMware 1.0...
在IT领域,系统高可用性(High Availability, HA)是确保业务连续性的重要手段。ROSE Mirror HA是一款专为Windows操作系统设计的双机热备软件,旨在提供可靠的数据保护和业务连续性解决方案。这款软件通过实时数据...
RoseHA是是一种热备软件,能够实现双机热备,提供高可用性和高可靠性的服务器解决方案。 热备技术分类 热备技术是指在服务器系统中,使用多台服务器来提供高可用性的技术。热备技术可以分为共享磁盘、镜像磁盘和非...
ROSE HA(High Availability)是一种高可用性解决方案,主要面向企业级用户,目的是通过软件层面的冗余和自动故障转移来保证关键应用的连续运行,避免单点故障导致的服务中断。ROSE HA通常部署在Windows Server环境...
本文介绍了基于Linux的ROSE HA双机软件在图书馆的应用,解决了图书馆管理系统平台的高可用性和可靠性问题。ROSE HA双机软件采用了双机热备技术,可以实现在服务不中断的情况下自动恢复故障服务器,从而大大减小故障...
ROSE HA是一款高性能的双机热备软件,广泛应用于企业级服务器环境中,用于实现服务器的高可用性和容错性。通过在两台物理服务器之间建立镜像关系,确保当一台服务器出现故障时,另一台服务器可以迅速接管服务,从而...
RoseHA是在Linux环境下配置MySQL高可用性解决方案的必备工具。RoseHA可以帮助数据库管理员快速搭建MySQL的高可用集群环境,保证业务连续性,当一台服务器发生故障时,另一台服务器能够立即接管服务,减少或消除系统...
双机热备,又称高可用性集群(High Availability Cluster),是指两台或多台计算机协同工作,共同提供服务。在正常情况下,一台服务器作为主节点提供服务,另一台或更多服务器作为备用节点,在主节点出现故障时自动...
RoseHA软件工作原理 RoseHA软件所需具备的安装环境; RoseHA软件的安装; RoseHA软件的配置; RoseHA软件的常见问题及解决方案;
系统的关键组件,如操作系统、应用软件以及高可用性软件RoseHA本身,分别安装在这两台服务器上,而数据则统一存储在共享的磁盘阵列中。 在正常运行状态下,一台服务器(工作主机)负责提供服务,而另一台服务器...
ROSE HA是一种高可用性解决方案,旨在提供高可用性和高性能的服务器解决方案。 安装ROSE HA需要安装NT Cluster,NT Cluster是一个高可用性集群解决方案,能够提供高可用性和高性能的服务器解决方案。 在安装...
软件安装时,我们需要特别注意:在安装ROSEHA之前必须将系统日期该为正确的系统日期。然后,我们可以进入ROSE HA的软件安装,按照默认方式安装,当出现提示输入LOCAL和REMOTE的主机名时,将本地服务器的主机名输入...
1. **RoseHA简介**:首先,手册会介绍RoseHA的基本概念,包括它的工作原理、主要功能和适用场景,帮助读者理解为什么要选择RoseHA作为高可用性解决方案。 2. **系统需求**:在开始安装前,了解系统兼容性和硬件/...