摘要: 阿里云会针对ECS实例发布系统事件,当您收到阿里云计划维护的通知时,可以利用ECS系统计划事件了解与实例相关的计划维护操作,并根据您的业务特性选择合适的时间安排运维操作进行故障转移,减少对系统可靠性和业务连续性的影响。
阿里云作为领先和值得信赖的云计算服务提供商,提供和保障计算、存储、网络资源以及底层基础设施的可用性、稳定性、安全性。根据自身战略发展和业务需求,您可以设计高可用的云上IT架构,在阿里云上选择合适的产品、服务来搭建部署业务系统,并管理其中的数据。在此基础上,通过阿里云提供的API、监控、编排等多样化手段实现快速配置资源,搭建多套环境,自动化部署等IT运维能力。
相较于普通的IDC机房以及服务器厂商,阿里云会使用更严格的IDC标准、服务器准入标准以及运维标准,以保证云计算整个基础框架的高可用性、数据的可靠性以及云服务器的高可用性。在此基础之上,阿里云在各地域提供多可用区服务,当您需要更高的可用性时,可以利用阿里云的多可用区搭建自己的主备服务或者双活服务。对于金融等对业务连续性有更高要求的行业领域,还可以通过多地域和多可用区搭建出更高的可用性服务,并实现更高的RTO、RPO数据保障能力。对于单台ECS实例, 阿里云承诺一个服务周期内单台ECS实例的服务可用性不低于99.95%;对于单地域多可用区,阿里云承诺一个服务周期内该单地域多可用区的服务可用性不低于99.99%。为了保障高水平的服务可用性,阿里云会主动对承载ECS实例运行的物理服务器做日常维护并修复潜在的软硬件等系统故障,以持续提升系统可靠性、性能和安全防护能力,并在探测到物理服务器存在故障隐患时在线热迁移实例至健康的服务器之上,保持ECS实例的健康运行状态。
但作为阿里云的用户,您仍有可能会收到这样的消息通知,提醒您的ECS实例由于所在物理服务器存在故障风险需要维护,阿里云设定了一个实例重启的系统计划事件,将在2天后重启该实例并迁移至安全的物理机运行。
您可能会疑惑,为什么还会受到这样的信息呢?其实,这是由阿里云平台主动运维自动触发的维护通知。在主动运维过程上,某些软硬件故障会导致实例无法在线迁移,这样的情况下,阿里云会向用户发送上述通知,提醒您系统即将通过重启实例执行迁移操作。为了提升您运维ECS实例的效率和体验,阿里云会发布ECS实例系统事件功能,当您接收到通知时,可以在ECS控制台或使用OpenAPI查看系统计划事件,并根据业务的需要选择合适的时间点执行系统事件(某些情况下只能等待系统事件按计划时间执行)。这样便免去了通过工单联系客服人工介入的过程,减少风险的同时,也为基于系统事件实现自动化故障转移提供了基础,让运维更高效。
那么ECS实例会存在哪些类型的系统事件呢?阿里云会优先发布系统主动运维触发的实例重启(Reboot)类型事件,随后会给大家提供更丰富的事件类型来满足多种运维场景。如果存在系统计划事件,ECS 控制台待处理事件按钮上会出现显著标示提醒您查看。点击该按键后进入 待处理事件 > 系统计划事件 页面,在这里您可以看到实例 ID、地域、运行状态等实例相关信息,计划执行的系统事件相关信息,推荐的用户操作和可执行操作按键。您也可以通过调用OpenAPI DescribeInstanceFullStatus手动查询或自动轮询实例的系统计划事件。
可以想象,当ECS实例承载关键业务时,任何非预期的实例重启都有可能对系统可用性和业务连续性造成威胁或严重影响,因此我们建议您在搭建应用系统时能充分利用可用区、负载均衡等功能和服务来提升架构和服务的整体可用性。在此基础上,对于阿里云主动修复系统故障触发的系统事件,通常系统会提前48小时给您发送通知,因此您可以利用事件计划时间之前的这段用户操作窗口期,做有准备的负载和故障转移操作并重启实例,比如,在集群环境中及时将负载从有计划事件的实例上转移到其他实例,或提前备份、转移本地磁盘的数据,或主动调整负载均衡和弹性伸缩的配置,以及基于业务逻辑做有顺序的启停实例等主动运维操作,最大限度地降低实例重启对业务连续性的冲击。
ECS系统事件的类型和场景会不断完善和扩展,我们希望通过这样的方式,逐步提升您在阿里云上的运维效率和体验,提供更完备的接口和服务来支持用户在阿里云上实现无忧运维和业务永续。
原文链接:https://yq.aliyun.com/articles/544935?spm=a2c41.11181499.0.0
分享到:
相关推荐
《ECS运维指南之Windows系统诊断》是阿里云...通过学习《ECS运维指南之Windows系统诊断》,用户不仅可以解决眼前的问题,还能提升自身的运维技能,更好地管理和维护阿里云上的Windows服务器,确保业务的高效运行。
综上所述,弹性计算服务ECS在云计算运维中扮演着至关重要的角色,它为用户提供了灵活、高效且安全的计算资源,是企业数字化转型的理想选择。通过选择合适的规格、利用其优势,并结合相应的访问方式,用户可以构建出...
《ECS运维指南之Linux系统诊断》是一份深入探讨阿里云ECS(Elastic Compute Service)上Linux系统诊断与维护的宝贵资料,旨在帮助新手和经验丰富的云运维工程师提升技能,解决实际工作中遇到的问题。本资源是作者...
9. 华为云战略发布:华为企业云在北京的战略发布标志着华为云服务进入新的发展阶段,吸引了大量参会观众、合作伙伴、政府客户和媒体的关注,并通过全球直播让更多人了解了华为云产品和服务。 10. 面向未来的技术...
阿里云专有云企业版V3.12.0的Elasticsearch运维指南主要面向在ECS(Elastic Compute Service)上部署和管理Elasticsearch服务的用户。这份文档提供了详尽的操作指导和最佳实践,帮助用户有效地运维Elasticsearch实例...
综上,阿里云专有云Enterprise版V3.5.0的云服务器ECS运维指南提供了全面的运维指导,涵盖了从基础操作到高级管理的多个层面,对于企业级ECS的使用者来说,理解并掌握这些知识是确保云服务器高效、安全运行的必要条件...
阿里云ECS环境下的Oracle 19C RAC双节点集群安装部署是一个复杂的过程,涉及到多个环节和系统配置。在CentOS 7.6操作系统上搭建这样的环境,首先要确保满足Oracle 19C的软硬件需求。官方推荐的操作系统版本为Linux ...
这份文档旨在帮助用户理解和掌握ECS的运维操作,确保业务的稳定运行和高效管理。以下是其中涵盖的一些关键知识点: 1. **法律声明**: - 用户在使用文档前需仔细阅读并理解法律声明,同意后方可继续。 - 文档只能...
阿里云专有云企业版V3.7.1云服务器ECS运维指南是针对阿里云专有云环境下ECS(Elastic Compute Service)的管理与维护的手册,旨在帮助用户更好地理解和操作云服务器。该指南适用于合法合规的企业和个人,他们需要在...
【云计算运维概述】 云计算运维是确保云环境稳定、高效运行的关键环节,涉及到多个层面和角色。随着云计算成为IT产业的核心...随着云计算技术的不断发展,运维也将变得更加自动化、智能化,以应对更复杂的云环境挑战。
阿里云专有云企业版V3.9.0云服务器ECS运维指南是一份详尽的操作手册,它不仅提供了ECS运维的基础知识,还包含了丰富的实践经验和技巧,旨在帮助用户更好地利用阿里云的云服务器服务,实现业务的稳定运行和高效管理。
这份运维指南对于管理和运维阿里云专有云环境中的ECS实例至关重要,它提供了一系列操作步骤、最佳实践和注意事项,帮助用户高效、安全地使用ECS服务。用户在使用ECS时,应严格按照文档的指导进行,以确保系统的稳定...
以下是关于这个运维指南的关键知识点: 1. **法律声明**: - 用户需通过官方渠道下载并仅用于合法合规的业务活动。 - 文档内容被视为阿里云的保密信息,用户应保守秘密,不得泄露给第三方。 - 未经许可,不得...
在运维过程中,文档会提供关于系统变更、故障恢复和业务连续性的警告和提示,以帮助用户避免潜在的风险。比如,重启或重置操作可能带来的数据丢失或业务中断,用户需要谨慎执行这些操作。此外,文档还会分享最佳实践...
内容概要:文章从理论与实战两个层面阐述了在云计算环境下如何全面构建和维护ECS的安全防护体系,涵盖ECS实例操作系统的安全性提升技巧,网络安全的保护措施,业务数据全生命周期的防护,以及机密计算等高阶安全技术...
这篇教程分为入门篇和进阶篇,本文将着重讨论入门篇的内容,帮助读者从零开始理解ECS的基本概念、选型策略以及计费模式,旨在让读者快速上手并熟练运用ECS。 1. ECS基础概念 - 云服务器ECS:ECS是阿里云提供的弹性...
这个库专注于阿里云Elastic Compute Service (ECS) 的管理和控制,使得开发者和运维人员能更高效地操作和管理阿里云上的虚拟机实例。 一、Python库的基本概念与价值 Python库是Python编程中的一个重要组成部分,...
通过将这个库集成到他们的项目中,他们可以实现更高效的日志管理和故障排查,从而提升ECS上的应用程序的运维效率。 总的来说,`ecs-logging-1.0.0.tar.gz`提供的Python库是ECS日志管理的强大工具,它通过集成AWS...