`
king_tt
  • 浏览: 2192788 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

AWS、Google、Apple云端宕机背后的故事

 
阅读更多

摘要:10月22日,AWS东部地区又出宕机问题,对Reddit,Airbnb等多家网站造成了影响,不过在受到影响区域以外的EC2实例和EBS卷都显示正常。不过此次事件的阴霾还未散尽,仅仅几天之后,Google App Engine宕机,10月30日,苹果iCloud也出现了一点点小麻烦。

在10月22日,Amazon云服务AWS东部地区又出宕机问题,对Reddit, Airbnb, Flipboard, GetGlue, Coursera等多家知名网站造成了影响,不过在受到影响区域以外的EC2和EBS都显示正常,客户还可以进行迁移。此次事件的阴霾还未散尽,在10月26日(上周五),Google App Engine宕机,10月30日,苹果iCloud也出现了一点点小麻烦。作为云计算行业的领军人物,三巨头最近的日子都不是太顺。不过这也侧面反映了云计算对我们生活、工作的影响力越来越大。


亚马逊(AWS)宕机事件

尽管2011年亚马逊AWS也出现了一些问题,但远远没有2012年这么频繁。从之前6月份由于电力系统的故障,进而影响了AWS的客户之后(2012年6月14日Amazon云服务故障分析),在7月份因为雷击再次造成数据中心宕机,又影响了一批客户的正常使用,(风暴击倒亚马逊数据中心,舆论一边倒?),此次事件发生之后,AWS官方网站对本次宕机事件做出了解释,而且告诉用户AWS正在做的工作,以防止未来再次发生类似的问题。

周一 10:00 AM PDT:美国东部地区的亚马逊弹性块存储(EBS)的性能发生下降,在某些情况下,无法进一步处理I / O请求。问题的根源是运行在EBS存储服务器上的数据收集代理有一个潜在的Bug。每一个EBS存储服务器的代理都关联着一组数据收集服务器和用来维护的报告信息。该数据收集系统的数据是非常重要的,但是对时间却不敏感,因为该系统的设计仅仅容忍延迟或者丢失的数据。

上周,该地区的一个数据收集服务器因为硬件故障被换下。不过替换该服务器部分的一个DNS记录已更新,删除了故障服务器并且添加来了替换服务器。不过在那个时候没有注意到,DNS更新没有成功地传播到所有的内部DNS服务器之上,结果,存储服务器的一小部分并得到没有更新的服务器地址,而且继续尝试联系原来的数据收集服务器。但是由于设计的数据收集服务容忍丢失数据,显然这并不会造成任何直接的问题而且没有发出何报警。然而,因为无法联系到的数据收集服务器,存储服务器上的报告代理引发了潜在的内存泄漏错误:报告代理并没有处理连接失败的问题,而是继续以尝试联系数据收集服务器的方式,慢慢地消耗系统内存。

尽管AWS监控着每个EBS服务器的总内存消耗,但是监控系统没有对此内存的泄漏进行报警。而且EBS服务器动态地使用所有的可用内存用于管理客户数据,因此很难对内存的使用和释放内存进行准确的警报设置。星期一早上,内存消耗的速度已经非常高了,直接影响到存储服务器,它们无法跟上正常的请求处理。

到目前为止,亚马逊已经部署了监测预警系统,对内存泄漏问题进行重点关注。与此同时,也修正了EBS存储服务器上的系统内存监控,从而保证对每个进程的内存消耗进行监控和预警,AWS还将部署资源限制,以防止低优先级的进程消耗过多的主机资源。很关键的部分,AWS更新了内部的DNS配置,以进一步确保DNS的信息更改被可靠的传播,最重要的是,确保AWS的监管的完善性,这些行动完全解决了引发这次事件的问题。此外,AWS正在评估在事件的迅速恶化之前,如何更改EBS故障转移逻辑。亚马逊相信,他们有能力作出调整,从而减少任何类似的相关EBS服务器故障或退化的影响。(原文

亚马逊在最后表达了深深的歉意:“给您带来不便以及造成的影响,我们深表歉意。我们知道AWS服务对客户业务来说是多么的重要,我们将会更加努力的工作,从本次事件中认真吸取教训,我们看到先前的改变也减轻了本次事件一些影响,而且我们也了解了新的故障模式,在未来的日子里,我们会花很多时间改善我们的服务。”

在亚马逊宕机事件发生后,一位国外网友打趣说:亚马逊又宕机了呀,为什么亚马逊不把Amazon.com放在自己的云服务器上呢?另一位专业网友则在网上留言指责亚马逊无法提供风险预警服务,导致大量网站屡次在毫无征兆的情况下经历长时间的宕机,给网站造成重大损失。

为什么亚马逊频频出现这么多问题,我们依然还会选择它?因为我们知道,AWS目前是最好的云服务,对于大多数用户来说,无论他们遭受到了多么严重的影响,他们还是会选择亚马逊,因为亚马逊帮助他们用较少的成本和精力运营着一个强大的基础架构。许多人在批评亚马逊之前都会首先感谢亚马逊帮助他们做到的事情。因为到目前为止,还没有一家公司能够取代亚马逊!我们也很欣喜地看到OpenStack的蓬勃发展,但是在商用平台始终还是一大软肋,目前绝对不是亚马逊的对手。


谷歌(GAE)宕机事件

其实,谷歌可以真正算得上一个“云计算”公司,因为云计算的最早提出者是Google公司的高级工程师,克里斯托夫·比希利亚。2006年秋,他向谷歌董事长兼CEO施密特提出了“云计算”这一计划。如果提及谷歌的云计算,那么不得不说GAE(Google App Engine)。Google App Engine 提供一整套开发组件让用户轻松地在本地构建和调试网络应用,之后能让用户在Google强大的基础设施上部署和运行网络应用程序,并自动根据应用所承受的负载对应用进行扩展,免去用户对应用和服务器等的维护工作。同时提供大量的免费额度和灵活的资费标准。不过很不幸,上周五Google App Engine 也宕机了!虽然在8个小时后,谷歌服务恢复正常。但是影响还是存在的。不过让人惊奇的是,谷歌公司很少谈及“云计算”,作为云计算的“鼻祖”,貌似有点太低调了,按照谷歌的说法:“Internet将永生,我们将无处不在。”虽然宕机事件发生,似乎对谷歌影响甚微,相信没有人敢否认谷歌在云计算中的地位。


苹果(iCloud)出了点小麻烦

毋庸置疑,iCloud是苹果未来愿景的核心部分:“它不仅仅是一个产品,它是未来十年苹果的重点战略!”苹果公司的首席执行官库克在1月宣布:未来所有的设备都应该实现与iCloud无缝地协作,而且iCloud也是最重要的部分。在任何地方,它都能将用户连接到他们的设备,服务和内容。iCloud拥有超过190万用户,而且还在继续增长之中,任何宕机都会影响到很多人。更重要的是,这个问题同时影响着所有的苹果iOS设备,包括iPad,iPhone,甚至苹果电脑,因为iCloud在所有的这些平台上被广泛的使用。在10月30日,苹果的iCloud也遇到了一点点麻烦!用户表示他们在访问iMessage,Apps Store,Game Center以及可能更多地方的时候出现了一些问题。苹果公司的系统状态网页也已经确认该消息,他们正在进行调查。不过似乎也没有人对苹果iCloud的宕机做出太大的反应,虽然乔布斯已经挂帆仙逝,但是苹果似乎没有任何的颓废之势,反而在库克的领导下,发展的很平稳,即使少了一些创新,但是也没人敢小窥这个“庞然大物”。


国内平台更不让人放心

其实云计算目前还存在的问题,云计算巨头的三次宕机事件,其实也给我们敲响了警钟,云计算不是万能的,它本身也存在着很多问题,但是我们绝对不能以此否定云计算的发展。而且在保证应用程序的高可用性和数据的安全性上,极少有一家公司可以拥有像亚马逊、谷歌和苹果这些云计算服务供应商那样的实力,这根本不是一个数量级上的比较。我们对亚马逊、谷歌以及苹果宕机反应强烈只不过是我们对云计算抱有不切实际的期望(100%高可用性)。殊不知我们对自己公司的服务器经常宕机已经习以为常了。我们可以看看国内的平台问题:

  • 京东商城网站出现漏洞,损失2亿多:京东商城充值平台(chongzhi.360buy.com)出现漏洞,积分可以无限制刷Q币话费,有人甚至充了36万话费,还有包括套Q币,彩票等损失惨重,预计京东亏损2个亿左右。据说京东已报案,具体处理措施还没出来。目前漏洞已修复!
  • 2012年10月30日下午16:40开始,阿里巴巴集团旗下的著名的云计算服务商阿里云发生了电力故障,有客户反映其造成了宕机。
  • 盛大,国内云供应商巨头。其产品一直保持着节约成本、弹性扩展、提高效能、安全可靠等特色。然而继4月“麦库记事本”发生故障后,在8月6日发生了机房服务器磁盘损坏,直接导致用户资料丢失。这无疑在云安全上给国内云供应商敲响了警钟。


云计算并不可能万无一失,“出来混,迟早要还的!”

云服务用户首先要承认云服务提供商在保证高可用性上还要继续努力,但是它也不应该成为质疑或反对云计算的理由。另外一点就是高可用性不是与生俱来的,而是要求用户必须做好系统的设计,充分利用云计算提供的机制,而不是把应用程序扔到云端就万事大吉了。其实云计算和其他基础设施一样,不可能是万无一失的,系统和应用在设计时本来就应该为故障做好准备,这点云计算企业应该向一些大公司学习。不过也有很牛的公司并没有受到影响,在上一年4月份,亚马逊的宕机中,Twilio并没有受到影响,当时他们还写了一篇博客文章,分享了自己的经验,文章会在后续推出,敬请期待!

亚马逊宕机事件新浪微博热点评论:

1. 减少依赖,使得服务能够简单的部署在一个盒子上。

2. 快速的失败侦测以及重试。

3. 幂等的服务。

4. 将业务逻辑分解成小的无状态服务。

5. 如果没有强一致性要求, 读写分离。

我有一个观点是,“系统中总有一处单点是你永远也无法消除的”。不把这些托付给云,意味着你仍要去搭建一套差不多的体系,以及在这套体系出现问题时如何去快速响应的机制。所以,如果需要在此做出取舍衡量的话,那就仅仅是谈成本而已了。


转载声明: 本文转自http://www.csdn.net/article/2012-11-01/2811385-things-behind-AWS-GAE-iCloud-crashdown


分享到:
评论

相关推荐

    闰秒”惹的祸?亚马逊AWS服务出现大面积宕机.docx

    这次【AWS服务大面积宕机】事件并非由闰秒直接引起,而是由于外部网络供应商的问题,导致AWS与其部分用户间的服务中断。尽管如此,闰秒仍然是云服务提供商必须考虑的技术挑战,因为它可能对依赖精确时间同步的系统...

    AWS云端企业实战圣经 亚马逊如何构造云端计算【高清】

    AWS云端企业实战圣经 亚马逊如何构造云端计算

    AWS云端企业实战圣经亚马逊如何构造云端计算

    AWS云端企业实战圣经亚马逊如何构造云端计算

    AWS云端数据湖架构.pptx

    AWS云端数据湖架构 云端数据湖架构是指将数据存储在云端的一种架构方式。这种架构可以将来自不同的来源的数据集中在一起,并提供了强大的数据分析和处理能力。云端数据湖架构可以帮助企业快速提取和分析数据,从而...

    智能客户数据平台的AWS云端之旅.pptx

    智能客户数据平台的AWS云端之旅是一项利用亚马逊网络服务(AWS)构建的解决方案,旨在帮助企业应对客户数据管理和营销的挑战。该平台集成了多种AWS服务,如EC2(弹性计算云)、EMR(Elastic MapReduce)、S3(简单...

    智能客户数据平台的 AWS 云端之旅.pdf

    本次上海技术峰会所提到的智能客户数据平台的AWS云端之旅,围绕客户数据平台的概念、企业客户的实际需求与挑战、平台架构及技术体系,以及创略科技的客户案例进行了深入的探讨。 首先,客户数据平台(CDP)是将企业...

    如何在 AWS 云端部署 Kubernetes 及 小米生态云的容器集群实.pdf

    在AWS云端部署Kubernetes以及小米生态云容器集群的实践,涉及云计算服务的自动化部署、容器技术的运用以及对微服务架构的深入讨论。在本文中,我们将会了解到为什么客户会倾向于使用AWS云端部署容器技术,以及为什么...

    AWS官方文档:AWS入门

    这篇“AWS官方文档:AWS入门”旨在帮助初次接触AWS的用户理解并掌握基础的云计算概念,以及如何在AWS平台上部署、处理大数据、进行基本计算和托管Web应用程序。 1. **AWS基础知识**:AWS的核心服务包括计算、存储、...

    AWS CloudEndure上云迁移解决方案.pdf

    AWS CloudEndure 是一款云迁移解决方案,旨在帮助企业快速、安全地将应用程序和数据迁移到 AWS 云端。该解决方案提供了一整套的云迁移服务,包括评估、规划、迁移和优化等阶段。 知识点一:CloudEndure Migration ...

    AWS自学总结.docx

    AWS自学总结 在深入探索AWS自学笔记之前,我们先理解一下AWS(Amazon Web Services)的基础。AWS是亚马逊公司提供的全球领先的云计算服务平台,提供包括计算、存储、数据库、分析、机器学习、物联网等在内的多种...

    AWS CDA题库3 英文

    AWS Certified Developer – Associate 考试面向以下个人:担任开发职位并具有一年到多年开发和维护基于 AWS 的应用程序的实践经验。 通过认证验证的能力 •理解核心 AWS 服务、使用方法和基本 AWS 架构最佳实践 ...

    PPT中AWS图标

    在PPT演示文稿中使用AWS(Amazon Web Services)图标是一种有效的传达云技术概念和解决方案的方式。AWS作为全球领先的云计算服务平台,提供了丰富的服务,涵盖了计算、存储、数据库、分析、机器学习、安全等多个领域...

    AWS构架师 PPT(Architecting on AWS Student Guide)

    AWS构架师是专门从事亚马逊网络服务(Amazon Web Services, AWS)的架构设计和优化的专业人士。他们负责设计高度可靠、可扩展且灵活的云计算解决方案,以满足各种业务需求。此PPT教材包含的知识点主要涵盖以下几个...

    AWS Operational Excellence Pillar

    AWS白皮书 The focus of this paper is the operational excellence pillar of the Amazon Web Services (AWS) Well-Architected Framework. It provides guidance to help you apply best practices in the design,...

    Learning AWS.zip

    同时,由于标签中提到了"java",这意味着资料可能包含了使用Java与AWS服务进行集成的示例或指南,这对于Java开发者来说尤其有价值,可以学习如何利用AWS SDK for Java来开发云端应用。 总之,"Learning AWS.zip"是...

    AWS 白皮书 — 产品.zip

    AWS上的各个大数据分析选项pdf AWS上的数据仓库pdf AWS上的部署选项概述pdf AWS上的金融服务网格计算pdf AWS云数据迁移服务概述pdf Amazon Aurora MySQL数据库管理员手册:连接管理pdf Amazon Aurora入门pdf Amazon ...

    AWS IoT 深入探索及实践播放中.pdf

    首先,AWS IoT Core作为数据进入云端的入口,负责安全地连接和管理设备。通过它,设备可以注册并接收消息,AWS还提供了设备网关和消息代理功能。 除此之外,AWS IoT平台具备了设备感知与行动的能力。边缘计算服务如...

    AWS考试题 中文考试题

    AWS(Amazon Web Services)是全球领先的云计算服务提供商,其提供的认证体系旨在验证个人在使用AWS技术和服务方面的专业知识和技能。AWS认证分为多个级别,适用于不同的职业角色,包括但不限于解决方案架构师、系统...

    aws.exe 3.1

    AWS.exe 3.1 是一款与亚马逊Web服务(Amazon Web Services,简称AWS)相关的应用...无论是开发者还是运维人员,都需要掌握其基本用法和背后的AWS服务概念,以充分利用AWS的强大功能来构建、管理和优化网站及应用程序。

Global site tag (gtag.js) - Google Analytics