不管你称它为“云关”,“云终结”,或其它你喜欢的名词,总之,亚马逊的Elastic云计算服务持续的事故既可以被当作云计算的一次挫折,也可以被当作让我们知道如果防止它再次发生的契机。
对于Amazon来说最出名的还是它的电子商务网站,但它的云计算服务同样是占有相当大的份量。它为各种公司提供了一个可扩展的、灵活的、非常高效的存储和传输它们大量数据的解决方案。它的这种从2006开始的按需购买的模式是一个全新的革命。
实际效果上,Amazon的Web Service是如此的经济和可靠,以至于有成千上万个像Foursquare 和Netflix
这样的公司都利用它们的云计算技术和服务来运营自己的业务。它们把自己的命运交给了Amazon的云服务,因为没有任何理由相信这个大厦会动摇一下。云计
算的一个关键信条就是通过服务器和数据的双冗余来保证可靠性。
然而,在周三,Amazon的弗吉尼亚州北部数据中心开始出现问题,导致用户访问严重延迟和连接问题。这个问题显然是由于过度的重镜像它的
Elastic Block Storage (EBS)造成的——它事实上致使
EBS产生了无数的备份,最终耗尽了Amazon的存储空间,触发了一连串的连锁反应,导致了数以百计(很有可能上千家)网站最多时长24小时的宕机。
很多公司成了这次事故牺牲品。这其中最著名的受到影响的公司有Foursquare, Quora, Hootsuite, SCVNGR,
Heroku, Reddit 和
Wildfire,还有很多其它大大小小的公司。幸运的是,Amazon的一个最重要的客户,Netflix,并没有受多大的影响,因为它们有自己的应付
整个数据中心的数据丢失的备份。同时依赖于Amazon的其它四个全球数据中心的客户并没有收到多大影响。
反省时间
FathomDB的创始人Justin Santa
Barbara在他的博客了发布了一篇文章详细的讨论这次事故引出的最大的问题:Amazon的云冗余并不能阻止大规模的宕机。Amazon的
Availability Zone原先被人们认为是可以阻止由于个别的问题而导致整个系统崩溃的。而现实情况却相反。
这次的云服务的灾难对于中小创业公司是个提醒,他们应该在自己的系统里做好冗余备份,但Santa Barbara
指出,大多数的小公司没有时间和资源做这种技术上的多套云系统(Amazon的各全球区域/数据中心都有其各自的规则和特点,在各中心之间做简单的转移是
困难的)。这些公司都信任Amazon能保持他们的数据时刻有效,而Amazon却没有做到。
灾难是避免不了的,但在云计算之前,宕机只会影响一个计算机或网站。如今,灾难会拖垮成千上万的网站,致使数百万甚至数亿美元的损失。
当然,我们不会因为这次事故就拒绝云计算。云计算的益处(可扩展,成本低,设备独立,性能高等)大大盖过它的弊处。我们需要下功夫研究如何构建我们
的云基础设施,找到新的方法,要么阻止单点引起的事故,要么能迅速的把数据移出有问题的云服务。这在如今世界上的云计算力量越来越集中到少数几个系统之上
的情况下更显的重要。
云计算仍处在探索期,这次事故让我们更清楚的看到我们还有很多工作要做。如果我们不进行准备,下次可能会更严重。
:)
分享到:
相关推荐
亚马逊云服务(Amazon Web Services, AWS)的成功可以归结为三大关键因素,这些经验教训对于任何想要在互联网行业中取得成功的IT组织都是值得借鉴的。 首先,AWS的成功源于其对技术的深度关注,特别是对开发者体验的...
### 亚马逊架构解析 #### 一、亚马逊架构的演进与组织模式 亚马逊自成立以来,已经从一家...通过对亚马逊架构的学习,我们可以了解到如何在大规模分布式环境下构建高性能、高可用的系统,并从中吸取宝贵的经验教训。
本文主要探讨了Amazon和Barnes & Noble(B&N)在平板电脑市场的策略,特别是他们的代表产品Kindle Fire和Nook Color。这两款设备在设计、定价以及功能上都有独特之处,使得它们在竞争激烈的平板市场中占有一席之地。...
亚马逊案例分析的几个问题 亚马逊(Amazon)是一家美国电子商务公司,创始人杰夫·贝索斯(Jeffrey Bezos)于1995年7月创立了亚马逊...同时,我们也可以从亚马逊的挑战和问题中汲取教训,并将其应用于我们的实践中。
例如,通过比较地球上火星探测器的通信方式,我们可以看到即使是远离地球的探测任务,也能通过云平台实现数据的存储、处理和传输。这说明云安全并非绝对的反义词,而是可以通过一系列措施保障的,比如虚拟私有云...
### AWS历次事故分析及启示 #### AWS事故概述 AWS(Amazon Web Services)作为全球领先...因此,无论是云服务提供商还是企业用户,都应该从AWS的事故中吸取教训,提高自身系统的韧性,以应对未来可能发生的各种挑战。
通过亚马逊Dynamo的设计与实现,我们可以看出一个成功的分布式存储系统需要解决的核心问题,以及在高可用性和可扩展性设计上的考量。Dynamo的案例向我们展示了如何在保证可用性的同时,实现数据的一致性和持久性,...
AWS解决方案架构师助理(AWS Solution Architect Associate)认证考试是AWS官方提供的一个专业资格认证,旨在评估和证明应试者在设计部署亚马逊网络服务(AWS)上的能力。想要顺利通过这个考试,考生需要对AWS的各项...
1. **亚马逊市场概况**:报告可能会提供2020年亚马逊平台的整体销售数据,包括总销售额、活跃卖家数量、产品种类等,帮助我们理解亚马逊作为全球电商巨头的地位。 2. **品类分析**:报告可能对不同品类的销售表现...
- **Azure DevOps**:支持从计划到部署的完整DevOps生命周期。 - **Azure Automation**:自动化运维任务,提高效率。 #### DAY-8:人工智能与机器学习 - **Azure Machine Learning**:构建和部署机器学习模型。 - ...
5. **竞争对手分析**:分析其他品牌在亚马逊上的成功案例和失败教训,为读者提供可借鉴的经验。 6. **营销和广告策略**:涵盖亚马逊内部广告系统(如Sponsored Products和Sponsored Brands),以及如何利用社交媒体...
公有云提供商如Amazon Web Services (AWS) 负责基础设施即服务(IaaS)层面的安全,包括操作系统、虚拟化、存储和网络等,但不负责客户在云上部署的应用和数据的安全,这就是所谓的"云端安全是共同的责任"。...
例如,亚马逊从一个在线书店发展成为全球电商巨头,其成功的背后就是持续的战略调整和创新,如引入订阅服务(Amazon Prime)、云计算服务(Amazon Web Services)等,这些都值得其他互联网公司学习。 在"三、战略...
云计算是信息技术领域的一个重要分支,它通过网络将计算资源、软件服务...综上所述,“云计算论文”会涉及广泛的理论和技术细节,涵盖了从基本概念到实际应用的各个方面,对于理解云计算的现状和未来发展具有重要意义。
- **迁移决策**:随着流量的不断增长,团队决定将整个系统迁移到Amazon EC2云平台上。 - **迁移过程**:将原有的所有组件替换为云平台上的服务,这一过程被形象地比喻为“在高速行驶的汽车中更换所有部件”。 #### ...
### 某商城品牌架构设计建议方案 ...综上所述,京东商城在构建自己的品牌架构时,应该综合考虑自身的实际情况和市场发展趋势,合理借鉴Amazon和Bestbuy的经验教训,通过科学的品牌架构设计,实现品牌价值的最大化。
10. **云计算与分布式计算**:如AWS、Azure、Google Cloud等云平台上的分布式服务部署和管理,以及云原生(Cloud Native)理念。 11. **微服务架构**:如何将大型应用程序拆分为小型、独立的服务,以及相关的服务...
5. **云计算与Java**:随着云计算的发展,Java在云平台上的应用越来越广泛,如在Amazon Web Services (AWS)、Google Cloud Platform (GCP)和Microsoft Azure上的Java解决方案。杂志可能介绍了如何利用Java进行云开发...