`

双11幕后超级英雄:新一代运维的价值

阅读更多

“双十一”刚刚结束,其实最紧张的不是商铺理货,也不是网友紧盯大促商品准备秒杀,而是网购幕后的运维人员,他们最担心:什么网络中断、应用卡顿、响应速度慢,服务器宕机……

双十一作为电商 IT 部门的头等大事,大促前,运维人员就需要早早地做好多套预备方案,并时刻紧绷着神经,经历着上百次模拟演练。他们在后端有多少不眠不休的夜晚,不得而知。几年前,一场秒杀让服务器宕机是常态,现在,一秒数十万的订单,服务器依然坚挺。毫无疑问,支撑起这一切的是强有力的技术和运维人一个个不眠的夜晚。

看似简单的双十一背后牵扯到是包括支付、架构、数据库、网络、运维、电力、客服、物流等整个商业配套基础设施的协同和考验。

双十一大促的那些年 运维迈过的坑

天猫双十一大促最早开始于 2009 年,那时候还是淘宝商城,一天的 GMV 只有几千万,而且还没有零点全民疯抢的概念。在大促前工程师们基本上会根据各自的经验判断,比如服务器的当前负载、应用的当前 RT 和 QPS,判断每台服务器最大能支撑多少能力等,然后几个人讨论后就决策拍板,某某核心应用各自要加多少台服务器,到底要加多少服务器,实际上大家的心里没底,实在不放心临时再多申请扩容。总之这个阶段业务量也小,也能应付过去。

后来几年随着天猫品牌的提升,双十一大促逐年爆发,原来的运维方式已经无法适用。业务发展迅速,后端的应用数量也大大增加,各个应用系统之间的调用链路错综复杂。大促前到底要准备扩容多少资源?不能拍脑袋热,因为你申请资源太多会可能被拒绝,申请少了你要承担更大的风险。这时候用线上压测的方式来解决,比如可以直接在生产环境抽取 1 台服务器,通过模拟回放或者直接引入多倍流量做压测,根据压测结果计算出单台服务器的最大可承载能力,然后用数字来说话,去申请扩容。还有就是即使容量规划做到位了,但在零点峰值的时候还是可能会超出预期,系统还是会挤爆。所以又引入了限流和降级,限流就是对各个应用设置一个最大阈值,超过阈值就立刻拒绝新的请求,这样的好处就是保护应用,避免雪崩。还有就是降级,由于应用太多,在大促的期间,可以关闭部分非核心功能,保证交易主流程的能力最大化。那个阶段的压测也不是完全精确的,主要问题是压测的局限性,只是对某个应用做单独压测,但是应用之间是有依赖有关联的,特别是一些共享服务中心,基本上被所有应用都依赖调用,那怎么办呢?后来几年时间又研发出新的压测工具,全链路压测。这个对于容量规划来说,是全新的思路,直接在生产环境上通过模拟复制产生大批的流量,每个环节都会被压测到,并有相应的监控系统配套,来找出瓶颈点在哪里,并迅速优化。而且这个过程被自动化完成。

我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

 

可见,自动化运维是大势所趋。

零点疯抢背后的运筹帷幄

现在的电商双十一大促活动仍旧延续零点疯抢模式,对于应用系统保障来说,能否顺利扛过前 15 分钟,甚至是前几分钟,成为最核心的保障任务。运维界大咖给出了以下几点建议:能否顺利扛过前 15 分钟,甚至是前几分钟,成为最核心的保障任务。具体给出了以下几点建议:

a. 容量规划。 尽可能在生产环境做压测,只有经历过压测,心里才会有底。

b. 关键应用要支持限流。 零点全民疯狂的流量很可能会超出预期,只有设置好限流才能保护好自身应用,否则出现雪崩式连锁反应。

c. 对非核心功能做降级。 每次双十一会投入大量的资源,基本会往核心交易类应用倾斜,那么非核心功能的降级一定程度上是可接受的。

d. 应急预案。 对可能发生的异常状况提前准备。

双十一大促是最典型的弹性场景

弹性是云计算的最大优势,而大促是最典型的弹性场景。

随着云计算特别是公有云的普及,现在的运维人员基本上无需关注机房、网络、操作系统等底层设施。在不断地演练后,如今的电商平台早已采用弹性可扩展的云计算平台,配合分布式数据,高效的 CDN 分发来实现负载均衡,避免在双十一凌晨高并发状态下崩盘。运维人员将更多精力转移到快速上线,快速迭代,去支持业务发展。

大促活动的流量跟日常完全不在一个量级,完全可以利用云资源的按需使用,来达到扩容的需求,而且在成本上是巨大的节省。除了扩容以外,当然还需要准备应急预案。整理出当天可能出现的异常情况,提前预演。

去年天猫双十一开场仅仅十分钟,世界支付纪录被再次刷新。支付宝公布的数据显示,在零点 9 分 39 秒,支付宝的支付峰值达到 12 万笔/秒,是前年的 1.4 倍,刷新了去年创下的峰值纪录。在支付方式的选择上,花呗和余额宝成为非常受网友欢迎的支付方式,笔数占比分别高达 29% 和 18% 。

经得起巨额交易,玩得起光速秒杀,技术系统抗得住,收益率流动性各种稳妥……只有经得起双十一的终极考验的才算是真正的神器!

智能运维要借助数据和算法才能实现

运维的发展阶段经历了从标准化、工具化、自动化、到现在初露端倪的智能化,每个阶段的发展都代表了生产力和效率的大幅提升,整个趋势是不可避免的。智能时代的运维不是要让运维人员失业,而是对运维效率的提高有着极大的诉求,比如如何在错综复杂的环境中快速定位问题、root cause、甚至是故障预测,避免发生故障,保障应用稳定性。

智能运维要借助数据 (运维数据) 和算法才能实现。首先运维能力的发展不是直接跳到智能运维阶段的,必然经过标准化、工具化、到自动化的发展过程,只有高度完善的自动化才具备基础能力。其次就是数据积累,需要大量的运维数据,可以是日志数据、网络抓包数据、数据库数据等等。还有日常运维产生标注的数据,比如出一次故障后,运维人员会记录下过程,这个过程会反馈到系统,反过来提升运维水平。最后就是算法,到底采用哪类算法模型做持续优化。

天弘基金在运维部门希望通过服务器性能日志采集分析,实时监控应用系统基础资源的使用情况,通过采集客户端 Agent 收集服务器和集群组件的 CPU、内存使用率,以可视化形式展示资源运行状况。

d2cac9429dbcd5dd2ee82d2b1029a37ad00992e1

据悉,天弘基金云日志平台项目已开始进行内部推广,在系统正式运行期间得到了用户认可,对用户的具体价值体现在以下几个方面:

运维人员:数据脱敏功能帮助运维人员解放人力;采集资源管控功能可以防止 Agent 程序对服务器和应用产生影响,有效避免灾难性故障发生。

研发人员:日志查询功能可方便快捷的查询日志文件;调用链分析帮助研发人员快速定位故障原因和问题点,协助研发团队优化系统代码并进行架构治理。

业务人员:监控告警功能可及时发现业务故障,最大程度上降低故障响应时间,提升用户服务体验。

管理人员:智能运维可实时掌握服务资源运行情况,并能够预测集群水位,提供基础资源扩容建议。

 

阅读原文请点击: 

分享到:
评论

相关推荐

    45 幕后英雄:SIG-Node与CRI.pdf

    【标题】:“45 幕后英雄:SIG-Node与CRI.pdf”指的是一个关于SIG-Node(Special Interest Group for Kubernetes Node)和Container Runtime Interface(CRI)的技术文档,这在Kubernetes生态系统中是非常关键的组件...

    45 _ 幕后英雄:SIG-Node与CRI1

    【标题】:“45 _ 幕后英雄:SIG-Node与CRI1” 【描述】:“Kubernetes项目中的默认容器运行时是竞争的关键领域,Docker作为Kubernetes的重要依赖。” 【标签】:“kubernetes” 【正文】: 在Kubernetes的世界...

    企业级IT运维实践分析.docx

    虽然常面临误解,但他们的工作对企业运营至关重要,是保障信息化系统正常运转的幕后英雄。在不断提升运维水平,优化流程的同时,也需要增强与业务部门的沟通,让其他人理解并认识到运维的价值。

    MEMS微纳电子产业报告:高科技的幕后英雄(12页).zip

    MEMS微纳电子产业报告:高科技的幕后英雄(12页),资源名称:MEMS微纳电子产业报告:高科技的幕后英雄(12页)20190731-华夏幸福产业研究院-华夏幸福产业研究院MEMS产业大观:高科技的幕后英雄.zip...

    探索Java的幕后英雄:类加载器机制全解析

    Java是一种广泛使用的高级编程语言,由Sun Microsystems公司(现为甲骨文公司的一部分)在1995年发布。Java语言具有以下特点: 1. **跨平台性**:Java的口号是“一次编写,到处运行”(Write Once, Run Anywhere,...

    一天让你熟悉互联网运维理论与实践.pdf

    运维理论从早期的职能化、服务化发展到价值化、产品化,反映了运维工作从幕后走向前台,开始关注如何更好地服务于业务和用户。职能化运维强调角色和职责的划分,服务化则侧重于提供高质量的服务以支持业务的正常运行...

    十大互联网无名英雄:笑脸符号发明人入选.docx

    在互联网波澜壮阔的历史...最后,这篇文章不仅仅是对这些创新者的赞歌,也是一个提醒:在互联网的下一次浪潮中,还会有新的无名英雄出现,他们的名字和脸庞可能不会出现在历史书籍中,但他们对人类的贡献将会是永恒的。

    新浪网资深运维工程师总结的linux运维笔记.pdf

    尽管运维工程师在某些情况下可能被视为“幕后英雄”,但他们的工作对于网站的稳定性和用户体验至关重要。 要成为一名优秀的运维工程师,需要具备广泛的技术技能,包括但不限于Linux系统管理、网络技术、数据库管理...

    互联网平台运维服务体系.pdf

    腾讯游戏运维总监洪楷在2016年全球运维大会上分享了腾讯游戏运维服务体系的实践经验和理念,强调了运维服务从幕后走向台前,从基础服务到增值服务的转变,以及如何通过自动化、智能化手段提升服务质量。 1. **运维...

    幕后花絮::framed_picture:KSF Media前端monorepo

    阿夫雷斯科 Affresco(IPA: / af'fresko / )是KSF Media的前端monorepo:由于壁画中包含许多美丽的场景,因此在此repo中可以找到许多美丽的前端。 部署 朗 PureScript JavaScript JavaScript ...

    跟老男孩学Linux运维:Shell编程实战

    目前全球正处于互联网 的时代,越来越多的传统企业都在通过互联网提供产品和服务,比如,...而支撑互联网的幕后英雄其实就是Linux(包括移动互联网在内),掌握Linux运维技术已经成为每一个IT技术人员的必备技能!

    精雕5.21幕后男主角版+诺诚4.0

    《精雕5.21幕后男主角版与诺诚4.0深度解析》 在IT行业中,雕刻软件的应用广泛,尤其在艺术设计、模具制造等领域,它们是技术人员的重要工具。"精雕5.21幕后男主角版"与"诺诚4.0"便是其中的佼佼者,这两款软件的结合...

    MySQL触发器:数据库自动化的幕后英雄

    ### MySQL触发器:数据库自动化的幕后英雄 #### 引言:触发器的自动化魔法 触发器作为MySQL数据库中的一种特殊存储过程,在特定的数据库操作(如插入、更新或删除)执行之前或之后自动触发,这一特性使其成为了...

    硬件工程师:塑造数字世界的幕后英雄.zip

    硬件工程师是数字世界的幕后英雄,他们用精湛的技能和不懈的努力为我们创造了丰富多彩的电子产品。作为一名硬件工程师,需要不断学习和提升自己的能力,以适应不断变化的市场需求和技术发展。同时,也要注重团队协作...

    分布式数据库文章精选.docx

    - **技能升级**: 探讨了运维人员需要掌握的新技能和技术栈。 #### 六、亲身感悟:业务系统数据库向开源和分布式过渡,运维人员要 Get 哪些技能? - **过渡经验**: 通过作者的实际经历分享了向分布式数据库过渡的...

    《“e”网神话 解读全球十大网络公司的幕后故事》作者: 邓智海编著 出版年: 2000年

    作者: 邓智海主编 出版社: 天津社会科学院出版社 出版时间: 2000-07 版次: 一版一印 印刷时间: 2000-07 装帧: 平装 开本: 32开 页数: 484页

    通信行业省会运维中心基站室BSC维护班机务员岗位说明书模板.doc

    总之,通信行业省会运维中心基站室BSC维护班机务员的职责涵盖了基站的全面监控、故障管理、工程配合和技术支持等多个方面,他们是通信网络顺畅运行的幕后英雄,其专业能力和责任心对于网络服务质量至关重要。

    精细技术运营优化.pdf

    【运维价值的思考】 在传统的运维观念中,主要任务是确保系统的稳定、高效和安全运行。然而,在现代的IT环境中,运维的价值不再仅仅局限于这些基础层面。运维人员需要思考如何通过技术来体现自身的价值,如何为用户...

Global site tag (gtag.js) - Google Analytics