摘要:阿里巴巴DevOps转型之后,运维平台是如何建设的?阿里巴巴高级技术专家陈喻结合运维自身的理解,业务场景的分析和业界方法论的一些思考,得出来一些最佳实践分享给大家。
前言
“我是这个应用的 Owner”是阿里巴巴DevOps转型的重要策略,运维有了这个策略以后,PE大量的日常工作就可以释放出来,会有更多的时间去思考沉淀,去做编码,去做以前不曾做的事情。
运维的三个阶段
第一阶段:黑屏,三角形是代表整个运维给用户的一些体感或者给研发的体感,人工运维,目前很多企业可能还是这样。
第二阶段:白屏,自动化运维,以前把脚本做成工具去弄,有什么特征,人push机器去干活,自助运维。
第三阶段:用户对运维体感很少,但是运维这个领域是不变的。最重要的是人机交互变少了,无屏虽说是不可能的,非常极端,但是个趋势,少量的人机交互,它有自决策、自驱动。
自动化运维基础
做自动化运维,我认为有四大基础。
第一:运维标准与规范
我们的标准有什么好处,让研发 follow 这个标准,标准会在工具里固化。
第二:泛监控,运行时,静态,数据化,可视化
泛监控,不是说传统的监控,是把线上想知道的一切都数据化,最终数据不是给人看的,是给机器去消费的,数据是我们的生产资料,不是可视化,那不是我们的目标。
第三:CMDB
1.CMDB 应该放什么,一般放服务器相关的、网络相关的、应用相关的这三个维度的相关信息。
2.经常有人会说 CMDB 不准,数据不准是因为没有把数据生产和数据消费形成闭环,如果形成了闭环数据不准,那是因为你不用这个数据,所以不准。
第四:高效的CI/CD/CD
我们一定要具备快速的交付能力,主要体现这两个方面:第一,新开发的能力能不能快速上线,第二,想扩容一台机器能不能快速扩出来。这两个能力抽象出来是三块。
- 持续集成(CI),很多人说持续集成工具不好用,效率低,其实持续集成的本质是要自动化测试。如果研发部不具备自动化测试的能力,持续集成怎么做都是失败的。
- 持续集成里最重要的一点就是要推行单元测试、集成测试还有系统测试,单测是保证自己没问题,集成测试是保证跟上下游没问题,系统测试是保证整个系统没问题。
- 持续交付(CD),有很多人说持续交付本质是一个 Pipeline,CI的目标是什么?快速正确打一个包出来。CD的目标是什么?能够快速把一个包在不同的环境验证它是ok的,可以放到线上去,这就是持续交付要干的事。持续交付里很关键的一点我们要解决,就是它的环境一致性、配置一致性。环境一致性可以用Docker解决,Docker 本身就是一种标准化的东西。所以说第一条用 Docker,肯定是标准化的,另外一个问题,配置是不是一致性,是不是动静分离。
- 持续部署(CD),是一种能力,这种能力非常重要,就是把一个包快速部署在你想要的地方。
PS:持续部署的几个痛点。
1.对包的文件的分发,阿里有一个叫蜻蜓的产品,是做了 SP2P,在 P2P 的基础上加了一个 Super。
2.应用启动,很多应用启动的时候要两三分钟,这是很有问题的。
3.部署起来以后这个业务是不是正确的,大家一定要做一个 HealthCheck,不是运维做,是PE做,一定要把这个要求说出来,执行 HealthCheck 这个脚本。
运维系统的重要特性
中间件研发首先关注稳定性,其次是效率,然后是易扩展。运维研发里面的六个重要特征,每一个都非常重要,以下是我感触比较深的几个。
1.高可用
在做同城容灾演练的时候,我把关一切,结果发现运维系统挂了,救命的东西没有了怎么办?所以说运维系统一定要是高可用,不一定是高并发。
2.幂等性
幂等性是分布式系统设计中十分重要的概念,这个也非常重要。
3.可回滚
这个是做运维最基本的一个 sense,你做的任何操作是不是可控的。如果真正做可回滚,其实事情没有这么复杂。
4.高效率
如果你的企业发展非常快速,你的规模性效应已经来了,你的运维系统一定要具备很高效率,快速扩容、快速部署这个效率我们要追求极致。
研发定义运维,配置驱动变更
2015年11月4日设想的架构图
从最下面看,是我们的基础设施,提供三种能力,包括集散、存储、网络。从右下角的位置看,画的是一个泛监控,它会知道系统、应用等,在旁边标了一个字,现状,我要通过这个现状把线上的系统全部数据化,然后放到决策中心。
左上角有 CMDB,现在很多变更系统,很多强调流程。我本人是做研发出身,非常抵触流程,流程不是一个效率工具,它是阻碍效率的。
比如故障搞完以后就是一堆的流程,非常阻碍效率,是质量控制的一个工具。流程不是不要,是把流程做到系统里面去,让系统帮人做决策,而不是人在那里点。
CMDB 定义了我刚才说的目标,现状通过监控拿到了,目标也知道了,这个时候还觉得这个事情很复杂吗?我认为这看你怎么去做。想做成人工还是做成自动或者做成智能,都取决于这个地方。所以智能里一定要有数据。
举个例子,通过智能分析出目标状态是使这个应用有100个VM,但是现在状态只有80个,一看这两个不一样,要扩容20台,如果系统做得更智能一点,通过图上左边的事件中心提示我20台负载较轻的放在哪,可以调度过去,然后去做执行变更。
基于这些东西得出来两个结论,“研发定义运维”,“配置驱动变更”。
为什么是研发定义运维?
研发定义运维(DDO),研发最贴近业务,最应该清楚这个业务应该具备什么样的能力,只有研发才知道这个业务KPS是多少。
为什么是配置驱动变更?
配置就是把目标改变一下,你跟我说一个运维场景,我可以在这个图里面 run 起来,配置只需要改你的目标状态,比如把你的状态10VM 变成15个VM。
这就是“研发定义运维,配置驱动变更”前因后果的思考。
运维工具与方法论
精益发现价值
价值来源于用户的需求,而不是自己的YY,我们的价值来源于用户。
精益对我最大的感触就是要发现价值。精益思想,什么东西是有价值的,能够对用户带来物质上的或者身体上的愉悦的东西就是有价值的。
今天也有人问,DevOps 团队是该拆还是该合,我想他应该首先弄清楚面对的是什么样的问题,问题的优先级是什么?如果只解决一个问题,也许并不是DevOps 团队拆不拆的问题。
敏捷交付价值
敏捷也是对我影响很多的。很多人谈敏捷,我们团队里也搞敏捷,敏捷是要快速交付价值,它是一系列的方法论。但是在引入的时候千万注意,别人行的东西你不一定行,你需要的东西并不一定是敏捷,要因团队而异,形成一个环,持续反馈。
OODA环
OODA 环,就是形成闭环,让价值快速流动。
应用运维平台ATOM
应用运维平台的基础设施是一层,二层是运维中台,最上面一块是要做的 PaaS 平台,这个平台分几步。
第一块,预算、容量、资源、弹性
这个是PaaS 平台上非常重要的一块,目的就是让资源快速流动起来,流向正确的方向来产生价值。资源如果常年不增不减,是有问题的。
第二块,应用管理
这是日常要做的操作,规模化,要快速对一个单元建站、扩容、缩容。
第三块,数据化运营
一定要讲数据,数据不是可视化出来一些报表,是要给结论,告诉用户这个数据完了以后应该是什么,规则中心是什么,是所有运维同学日常的运维经验沉淀。
批量腾挪工具
这个工具不是所有人都需要,可以解决机房的搬迁,凑框迁移。
单机闭环,这是腾挪工具的关键,如果企业有一定规模,这个是需要的。
弹性伸缩工具
弹性伸缩是我们的决策中心。它决定你的资源往哪个地方流,非常关键。
最后,这里是运维领域技术含量最深的一个地方,要搞机器学习、深度学习、强化学习、算法等。
弹性伸缩架构,这个平台不一定很多企业都需要,这里主要介绍在双11的时候是怎么用的。
建一个站点起来只有5000的交易能力,可以通过10分钟时间让它具有30000万的能力,快速决策,快速调动起来。弹性里面是一个 OODA 环,拿它的数据和应用极限做比较,得出来一个策略中心。
弹性一般有水平伸缩、垂直伸缩,对线上做管理,当然我们有额度,这是比较精细化的管理。弹性有观察者模式还有自动化执行,每次弹性完以后有一个控制台,双11做全年压测的时候一般情况下不看这个。
实施效果
阅读更多干货好文,请关注扫描以下二维码:
相关推荐
阿里巴巴 DevOps 的三架马车:基础设施、运维编排、监控 阿里巴巴 K8s 超大规模实践经验 阿里巴巴 Kubernetes 应用管理实践中的经验与教训 阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践 阿里巴巴核心应用...
自动化运维体系在阿里巴巴网路落地实践 中通数据库运管PAAS平台建设之路 智能运维三驾马车 支付宝三方生态可用性问题监控发现实践 运维数据治理与智能运维的交互支撑建设探索 云原生应用管理高效实践 云原生时代下,...
实践-阿里巴巴大数据云原生探索与实践 实践-当当云新-代Serverless平台 Knative的应用实践 实践-基于云原生构建DevOps研发效能平台 实践-基于云原生容器化的DevOps流水线在AI领域的实战 实践-金融业数字化转型与云...
内容概要:本文档是一份详细的SQL入门指南,旨在帮助初学者全面掌握SQL的基本概念和技术。首先介绍了SQL的基础知识及其重要性,解释了为什么学习SQL对数据分析和软件开发至关重要。接着详细讲解了如何快速搭建SQL环境,包括在线沙箱和本地安装两种方式。随后深入探讨了SQL的基础语法,如创建数据库和表、插入、查询、更新和删除数据的操作。进一步解析了核心操作,如复杂的查询语句结构、多表关联查询以及实用的功能,如条件表达式、日期处理和字符串操作。最后提供了新手常见问题的解决方案和性能优化建议,并推荐了一些学习资源。 适合人群:对数据库操作感兴趣的初学者,尤其是希望从事数据分析或软件开发的人士。 使用场景及目标:适用于想要系统学习SQL基础知识和核心操作的个人,目标是在实践中掌握SQL技能,能够独立进行数据库管理和操作。 其他说明:文档不仅涵盖了理论知识,还提供了大量实例和练习建议,帮助读者更好地理解和应用所学内容。
计算机二级考试C语言历年真题及答案.pdf
flink 自定义连接器
软考网络工程师视频教程及复习指导资料,含视频教程、历年真题、模拟试题等。
计算机二级access历年笔试真题及答案.pdf
内容概要:本文详细介绍了使用三菱PLC FX3U和1PG定位模块控制四个松下伺服电机的项目经验。项目将常用的JOG、HOME、定位等功能封装成独立的功能块(FB),并通过结构化文本(ST)编写程序。每个功能块不仅包含了核心逻辑,还进行了详细的异常处理和参数映射,确保系统的稳定性和易用性。此外,文章还涵盖了电气图纸、触摸屏配方管理以及硬件配置等方面的注意事项,提供了完整的项目实施指南。 适合人群:从事工业自动化领域的工程师和技术人员,尤其是对三菱PLC和松下伺服有一定了解的人群。 使用场景及目标:适用于需要高精度多轴联动控制的工业应用场景,如数控机床、机器人等。目标是帮助工程师快速搭建稳定的控制系统,减少调试时间和复杂度。 其他说明:文中提供的代码片段和硬件配置建议经过实际验证,能够有效提高项目的成功率。同时,文章强调了良好的注释习惯和详细的文档记录对于后续维护的重要性。
办公室网安全监控uptime-kuma,docker镜像离线压缩包
教程-typescript-简介和入门
内容概要:本文详细介绍了基于西门子S7-1200 PLC控制五轴伺服系统的项目实施经验,涵盖手动模式、自动运行状态机、伺服模式切换、断电保持以及报警处理等多个关键环节。作者通过结构化编程思想,将复杂的多轴控制系统分解为多个独立的功能块,确保系统稳定性和可扩展性。文中不仅展示了具体代码实现,还分享了许多实用技巧,如通过枚举类型构建状态机、利用保持存储器实现断电位置记忆、采用环形缓冲区记录报警信息等。 适合人群:从事工业自动化控制领域的工程师和技术人员,尤其对PLC编程和伺服控制有一定基础的人群。 使用场景及目标:适用于需要进行复杂多轴运动控制的工业应用场景,旨在提高系统的可靠性、灵活性和易维护性。通过学习本文,读者可以掌握如何运用结构化编程方法优化PLC程序设计,提升工作效率并减少错误发生。 其他说明:文章强调了良好的编程习惯对于大型工程项目的重要性,提倡模块化、组件化的设计理念。此外,还提到了一些常见的陷阱及其解决方案,帮助初学者避开弯路。
win32汇编环境,网络编程入门之十五
12届嵌入式省赛题1111111
内容概要:本文详细记录了作者在Cadence平台中完成一个两级放大电路版图设计的过程,涵盖了从初步设计到最终通过LVS(Layout vs Schematic)和DRC(Design Rule Check)验证的所有步骤。文章首先介绍了电路的基本结构和参数设定,如共源放大器和共栅放大器的关键参数调整,以及在Virtuoso环境中进行的具体操作。接着,作者分享了在版图绘制过程中遇到的各种挑战及其解决方案,包括晶体管尺寸优化、走线布局、寄生参数控制、金属层间距调整等。此外,还特别强调了LVS和DRC验证中的常见问题及应对策略,如端口不匹配、器件参数偏差、金属密度规则等。最后,作者总结了一些实用的设计技巧和注意事项,为后续类似项目提供了宝贵的经验。 适合人群:从事集成电路设计的专业人士,尤其是对模拟电路版图设计感兴趣的工程师和技术爱好者。 使用场景及目标:帮助读者掌握Cadence环境下两级放大电路版图设计的方法,提高LVS和DRC验证的成功率,减少设计周期内的返工次数,提升设计效率。 其他说明:文中提到的具体数值和代码片段仅供参考,在实际应用中需要根据具体的工艺规则和个人需求进行适当调整。
矢量边界,行政区域边界,精确到乡镇街道,可直接导入arcgis使用
matlab
这个Stroke Risk Prediction Dataset(卒中风险预测数据集)的版本2旨在通过症状、人口统计学和基于医学文献的风险模型来预测卒中风险。相比于版本1,它在多个方面进行了显著改进,包括年龄相关的症状概率、性别特异性风险调整以及经过医学验证的特征工程等。 主要增强点: 年龄准确的风险建模:卒中风险随着一个S型曲线增加,在50岁之后急剧上升,这反映了现实世界的流行病学趋势。 性别特定的风险:60岁以下的男性风险是女性的1.5倍,而60岁以上的女性(绝经后的激素变化)风险比同龄男性高1.8倍。 平衡且扩展的数据集:样本量从10,000增加到35,000,以提高模型的普遍性和捕捉罕见的症状组合。其中50%为卒中风险≥50%,另外50%为卒中风险<50%。 数据集结构 该数据集包含16个特征和2个目标变量(分类目标和回归目标),涉及年龄、性别、各种二元症状指标(如胸痛、呼吸急促、心律不齐等)、是否处于风险中(二元分类目标)以及卒中风险百分比(回归目标)。 医学有效性 数据集基于同行评审的医学文献构建,症状概率、风险权重及人口统计关系直接来源于临床指南和流行病学研究。例如,
搭建环境:JDK-17
流程图111111111111111