`

史无前例开放!阿里内部集群管理系统Sigma混布数据

 
阅读更多

互联网普及的20年来,尤其是近10年移动互联网、互联网+的浪潮,使互联网技术渗透到各行各业,渗透到人们生活的方方面面,这带来了互联网服务规模和数据规模的大幅增长。日益增长的服务规模和数据规模带来数据中心的急剧膨胀。在大规模的数据中心中,传统的运维方式已经不能满足规模化的需求,于是基于自动化调度的集群管理系统纷纷涌现。




 

这些系统往往有一个共同的目标,就是提高数据中心的机器利用率。在庞大的数据中心服务器规模下,平均利用率每提高一点,就会带来非常可观的成本节约。这一点我们可以通过一个简单的计算来感受一下。假设数据中心有N台服务器,利用率从R1提高到R2,能节约多少台机器?不考虑其他实际制约因素的情况下,假设能节约X台,那么我们有理想的公式:



如果我们有10万台服务器,利用率从28%提升到40%,那么代入上述公式有:



也就是说10万台服务器,利用率从28%提升到40%,就能节省出3万台机器。假设一台机器的成本为2万元,那么节约的成本就有6个亿。

但是遗憾的是,根据盖特纳和麦肯锡前几年的调研数据,全球的服务器利用率并不高,只有6%到12%。即使通过虚拟化技术优化,利用率还是只有7%-17%;这正是传统运维和粗放的资源使用模式带来的最大问题。调度系统的主要目标就是解决这个问题。

通过资源的精细化调度,以及虚拟化的手段,比如Virtual Machine或容器技术,让不同服务共享资源,堆叠高密部署,可以有效的提升资源利用率。但是这种模式对在线业务的应用上存在瓶颈。因为在线业务间的资源共享,高密部署会带来各个层面的资源使用竞争,从而增加在线服务的延迟,尤其是长尾请求的延迟。

对于在线业务来说,延迟的增加往往立刻反应到用户的流失和收入的下降,这是在线业务无法接受的。而近年来随着大数据的普及,对实时性要求并不高的批量离线作业规模越来越大,在资源使用上,逐渐和在线业务的体量相当,甚至超过了在线业务。于是很自然想到,将离线业务和在线业务混合部署在一起运行会怎样?能否在牺牲一些离线作业延迟的情况下,充分利用机器资源,又不影响在线的响应时间?



阿里巴巴从15年开始做了这个尝试。在这之前,阿里内部针对离线和在线场景,分别各有一套调度系统: 从10年开始建设的基于进程的离线资源调度系统Fuxi(伏羲),和从11年开始建设的基于Pouch容器的在线资源调度系统Sigma。 从15年开始,我们尝试将延迟不敏感的批量离线计算任务和延迟敏感的在线服务部署到同一批机器上运行,让在线服务用不完的资源充分被离线使用以提高机器的整体利用率。

这个方案经过2年多的试验论证、架构调整和资源隔离优化,目前已经走向大规模生产,并已服务于电商核心应用和大数据计算服务ODPS业务。混布之后在线机器的平均资源利用率从之前的10%左右提高到了现在的40%以上,并且同时保证了在线服务的SLO目标。

我们了解到,近年来解决资源调度和集群管理领域特定问题的学术研究也在蓬勃发展。但是考虑到学术研究和实际真实的生产环境还是存在很大差异。首先是用于学术研究的机器规模都相对较小,可能无法暴露出实际生产规模的问题;其次是学术研究中所用的数据往往不是实际生产环境产生的,可能会对研究的准确性和全面性产生影响。

因此我们希望将这个阿里内部核心混布集群的数据开放出来,供学术界研究。希望学术界能在有一定规模的真实生产环境数据中,寻找到资源调度和集群管理更好的模式和方法,能够指导优化实际生产场景,将机器利用率和服务质量提高到一个更高的水平。我们一期先开放1000台服务器12个小时的数据。

数据格式描述和数据下载链接放在了github工程中,欢迎查阅:https://github.com/alibaba/clusterdata

来源:阿里技术

本文为云栖社区原创内容,未经允许不得转载,如需转载请发送邮件至yqeditor@list.alibaba-inc.com

分享到:
评论

相关推荐

    CDH集群史无前例详细版搭建方式

    CDH集群搭建史无前例详细版,按着文档搭,基本很稳,描述的很详细

    阿里分布式运维系统总结

    ### 阿里分布式运维系统总结 #### 一、飞天5K实战经验:大规模分布式系统运维实践 在阿里巴巴的大规模分布式系统运维实践中,面对服务器数量的剧增带来的挑战,采取了一系列措施确保系统的稳定性和可靠性。 1. **...

    《阿里巴巴Java开发手册》官方正式终极版(百分百官方正版)

     《阿里巴巴Java开发手册》系统性地从编程、数据库、异常日志、工程结构、安全、单元测试六大方面,总结出优秀Java开发者必备的技术素养。时值手册发布一周年之际,阿里官方对外正式公开《阿里巴巴Java开发手册》终...

    工业数据采集方案.pdf

    工业物联网,工业数据集成,PLC等底层采集,工业设备联机,工业互联网,史上最全工业数据采集技术方案资料,数十年经验干货,纯手打资料,公司内部资料,史无前例,现公开,绝对超值。

    《Java开发手册》1.3.0终极版

    《阿里巴巴Java开发手册》系统性地从编程、数据库、异常日志、工程结构、安全、单元测试六大方面,总结出优秀Java开发者必备的技术素养。时值手册发布一周年之际,阿里官方对外正式公开《阿里巴巴Java开发手册》终!...

    史无前例的政府网站建设方案

    - 应用体系需涵盖全局性网上项目,包括资源共享、内部通信系统和决策支持系统。 - 数据库体系应安全可靠,具备高效信息管理功能,逐步实现数据备份和恢复。 - 安全体系需建立统一标准,分级管理,以适应应用需求...

    绝对绚丽的3D手机动态旋转效果.pptx

    绝对绚丽的3D手机动态旋转效果,PPT里的动态3D旋转,史无前例哦!

    史无前例的近义词.doc

    史无前例的近义词.doc

    vb超级牛资料,史无前例

    "vb超级牛资料,史无前例"这个标题暗示了这是一份非常全面且深度的VB学习资源,可能是包含了一系列高级技巧、实战项目或疑难问题解决方案的集合。 "学vb的好工具终于出现了,这里祝福大家好运!!" 这段描述表明,这份...

    张剑真题解析 空前绝后 史无前例

    【标题】"张剑真题解析 空前绝后 史无前例"所涉及的知识点主要聚焦在考研英语的复习策略与真题解析上,由考研英语领域极具影响力的专家张剑倾力打造。这样的资源对于备考者来说是极其宝贵的,因为它提供了深入理解和...

    史无前例的Web3.0革命(一).docx

    在这个网络中,用户的数据不再被单一实体控制,而是分散存储并由用户自己管理,这大大提升了数据的安全性和隐私保护。 区块链技术是Web3.0的重要支撑,它的分布式账本特性使得信息透明、不可篡改,为数据的安全存储...

    史无前例的五笔打字软件

    你的五笔技术革新将从此开幕了,你的打字速度也是无敌的,哈哈!!!!!!!!!!!!!!!

    VB6史无前例的子类化之透明按钮

    在VB6(Visual Basic 6)编程环境中,子类化是一种高级技巧,它允许程序员扩展或修改已有的控件功能,比如系统自带的标准按钮。在本主题中,“VB6史无前例的子类化之透明按钮”着重讨论如何通过子类化技术使VB6中的...

    安卓超酷 3D 桌面 Next Launcher 3D Shell 3.7.3.2 中文多语免费版.zip

    Next打造,史无前例! 安卓超酷 3D 桌面 Next Launcher 3D Shell 中文版安卓超酷 3D 桌面 Next Launcher 3D Shell 中文版 告别平面背景、平面图标、平面体验,此刻开始,畅享全3D桌面旅程!加入百万用户,领先潮流...

    最牛的史无前例刷机包

    我最喜欢这样的刷机包 这是我寻找已久的刷机包

    论文参考文献--电子商务网站建设与管理.pdf

    前端页面是用户与电子商务系统交互的界面,应用服务器是负责处理业务逻辑的核心组件,数据库服务器是负责存储和管理数据的组件,安全系统是负责保护电子商务系统的安全性。 电子商务系统的建设与管理是一个复杂的...

    阿里巴巴Java开发手册1_5_0.zip

    《Java开发手册》更新版,涵盖史无前例的三大升级: 1.新增21条新规约。比如,switch的空指针问题、浮点数的比较、无泛型限制引起的类型混乱、加锁与解锁的注意事项、YYYY的日期格式问题等; 2.修改描述112处。...

    EssentialPIM Pro Business(个人信息管理工具)官方中文版V9.9.7.0

    EssentialPIM Pro 是一款优秀的图形化界面的全功能专业个人信息管理工具,提供跟银行金融级同样数据传送保护技术的SSL加密与云端服务同步功能,完全标签化功能允许标签不同的项目并视相关的项目为单个工程,允许用户...

    EssentialPIM Pro Business(个人信息管理工具)官方中文版V9.9.5.0

    EssentialPIM Pro 是一款优秀的图形化界面的全功能专业个人信息管理工具,提供跟银行金融级同样数据传送保护技术的SSL加密与云端服务同步功能,完全标签化功能允许标签不同的项目并视相关的项目为单个工程,允许用户...

Global site tag (gtag.js) - Google Analytics