`
大涛学长
  • 浏览: 105478 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

揭秘2019双11背后的云网络 – 双11网络架构和洛神系统

阅读更多
**狂欢背后的技术栈** 
网上轻松购物体验实际上是背后复杂的技术组成的,这是一个简化的通用电商系统架构,由很多产品和业务组件组成。

图2 简化电商系统架构 
![_2](https://yqfile.alicdn.com/034bb6073fd67f23866bc2e6445119d0a834912f.png)

这些业务组件核心系统今年100%上云,底层承载的技术就是阿里云的计算,存储,网络,数据库等等一系列产品和解决方案。 
因为处理量非常巨大,这些业务产品、组件和模块之间会采用分布式部署方式,产品与产品、组件与组件、模块和模块之间会存在海量的通信要求,承载这个通信要求的技术平台就是阿里云网络的飞天洛神平台。

**什么是飞天洛神** 
阿里云的技术平台叫飞天操作体系,其目标是将一个数据中心,乃至遍布全球的多个数据中心变成一台计算机,对内管理数据中心的服务器和各种物理资源和设施,对外统一的提供公共服务和对应的编程接口。

图3 阿里云飞天操作系统 
![_3](https://yqfile.alicdn.com/7fc06c3638869990373553a9637a891a9519bb50.png)

飞天操作系统的内核提供最基础的系统服务,是对基础资源的虚拟化,核心是计算、存储和网络资源的虚拟化,其中虚拟网络服务(如虚拟专有网络VPC,SDN控制器,负载均衡网元等)是由洛神平台提供,总结一句话,洛神是阿里云飞天操系统内核的核心组件,提供了云计算网络的全部功能。

**飞天洛神特点** 
洛神伴随着阿里云飞天系统诞生,到目前已经有10年的历史,支撑了阿里云20个region,数百万级别虚拟机之间的如丝般顺滑的访问体验,这些与洛神10年来的技术沉淀息息相关。

1.  全自研 
    目前阿里云网络有业界最丰富的产品,从使用场景角度分为云上网络、跨地域网络、混合云网络和智能网络。

图4 阿里云业界最丰富的云网络产品 
![_4](https://yqfile.alicdn.com/72f5b487e233160ed381afd2bd0962caa56a7962.png)

这些丰富产品基于洛神平台开发,核心业务代码全自研,到目前为止,已经达到数百万行,不管是底层的软件系统,还是硬件设备形态,其技术方案、业务逻辑完全自主设计和开发,所以阿里云的虚拟交换机也称为AVS(Ali Virtual Switch),从转发表项设计,至报文处理,都不同于业界开源的OVS(Open Virtual Switch)。

1.  软件定义网络

从洛神诞生的第一天起,阿里云的网络架构遵循软件定义网络的理念,管控和转发分离,网元只负责数据转发,管理配置以及表项由SDN网络控制器生成和下发。

图5 阿里云软件定位网络架构 
![_5](https://yqfile.alicdn.com/90827d769f5d74d569326cc989184b3debfd4190.png)

转发网元不管是软件方式,还是硬件方式,都支持可编程,所有业务逻辑都是通过软件代码实现,兼容SDN控制器之间自定义通道通信协议,软硬件一体化,兼容可扩展性。

1.  海量规模 
    阿里云目前有数百万的公有云租户,还有阿里集团这种超大规模的用户,通过海量的虚拟机协同完成丰富的业务。量变引起质变,洛神平台要支持这些海量租户,海量虚拟机之间的网络通信,网元的管理,表项下发性能,数据转发性能不是小规模网络可以相比拟的。目前实际运行环境,洛神已经支持单租户超过10W+虚拟机实例、单租户100G+公网带宽、单租户20T+混合云带宽。

**飞天洛神如何支撑双11** 
“不是任何一朵云都能撑得住双11”,阿里集团核心系统首次100%运行在公共云上,54.4万笔/秒的订单峰值,970PB的单日数据处理量是承载在虚拟化的分布式系统上的,分布式节点之间的通信,依赖的就是底层的云网络基础设施,就是洛神平台提供的能力。 
双11对云网络,对云网络的技术平台洛神有哪些具体的挑战,洛神如何支撑的呢,让我们一一揭秘。

1.  超大规模 
    阿里集团核心业务全面上云,随之而来的最大的挑战超大规模。2018年双11云上单个VPC的规模已经接近10w,今年还需要成倍增加,达到单VPC 30w的规模,业界有如此规模的用户屈指可数,基本集中在个别超大规模互联网公司,但不管是否自身就是公有云提供商,都没有将自己的核心业务部署在公有云上,所以单个VPC支撑如此规模的虚拟化实例,没有先例。同时在转发带宽的要求上,去年整个云上公网和跨域出口流量5Tbps左右,今年这个流量增长到了数十Tbps。

网络设备逻辑上包括管控和数据转发两个组成部分,首先在管控层面,集中式的SDN控制器使用传统方式,转发表项的下发性能会很低,结果会导致虚拟实例的上线速度很慢,影响业务开通效率,包括业务切换效率。洛神的管控系统采用集群和分层架构,集中能力提升的同时,将大量虚拟实例上线的处理下层,大大提升管控配置和表项的处理性能。

图6 洛神分层管控架构 
![_55](https://yqfile.alicdn.com/44e37753b40937b68a2107164179069e79e5340e.png)

数据转发层面,洛神提供了软硬件一体化的技术架构,虚拟交换机在传统DPDK架构基础上进行了升级,支持可编程硬件实现的快速转发。

图7 基于可编程硬件的洛神虚拟交换机 
![_6](https://yqfile.alicdn.com/7d9d662037e4bbfdcc99067ba0d0f10903f31415.png)

基于可编程硬件的虚拟交换机相对于传统软件虚拟交换机,转发性能提升达到10倍左右,时延降低1倍以上。公网和跨域带宽的快速增加,也对DPDK虚拟网关的性能提出了极大挑战,一方面是设备规模的增加,导致管理复杂度,供应成本的增加,另外CPU单核能力的约束,无法支撑某些突发和大带宽单流的场景,影响其它正常流量的通信。

图8 阿里云洛神软硬件一体网关 
![_7](https://yqfile.alicdn.com/b042dbd881b4b8e37f79908dfa159ed2cebcf665.png)

在虚拟网关上,通过技术架构的升级,支持软硬件一体化的硬件网关,业务逻辑通过可编程的P4语言实现,对外接口兼容软件虚拟化网关,实现统一的扩展性。可编程硬件网关相对于传统X86软件架构,转发性能提升数十倍,同时有效避免了大带宽单流对单个CPU core的冲击,整个双11期间的流量洪峰在整个洛神软硬件一体化架构下,呈现出来的是“涓涓细流”。

1.  稳、稳、稳 
    阿里集团核心业务100%运行在公有云上,稳定性是第一要素,容不得半点差错,不仅仅单个节点的稳定性要做到极致,整个网络架构,解决方案层面也要保证绝对的稳定,做到多重防护,万无一失。洛神平台,架构层面保证网络通信的稳定性,业务按AZ(Available Zone)部署,公网和跨域访问的网关在可用区内集群部署,避免单点故障的影响,同时在可用区之间互为备份,避免可用区的故障。

图9 洛神网关类设备可靠性部署架构 
![_8](https://yqfile.alicdn.com/431204fa8cc976ecad5ac178fcc83d53b41829bc.png)

1.  复杂流量模型 
    整个阿里巴巴经济体的业务系统非常复杂,不仅仅包括电商购物系统,还包括蚂蚁支付系统,还有大数据分析系统,菜鸟物流体系等等,不同的系统对网络通信需求的要求也不相同,业务流量的优先级也不一样,有些对延时敏感,有些对带宽要求高,有些对丢包敏感,这些纷繁复杂的业务如何在统一的底层云网络中承载,对云网络的技术平台洛神提出了区别普通公有云租户的不同挑战。以阿里集团在线业务和离线业务为例,离线业务主要就、是大数据,熟悉的人可能都比较清楚,大数据的出名的流量大户,经常会有一些突发的流量将物理网络的带宽占满,导致丢包,而在线业务一般流量不大,但对时延和丢包敏感。这就要求云网络支持流量等级区分,拥塞是优先丢弃低优先级的流量,保证离线和在线业务的和谐共处。

图10 业务对网络的差异需求 
![_9](https://yqfile.alicdn.com/56ac2817b45518c3c5420760690d902e69bfe1d7.png)

云网络洛神平台支持不同业务的QoS,对于大带宽、丢包非敏感业务,设置通信报文低优先级,突发流量不会导致高优先级报文被丢弃,复杂的流量模型也能“和平共处”。

1.  高效运维 
    物理规律决定了没有100%可靠的网络,一方面阿里云网络追求最高的可靠性,一方面遵循没有永远不失效的单点逻辑这个规律,故障一定会发生,无法避免,但需要有故障发生时快速恢复,快速定位的能力,在双11之前的各种压测和故障演练之中,洛神平台不断的锤炼网络运维能力,做到故障快速监控,快速恢复,快速定位。阿里云网络洛神平台的运维,运营平台,内部叫齐天系统,这是一个分布式,大数据智能化运维系统,通过大数据,AI分析能力,集合阿里云海量数据,实现故障的快速定位和逃逸。

图11 阿里云齐天智能网络系统架构 
![_10](https://yqfile.alicdn.com/5b451ad74c4405318f55ce9f5ef78c0dc8c4c8be.png)

通过底层网络网络和虚拟网络数据流,日志,设备状态等等数据信息,通过以blink为底座的大数据分析平台,在业务方感知故障之前,快速判断网络的监控状态,以及快速识别故障的根因,实现故障的自动逃逸。同时每种典型故障,都录入到日常故障演练中,做到网络运维的真正高效,随时可用。智能的网络,也是阿里云洛神平台保障双11业务的一个利器,为双11的平稳保驾护航。

洛神还在不停的进步,从最初的洛神1.0 DPDK网元演进洛神2.0软硬件一体化网元,网络能力有了质的提升,支撑了阿里集团核心业务的100%上云,未来在弹性、开放能力上会更进一步,提供给用户更加美好的体验。

 

 

[原文链接](https://yq.aliyun.com/articles/727473?utm_content=g_1000090490)

本文为云栖社区原创内容,未经允许不得转载。
分享到:
评论

相关推荐

    云网络发展历程和未来展望.pdf

    最后,随着网络组件和系统服务的不断创新,如飞天操作系统的网络组件洛神,以及一系列原生服务和自研的网络大数据分析系统等,都标志着我国云网络技术在自主研发和自立自强的道路上取得了长足进步。这些技术的发展和...

    2020中国云网络峰会PPT汇总(26份).zip

    2020中国云网络峰会PPT汇总,共26份。 2020中国云网络峰会立足“云管边端”协同发展,以网络与业务需求高效联动、云网技术深度融合为依托,围绕云网络涉及的云网基础设施、数据中心网络...开放云网络操作系统和DCN方案

    云网络发展历程和未来展望.pptx

    面对企业上云和混合云网络的挑战,如Internet、OA、DCC、RMW、ERP等系统的互连,云网络解决方案如阿里云的企业网、云连接网和智能接入网关,提供了快速部署、弹性带宽和安全隔离的能力,帮助构建以云为中心的网络...

    公有云网络发展历程和展望.pptx

    7. **洛神与飞天**:阿里巴巴的洛神和飞天是其核心的云网络技术和操作系统组件,洛神提供了逻辑网络平台,而飞天操作系统则包含了从物理资源抽象到大规模分布式服务的完整体系。 8. **混合云网络**:面对企业对混合...

    全球一体化云网络助力企业出海.pdf

    在技术创新方面,全球一体化云网络依托了先进的技术架构,例如飞天操作系统和洛神系统,这些技术能支持企业级应用和消费端应用的高效运行。另外,全球一体化云网络通过容器集群、负载均衡等技术手段,实现了智能运维...

    曹植洛神赋自排PDF版.pdf

    在赋中,曹植运用丰富的想象和华丽的辞藻描绘了洛神的美丽形象,她如惊鸿般轻盈,如游龙般婉转,如秋菊般荣光,如春松般茂盛。她的体态如同轻云遮月,飘摇如同回旋的雪花。洛神的形象不仅美丽,而且充满神秘,仿佛...

    顾恺之国画《洛神赋图》的艺术创作及情感表达修改-论文.zip

    这篇论文将深入探讨顾恺之在创作《洛神赋图》时的艺术手法、情感表达以及其背后的历史文化背景。 首先,从艺术创作的角度来看,顾恺之的《洛神赋图》充分展现了中国传统绘画的“写意”精神。他运用细腻的线条和淡雅...

    顾恺之国画《洛神赋图》的艺术创作及情感表达-论文.zip

    顾恺之在绘画中巧妙地将文字的意境转化为画面,通过线条的流动和色彩的搭配,生动地呈现了洛神的神秘与飘逸。他的笔触细腻,人物形象栩栩如生,尤其在描绘洛神的形态时,既保留了神话的神秘感,又赋予了她人间的温情...

    洛神赋(曹植)赏析.doc

    洛神赋的内容可以分为三部分:第一部分是描绘洛神的美丽,第二部分是描绘洛神的神秘和能力,第三部分是描绘洛神的离去和作者的惆怅。洛神赋的语言华丽,描绘了洛神的美丽和神秘,展现了曹植高超的文学才华。 洛神赋...

    洛神赋[汇编].pdf

    《洛神赋》是一篇描绘洛神的神话故事,讲述了洛神的美丽和神奇,洛神被描绘成一个美丽、贤惠、多情的女性形象。曹植通过描绘洛神的故事,表达了自己对美好的追求和对理想的向往。 在《洛神赋》中,曹植使用了丰富的...

    电影海报插画教程《洛神传》之洛神甄宓.pdf

    电影海报插画教程《洛神传》之洛神甄宓是一个详细指导如何使用Photoshop CS3和友基Rainbow 2数位板创作古典美女插画的教程。由CG插画师谢恺(XK)主讲,他展示了如何从概念设定到最终完成一张电影海报式插画的过程。 ...

    【阿里云效仓库Maven配置】非常全面的可以直接用的Maven的Settings仓库文件

    主要是基于阿里巴巴云效仓库:...(自2022.12.12起,受 Maven 中央仓库网络限制,阿里云云效 Maven 中央代理仓库可能会出现部分新增依赖查找不到的情况,但不影响已有依赖,请知悉)

    分布式架构实践与案例分析-课件-v2.pdf

    然而,微服务架构也有其缺点,例如需要更高级别的运维支持、服务间通信可能导致网络延迟和容错问题、分布式事务的处理和重复劳动等。 微服务与SOA(Service Oriented Architecture,面向服务架构)虽然在某种程度上...

    网络环境下如何进行高效的作文教学.docx

    例如,教师可以通过展示顾恺之的《洛神图》、达芬奇的《蒙娜丽莎》和徐悲鸿的《逆风》等名画,引导学生欣赏艺术,启发他们从不同角度感受和思考,从而培养他们的观察力和创新能力。 其次,网络环境强化了教学的互动...

    从舞蹈意蕴为视角解读曹植《洛神赋》-论文.zip

    《洛神赋》是魏晋时期著名文学家曹植的一篇辞赋,它以其独特的艺术魅力和深远的文化内涵,成为了中国古代文学的经典之作。这篇论文从舞蹈意蕴的视角出发,深入探讨了《洛神赋》的艺术表现手法和文化价值,旨在揭示...

    从舞蹈意蕴为视角解读曹植《洛神赋》 修改-论文.zip

    《洛神赋》是魏晋时期著名文学家曹植的一篇辞赋,以其优美的文笔和深邃的寓意在中国文学史上占据着重要的地位。这篇论文以“舞蹈意蕴”为视角,对《洛神赋》进行了一次独特的解读,旨在揭示其中蕴含的舞蹈艺术精神与...

    三国曹植的诗歌《洛神赋》

    三国曹植的诗歌《洛神赋》

    初中语文 古诗文赏析 曹植《洛神赋》原文、注释、翻译与赏析(通用).doc

    曹植运用了大量的意象,如“髣髴兮若轻云之蔽月,飘飖兮若流风之回雪”,使洛神的形象富有诗意和神秘感。 在赋中,洛神的形象既有静态的描绘,如“皎若太阳升朝霞”、“灼若芙蕖出渌波”,又有动态的展现,如“凌波...

    顾恺之国画《洛神赋图》的艺术创作及情感表达.zip

    《洛神赋图》是东晋时期著名画家顾恺之根据曹植的名篇《洛神赋》创作的一幅国画作品,它是中国古代绘画艺术的瑰宝,展现了中国古代文人对理想美人的追求和对自然山水的情感寄托。这篇文档详细解析了顾恺之在创作这幅...

Global site tag (gtag.js) - Google Analytics