`
大涛学长
  • 浏览: 110644 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

阿里巴巴大数据技术关键进展及展望

阅读更多
一、大数据领域的客户价值迁移
==============

**大数据10年,从“尝鲜”到“普惠”** 
 
![image.png](https://ucc.alicdn.com/pic/developer-ecology/61639e4f63ae4f57944f8aa2e4de5076.png) 
 
大数据技术已经存在了20年的历程,并且阿里的飞天平台也有了10年的历程。上图是Gartner非常有名的评测机构,在Emerging Technologies中展示了Hype Cycle。Emerging Technologies是指其中所有的技术都视为新兴技术。横轴分为五个部分,从Trigger开始,到达最热潮,然后到了冷静期,再继续向前发展。不同的颜色表示在所指的几年之后相应的技术会变得成熟。在2014年,Big Data已经到达了尖峰期的末端状态。在2015年,Big Data就不在上图中了,关于Big Data应该放在哪里的问题,许多人都参与了讨论,最终Gartner 的分析员 Betsy Burton给出了总结性的一句话:“Big Data..has become prevalent in my lives”,其中的含义是指大数据已经不是一个特定的技术,它是一个普惠的技术领域。阿里巴巴认为大概在2014年大数据会从尝鲜期到普惠期,并且带来了非常多的价值变化。 
 
**大数据领域Value Proposition的迁移** 
 
![image.png](https://ucc.alicdn.com/pic/developer-ecology/7fa3a28930984a52858e8a8921a23098.png) 
 
上图所示为尝鲜期到普惠期的对比。尝鲜期更注重的是快速上手。其次是灵活性,无论是平台、配套的东西还是工具链都不是特别成熟,怎样更快的做一些调节和修改可以满足需求是很重要的。另外还需要能达到一些目标,不需要特别全面,甚至不需要很稳定,只要能进行试对和试错就可以。普惠期的特点与尝鲜期的特点几乎是不相同的,甚至是对立的。从普惠期开始,成本和性能变得很关键,其中特别关键的是“成本”,因为通过调研得出用户对“成本”是很关注的,用户的关注不仅仅是对大数据处理上所付得的钱数,更多的关注是数据在海量的增长的情况下,怎样保证成本在可控的范围之内。当进入到普惠期,进行大规模应用时,企业级服务能力就变的很关键。例如,阿里的大数据平台每天都会产生支付宝的商户对账单,商户和商户之间、商户和上下游之间、及商户和银行之间结算的系统要求都万无一失。当从尝鲜期进入到普惠期之后,应该有一个相对丰富且完整的工具链和生态体系,这就需要生态体系和工具链能融合在一起,才能实现整个性能。 
 
**从阿里巴巴的角度看 – 飞天平台发展历程** 
 
![image.png](https://ucc.alicdn.com/pic/developer-ecology/0833abd57f3e4b818851ead80638d795.png) 
 
MaxComputer是飞天底座平台的系统,同时支撑了飞天绝大多数的数据存储和计算力的需求。从阿里的角度来看,在2002年,Oracle是做数仓型的数据建设,包括算账和inside。在2006年,是亚洲最大的Oracle Rack。在2008年和2009年,分别启动了Hadoop和飞天的体系,后面是大家熟知的登月系统。在2015年,登月系统完成,所有的数据汇集到一起,同时建立了数据的底座作为统一的存储系统、一套中间的统一运算系统以及数据中台,整个系统以中台体系为核心,成为阿里巴巴内部的大数据一体化。在2016年,启动了MaxComputer 2.0项目,几乎替换了从2010年到2015年的整体,同时开始给国内云计算的客户提供服务。在2019年,可以转型到MaxComputer 3.0,除了关注性能和成本之外,随着数据量超大规模的增长,以及数据领域的优化几乎已经超出了人类的范畴,中台的工程师很难靠人的方式完成中台的建模和优化的工作。阿里认为向智能化的方向发展,通过智能化来优化大数据是至关重要的。

二、核心技术发展方向
==========

**核心技术发展方向可以从四个角度分析:** 
 
![image.png](https://ucc.alicdn.com/pic/developer-ecology/720d6c2f755f475bbc2ddbf64959961b.png)

*   高效能+低成本 
    包括计算层、存储层、资源利用层、治理层四个部分。
*   企业级的服务 
    要求企业级的稳定性、可扩展性和容灾等能力。
*   生态与标准化 
    主要是将生态与标准融合。
*   智能化 
     
    **“MaxCompute大数据成本曲线”(价值中心or成本中心?)**

![image.png](https://ucc.alicdn.com/pic/developer-ecology/d5a2d6f368a14a5a88dc72add25192ff.png) 
 
上图展现的是来自阿里云的上百家客户调研数据结果,其中黄色的曲线表示公司和部门业务的增长,蓝色表示大数据开始应用的过程,在第一年期间是属于平稳发展方向,到了普惠期,大家发现大数据的技术和价值之后,大数据就开始向上攀升,刚开始攀升的过程不是平缓的,是一个快速增长的过程。 
 
随之而来有一个问题,数据量和计算量的增长以及对成本的付出超过了已有的增长速度,到后续阶段有可能会继续上涨,如果有相关的系统做匹配,以及很好的优化和治理,那么数据将会降下来,最终达到应用与发展几乎匹配的速度,同时保证成本是可持续的。比如业务增长了5倍时,成本只增长了1倍。如果不能将数据降下来,则会出现的情况是,数据中心变成了成本中心,同时有非常多的数据和计算,但是哪些是有价值的是不清楚的。为了解决这个问题,需要提供更好的高性能和低成本的服务能力,将平台层的成本降下来,同时可以通过数据治理服务来为数据做治理。此外,可以通过智能化方法来优化大数据以达到相应的目的。 
 
**构建“高效率与低成本”的计算平台** 
 
阿里针对构建“高效率与低成本”的计算平台所面对的挑战分为四个部分: 
1、当规模过万台之后就会面临成本的持续增长。 
2、数据或计算爆炸,硬件投入大于业务增速。 
3、中大型公司的技术发展进入开源软件盲区。 
4、无法形成大集群,多小集群拼凑,导致整体利用率低。 
 
相应的,阿里巴巴计算平台对以上挑战做了以下四项优化:

1、引擎优化:核心引擎全自研技术,具备把控力,持续优化。 
2、存储优化:保证数据不重复,存储智能分级(1.6),压缩分级。  
3、资源优化:云原生统一资源池(以及对应的削峰填谷)+在离线混布。特别注意的一点是,资源层面的优化要优于作业本身的优化,作业的极值性能追求和极值速度已经不是阿里最大的追求,而最大的追求是在整体的情况下将资源利用率提升。 
4、数据与计算管理与治理。 
![image.png](https://ucc.alicdn.com/pic/developer-ecology/466d4d377b1244a396b5c8623557e7b7.png) 
 
上图是以阿里从2015年到2018年双十一的例子,左边的图为单日作业量,中间的图为单日处理数据量,右边的图为成本的曲线。事实证明,阿里通过飞天平台以及技术能力,几乎做到了使业务增长的速度和成本增长的速度相适应。 
在此基础上又做了以下部分优化工作:  
1、引擎侧:• NativeEngine+LLVM CodeGen,Vectorization+SIMD 
• CBO+HBO,Dynamic DAG  
• 针对Input/Shuffling海量数据,新引入“富结构化数据”  
• 数据可以按Range/Hash方式存储,支持一级Index和Order  
2、存储侧:兼容开源Apache ORC,全新的C++ Writer和改进的 C++ Reader,读取性能对比CFile2和开源ORC均快50%+。 
3、资源侧:一套跨集群数据、计算调度能力,将多个集群的服务器做成一台计算机。  
4、调度系统优化:平均集群利用率70%,除了优化单作业指标,更偏重整个集群的吞吐率。  
5、通过混布技术,提升在线服务器利用率到50%以上。同时支持双十一场景的业务弹性。 
 
部分数据和案例:  
• 2015年,SortBenchmark,MaxCompute 100TB GreySort冠军。 
• 2016年,SortBenchmark, EMR 100TB CloudSort冠军。  
• 2017年,MaxCompute+PAI,全球首家100TB规模TPCx-Bigbench测试通过。  
• 2018年,MaxCompute+PAI,指BigBench标继续提升1X+,继续保持全球最高分数。 
• 2018年,Flink内部版是社区性能数倍,2019年开源。 
• 2019年,EMR TPC-DS 10TB全球最快  
• 2019年,MaxCompute+PAI,指标继续提升,保持全球第一,30TB性能快一倍,成本低一半。 
 
![1.png](https://ucc.alicdn.com/pic/developer-ecology/d197944da4114fca9f80c2db04b8efa3.png) 
上图是在BigBench上从2017年到2019年的统计图,可以明显的看出,几乎每年增长一倍。 
 
![2.png](https://ucc.alicdn.com/pic/developer-ecology/9a3fb238cee84bfeabb316236c822e68.png) 
从上图可以看出,与业界的其它系统做对比,性能几乎高出一倍,成本几乎低一半。 
 
**构建“多功能的企业级”计算平台** 
 
构建“多功能的企业级”计算平台是属于系统后台的工作,大概分为四个部分: 
1、需要可靠的数据交汇点(数据底盘),因为很多公司的数据就是公司的资产,数据的安全性问题就显得至关重要。具体包括以下内容: 
• EB级规模,扩展能力(单集群,多级群,全球部署三级扩展)  
• 数据可靠性(已经走过了能用,可用的阶段,需要提供万无一失的保障 能力,例如DC级别的容灾能力) 
• 安全性(从存储,运算,管理,运维,把数据安全做到每一层) 
2、针对容灾部分,是需要企业自主解决的工作,通过选择容灾,使得达到某种能力,具体需要包括以下内容: 
• 基于高性价比硬件  
• 自助运维与自动化运维  
• 完善的故障容错(软件,硬件,网络,人为) 
3、由于隐私泄露的情况是经常会发生的,但是阿里却不会发生隐私泄露的情况,主要是因为对数据管理、共享与安全性的要求。具体包括以下内容: 
• 容灾备份  
• 细粒度授权,安全卫士,审计,存储加密  
• 数据管理能力,数据血缘和追踪,基于数据血缘的分析和报表  
• 多数据/多作业管理和调度  
• 基于基线保障的调度能力 
4、调度能力与扩展性作为系统内部的优化,具体包括以下内容: 
• 超大规模,统一的资源池  
• 超卖  
• 基线保障  
• 伸缩能力与混布能力 
 
**构建“生态融合的”计算平台** 
 
![image.png](https://ucc.alicdn.com/pic/developer-ecology/6aaed5ef42b542648621484af749657d.png) 
 
上图是飞天MaxCompute平台融合的案例。其中一层为统一的存储层,不仅仅可以开放MaxCompute的引擎,也可以开放其他的引擎。中间的抽象层为联合计算平台,联合是指将数据、资源和接口抽象成一套标准的接口,包括Spark和其他引擎都可以应用,形成一套完整的生态系统。第二条线的生态是MaxCompute源向外的生态,数据源是多种多种的,不仅仅存在阿里自已的存储里,也可以存在于数据库的系统和文件系统等。此外,可以让用户在不搬迁数据的情况下和其他系统做联动,称为联邦计算的概念。 
另外,Blink是当年在Flink社区的一个单独的分支,针对阿里内部的最佳开发实践的系统,在1.9的版本上已经成为完全默认的社区,在SQL引擎、调度系统以及Algo on Flink上做出了很多贡献。随着和Flink的某公司存在收购关系之后,将会推动Flink公司一直向前发展。 
 
![image.png](https://ucc.alicdn.com/pic/developer-ecology/668b8f90e4b84f8f9b456d3ae76eb6e1.png) 
 
最后,是存储层面的发展。上图是有关压缩、读和写以及数据相关格式的改造,所有的改造都会推进给社区,橙色的字体是按照设计标准改的。

三、从引擎优化到“自动驾驶”
==============

![image.png](https://ucc.alicdn.com/pic/developer-ecology/1c7a7c6c768d42d497082c3085633877.png) 
 
计算引擎的优化除了自身的优化以外,还涉及到自动驾驶。上图是使用车的例子,展现了飞天进化的过程。第一个过程为可用阶段,比如双十一当天是否能支撑如此大量的负载以保证系统是可用的。第二个过程是在性能和成本上达到极致的追求。第三个过程是让性能变得更好。 
 
**智能云数仓(Auto Cloud Data Warehouse)** 
 
在阿里内部已经出现了三条关键的挑战: 
1、EB级数据和百万级别作业,很难管理。数据中台团队不再胜任(传统的DBA模式不能支撑)  
2、多种数据融在一起,人无法在海量规模上理解数据的所有价值  
3、大数据系统经过多年发展,如果需要实现“跃迁”式的进步,需要体系结构层面的改造 
 
![image.png](https://ucc.alicdn.com/pic/developer-ecology/22be941ffc8e4b06afd644a72be1b087.png) 
从智能云数仓的角度来看,可以从三个方面上做优化。第一方面是效率优化,包括HBO是基于历史信息的优化,可以理解是一个全新的作业作用到系统中,当系统对它并不了解时,对资源的分配相应的会采用保守的方式,使作业运行完成。在第一次运行作业时,系统的调优可能是保守的,慢慢的会越来越贴近自身的运行状态,到四天之后,所认为的作业就非常好了。通过HBO优化,阿里巴巴的资源利用率达到了70%。此外,还包括Learned Statistics、智能计算重用和智能的数据分层。 
 
第二方面是资源规划,当云上有十万台的机器分布在不同的数据中心时,怎样规划数据和资源调动是不属于人工的过程,应属于自动化的过程,包括作业运行模式的自动分类,其中有三种不同的运行模式是针对非常大的作业和交互性非常高的作业。此外,还包括动态Quota调整、缩扩容、作业运行预测与自动预报警、作业自动升降级和数据排布与跨集群调度。 
 
第三方面是智能建模,包括相似作业与数据的识别、自动纠错、作业运行预测与自动预报警以及作业自动升降级。 
 
以上这三个方面是在智能数仓领域可以持续发展的方面,上图中带\*的是阿里已经或者马上要公布的功能。 
 
**Auto CDW – 智能索引推荐** 
 
![image.png](https://ucc.alicdn.com/pic/developer-ecology/9a261851f93a4a2eb0fbea8ef8f5f93e.png) 
 
通过作业之间运行的关系,做cost module的同化,通过这种方式是找到一种index最优的调节并且进行push。例如,基于MaxCompute,在阿里集团内挑选了8W张表的30W个字段 ,从中为4.4W张表推荐出最优的Clustering方案,平均Cost节省43%。 
 
**Auto Tired Store - 冷热数据识别和管理** 
 
![image.png](https://ucc.alicdn.com/pic/developer-ecology/45583bb256fc4f99973fb53db2eb72f5.png) 
 
在今年9月1号时,阿里的存储整体降价了30%,其中一部分计算就来自上图中的Auto Tired Store技术,包括冷热数据的自动分离,之前的数据是通过两个方式进行分离,第一个方式是系统自动做冷压缩,降低的成本大概有三分之二。第二个方式是允许用户通过做flag的方式。但是,当系统里有千万级别的表时,数据开发工程师时很难甄别出数据的使用方式的,这时可以使用经济学的模型,构建Access和Storage之间的关系,针对每个不同作业的不同分区,自动地定制冷热的程度。通过这种方式,把阿里的压缩率从3倍率压缩到1.6倍率,整体的存储效率提升了20%。 
 
**Yugong – 智能全局数据排布与调度** 
 
![image.png](https://ucc.alicdn.com/pic/developer-ecology/5bff85bf587242dabd8bb3cb1b92a840.png) 
 
因为云系统是多个数据中心部署在全球各个地方的,数据的产生是与业务相关的,但数据之间的关联是不许被打破的,把什么样的数据放在什么样的机房里,什么样的作业调度到最优的效果,是属于全局最优匹配的问题。在阿里的内部实际上是将作业的静态排布以及动态的调度融合了一个系统称为Yugong。上图中右边是两个原理图。 
 
**DPSAaS– 基于差分隐私的数据共享与分析服务** 
 
![image.png](https://ucc.alicdn.com/pic/developer-ecology/7b0806b58a974b9cb958db23af88196d.png) 
 
针对敏感数据的计算能力称为密态计算,针对隐私的数据希望做到可算不可见。上图表中前三列为敏感数据,后三列为不敏感数据。通过查分隐私的编码方式,将所有的敏感数据都隐蔽掉了,当要care敏感数据时是care不到的,但做计算时所有数据的计算结果都是正确的,阿里正在通过这种方式探索如何在数据共享与隐私之间找到平衡。 
 
**其他面向未来的探索** 
 
![image.png](https://ucc.alicdn.com/pic/developer-ecology/10d5cdc89e50484d9a98341b58845d8c.png) 
 
针对其他面向未来的探索方面,阿里主要涉及的方面包括怎么在基于图的关系上做运算、怎样找到系统之间最优的平衡、基于隐私的计算、如何在多种目标的情况下做更好的调度、在采样层面如何大幅度的降低数据的情况下仍然做的更好。

 

 

 

 

 

[原文链接](https://yq.aliyun.com/articles/723265?utm_content=g_1000085634)

本文为云栖社区原创内容,未经允许不得转载。
分享到:
评论

相关推荐

    阿里技术年度技术精选2017(上)

    【阿里技术年度技术精选...通过阅读这份资料,读者可以深入了解阿里巴巴的技术实力,同时也能获取到2017年全球科技发展的关键信息。对于关注阿里技术动态和希望学习先进技术理念的人来说,这是一份不可多得的参考资料。

    大数据的研究现状、应用领域及存在问题

    例如,阿里巴巴创始人马云曾指出,未来将是DT(Data Technology)时代而非IT时代,强调了数据技术的重要性。 ##### 应用领域 - **金融行业**:通过分析客户行为数据和市场趋势预测,提高风险控制能力和个性化服务...

    大数据行业研究报告

    比如友盟和个信互动等纯数据资产公司,以及像万得、阿里巴巴这样的兼数据资产公司。 #### 五、展望 - **推荐关注方向**:鉴于大数据行业的快速发展和市场需求的变化,建议重点关注以下几个方向: - 针对细分行业...

    利用大数据后.docx

    阿里巴巴、百度等巨头已经将大数据作为核心战略,并在实际应用中取得了成功。 - 数据革命正在深刻影响着政府、企业和个人的生活。随着技术的进步和社会认知的提升,预计大数据将在更多领域得到广泛应用。 - **案例...

    HBase在阿里的应用与优化

    《HBase在阿里的应用与优化》一文深入探讨了HBase这一分布式、可扩展、面向大规模数据存储的数据库在阿里巴巴集团的应用历程及其优化措施。文章由邓明鉴撰写于2012年7月1日,内容涵盖HBase的简介、在阿里的发展历程...

    2024阿里发布AI职业趋势报告.pdf

    根据给定的信息,“2024阿里发布AI职业趋势报告.pdf”这份文档主要涉及的是阿里巴巴在2024年发布的关于人工智能(AI)领域的职业发展趋势报告。以下将围绕这一主题展开详细解读,包括报告可能涉及的关键知识点、未来...

    2017中国系统架构师大会PPT资料集合.zip

    大数据驱动的阿里巴巴国际化基础架构 基于Kubernetes的持续集成平台建设 百度AIOps实践:单机房故障自愈 美团外卖自动化业务运维系统建设 技术前沿进展:系统自动化调优 专场6:数据库架构设计的前世今生 云时代...

    reinforcement_learning

    在《强化学习在阿里的技术演进与业务创新》这本书中,作者深入探讨了这一领域的理论与实践,特别是如何在阿里巴巴集团内部推动技术创新和业务发展。 本书可能涵盖了以下强化学习的基本概念和关键技术: 1. 强化...

    Spark发展:回顾2015,展望2016

    阿里巴巴在PB级别数据上用了1周的时间处理了一个作业。Databricks的PB级排序作业,以及Jeremy Freeman的Mapping the Brain at Scale(利用激光器进行大脑规模映射)项目均对行业产生了深远的影响。 在回顾2015年...

    2015阿里安全峰会(2015) - 安全技术资料汇总.zip

    "起航-远望.pdf"可能探讨的是网络安全行业的未来发展路径,包括新兴的技术趋势、安全策略的制定以及对未来的展望,可能是通过分享阿里巴巴在网络安全领域的战略布局和实践经验。 "疗一疗本土‘瘤’览器.pdf"很可能...

    2021中国智能语音行业解决方案及服务商品牌测评报告.rar

    这份报告涵盖了行业的市场规模、技术进展、市场格局、主要参与者以及未来发展趋势等多个关键方面,旨在为相关企业和投资者提供宝贵的参考信息。 一、行业规模与增长趋势 智能语音行业在中国的崛起,得益于移动...

    2019年中国智能语音市场前景研究报告.rar

    3. **主要参与者**:报告将列出在智能语音领域有重要影响力的公司,如科大讯飞、阿里巴巴、百度、腾讯等,介绍他们的技术优势、市场份额及战略布局。 4. **应用场景**:智能语音技术的应用场景多样化,包括智能助手...

    2017年云栖大会ppt

    【2017年云栖大会PPT】是2017年度阿里巴巴主办的一场重要科技盛会的资料集合,主要围绕“云栖大会”这一主题展开。云栖大会是由阿里云主办的全球顶级科技大会,汇聚了全球顶尖的科技人才、企业及创新者,旨在探讨...

    计算机应用行业:自主国产在产业推进加快.zip

    1. 技术创新:我国已经涌现出一批优秀的国产软件和硬件企业,如华为、中兴、阿里巴巴、金山等,他们在操作系统、数据库、芯片等领域取得显著成果。 2. 生态建设:构建完善的国产化生态系统是当前的一大挑战,包括...

    2021年中国数字图像处理行业概览.rar

    6. **主要企业与竞争格局**:阿里巴巴、腾讯、华为等科技巨头在图像处理领域积极布局,通过研发创新推动行业发展。同时,众多初创公司凭借独特技术优势崭露头角,如商汤科技、旷视科技等,形成了激烈的市场竞争。 7...

    计算机年报及一季报总结:业绩逐步修复,相关主线景气度有望延续.zip

    2. 主要公司分析:对行业内重点企业的业绩进行剖析,如阿里巴巴、腾讯、华为、微软等,分析其业务亮点、增长动力以及面临的挑战。 3. 市场细分领域表现:可能包括软件开发、硬件制造、信息技术服务、网络安全等领域...

    隐私保护计算与合规应用研究报告(2021年).pdf

    报告的编制过程受到了包括阿里巴巴集团安全部、北京数牍科技有限公司、腾讯研究院、智联出行研究院及中国工商银行在内的单位的大力支持。 总体来看,这份报告为中国在隐私保护计算技术领域的研究与应用提供了详实的...

    互联网+背景下家乡农业发展新思路.docx

    电商平台如阿里巴巴和京东等巨头引领,传统城乡流通网络也在逐步上线,生鲜电商等新兴领域不断探索新的商业模式,形成了上行下行双向流通的格局。这不仅方便了城市消费者购买到新鲜的农产品,也为农村地区引入了更多...

    中国互联网协会-2019年中国互联网企业100强发展报告-2019.08-33页.rar

    这些企业涵盖了电子商务、搜索引擎、社交网络、在线教育、数字娱乐、金融科技等多个领域,其中阿里巴巴、腾讯、百度等巨头依然占据主导地位,新兴企业如美团点评、滴滴出行、字节跳动等也在快速崛起。 三、技术创新...

    人工智能与机器人制造培训心得.pdf

    各大科技巨头如百度、腾讯、阿里巴巴和科大讯飞,正在建设人工智能创新平台,强化机器人的关键技术研发,建立机器人标准体系和检测认证机制。随着机器人技术的飞速进步,这些平台已开始全面运作。胡洁教授提出,智能...

Global site tag (gtag.js) - Google Analytics