`
大涛学长
  • 浏览: 105538 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

TPCx-BB官宣最新世界纪录,阿里巴巴计算力持续突破

阅读更多
2019年9月17日,TPC官宣Alibaba Cloud MaxCompute认证结果。同月26日,杭州云栖大会阿里巴巴宣布了这一成绩,飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。不仅首次将数据规模拓展到100TB,性能达到25641.21QPM,更在TPCx-BB已有最大30TB规模上,将性能提升近一倍,达到6427.86QPM,单位价格下降一半,达到169.76$/QPM。 
 
![image](https://yqfile.alicdn.com/37db2767fb4c95b7ae314568613956167e0579a8.png) 
 
TPCx-BB是由国际标准化测试权威组织(TPC)发布的基于零售业场景构建的端到端大数据测试基准,支持主流分布式大数据处理引擎,模拟了整个线上与线下业务流程,有30个查询语句,涉及到描述性过程型查询、数据挖掘以及机器学习的算法。涵盖了结构化、半结构化和非结构化数据,能够从客户实际场景角度更全面的评估大数据系统软硬件性能、性价比、服务和功耗等各个方面。 
 
MaxCompute正是希望能够从更加接近实际生产场景和客户场景的角度,来呈现飞天大数据平台的计算性能和性价比优势。而MaxCompute在TPCx-BB性能、性价比等方面的领先无疑是由MaxCompute技术先进性决定的。 
 
作为支撑MaxCompute计算力的核心之一的SQL引擎,包括了编译器、运行时和优化器3个模块。SQL编译器支持标准SQL,100%支持TPC-DS、TPCx-BB语法。运行时支持列式处理和丰富的关系算符,基于LLVM进行微架构级别的优化。优化器支持基于历史信息的HBO和基于Calcite的CBO,通过多种优化手段提升MaxCompute SQL的性能。 
 
存储方面,则使用先进的存储格式Aliorc,支持列式存储、灵活的编码格式、异步预读及高效的压缩算法,与开源存储格式相比,在存储效率和读写效率上都有显著的提升。MaxCompute以外表的形式支持多种数据源,比如HDFS、OSS外表,可以将TPCx-BB生成在HDFS中的数据高效导入MaxCompute。 
 
调度方面采用基于飞天平台的Fuxi2.0调度系统。其DAG2.0将资源调度overhead控制在了10us级别,远远领先业界同类框架。Shuffle2.0通过数据重排,在磁盘和网络之间找到平衡点,将集群吞吐效率提升30%。 
 
此外,MaxCompute原生支持阿里巴巴机器学习平台PAI,用户可以一站式完成大数据处理与机器学习模型训练及预测。机器学习PAI是飞天AI平台中的核心产品,构建在阿里云MaxCompute等计算平台之上,在机器学习大规模分布式训练场景拥有非常强的性能表现,在本次TPCx-BB的比赛中,PAI基于MaxCompute,在逻辑回归、Kmeans、朴素贝叶斯三个算法的表现性能上取得很好的成绩。 
 
在MaxCompute/PAI多年的系统优化过程中,英特尔作为阿里巴巴重要的合作伙伴,提供了许多助力。英特尔作为测试基准中BigBench的重要贡献者,与阿里云开发团队深入合作,共同扩展TPCx-BB测试集,增加对MaxCompute计算引擎的支持,并一起在TPCx-BB委员会中共同推广MaxCompute/PAI,促成TPCx-BB官方测试集升级,继而正式纳入阿里云MaxCompute/PAI计算引擎的支持。 
 
对于未来双方在飞天大数据和AI平台(MaxCompute/PAI)持续优化上的合作,英特尔高级首席工程师、大数据分析和人工智能创新院院长戴金权先生表示,双方在新的硬件架构技术平台有非常紧密的合作,共同探索如何更好地利用新的技术,为大数据处理分析、机器学习平台赋能。另外,双方也合作致力于将AI平台和大数据平台紧密联合,使不同的组件更好地联合在一起,打通整个计算流水线。 

 

[原文链接](https://yq.aliyun.com/articles/720975?utm_content=g_1000082807)

本文为云栖社区原创内容,未经允许不得转载。
分享到:
评论

相关推荐

    tpcx-bb_v1.0.1_presentation.pdf

    TPCx-BB(BigBench)是针对大数据基准测试的一个重要标准,由TPCx-BB技术委员会制定。这个基准测试主要关注大数据处理的性能、成本效益和用户对大数据系统的实际需求。以下是关于TPCx-BB的详细解释: 1. **用户视角...

    TPCx-BB:用于Hive和SparkSQL的TPCx-BB基准测试的源代码,缩放比例为300 GB

    TPCx-BB基准 TPCx-BB基准脚本。 该存储库包含标准TPCx-BB基准测试的源代码,以及针对300 gb比例因子针对Hive和SparkSQL运行基准测试而进行的修改 用法 使用run.sh以300 GB的比例系数运行基准测试 ./run.sh spark将...

    大数据平台测试标准.doc

    测试标准包括TPCx-HS和TPCx-BB,这些标准专注于大数据平台的性能评估。 在大数据测试的第一阶段,焦点集中在Hadoop平台上,通过《大数据平台基准测试第一部分:技术要求》和《大数据平台基准测试第二部分:测试方法...

    DataHubble-Bench多表和宽表数据生成文档1

    DataHubble-Bench 是一个用于生成多表和宽表数据的工具,主要基于 TPCx-BB 数据基准并结合实际电商数据。这个工具能够生成指定规模的宽表和多表数据,宽表数据完全来源于多表。以下是详细的使用步骤: 1. **数据...

    大数据平台测试标准.docx

    在测试标准方面,TPC 提出了TPCx-HS和TPCx-BB这两个针对大数据处理的基准。TPCx-HS专注于大数据分析的性能,而TPCx-BB则关注于大数据批量处理的能力。此外,还有像TeraSort这样的工具,它主要用于评估大数据平台的...

    大数据平台测试标准.pdf

    在大数据测试中,TPCx-HS和TPCx-BB是两个关键的测试标准,它们分别针对不同的应用场景进行性能评估。TPCx-HS专注于大数据分析,而TPCx-BB则关注大数据的商业智能性能。测试工具如TeraSort,被用来衡量大数据平台在...

    99- 阿里云大数据成本优化实践.pdf

    - 在TPCx-BB基准测试中多次打破世界纪录,证明了其出色的性能。 2. **Hologres**: - 支持高吞吐量的数据写入和更新操作,实现数据写入即可见。 - 提供实时数仓构建能力,在大规模数据环境下依然保持高效性能。 ...

    1-6+使用RAPIDS+加速+APACHE+SPARK+3.0.pdf

    在一系列基准测试中,例如TPCx-BB指标测试,使用RAPIDS加速器的Spark 3.0在处理10TB数据集时,相比于纯CPU方案,性能提升了显著的倍数。例如,对于特定的查询(如Query #5, Query #16, Query #21, Query #22),GPU...

    提升Spark平台效能.pdf

    最后,性能基准测试如HiBench、TPC-DS和TPCx-BB是评估系统性能的有效工具,但要注意测试环境的一致性和可比性,因为任何硬件、软件或配置的改变都可能影响结果。 综上所述,提升Spark平台效能涉及多方面的优化,...

    bigBench.pdf

    BigBench是一个面向大数据分析的端到端分析型基准测试工具,它目前处于公开审查阶段,并以TPCx-BB的形式存在。在该文件中,BigBench被选用来评估和比较两个大数据处理引擎——MapReduce和Spark。 2. **MapReduce与...

    最新投票平台程序美化版

    在设计上,【最新投票平台程序美化版】可能采用了响应式布局,使得无论在桌面、平板还是手机等不同设备上都能呈现出良好的视觉效果。同时,为了满足各种活动需求,程序可能提供了多种主题和定制选项,以便主办方根据...

    ELSYS高速数据采集设备 简介.pdf

    5. ELSYSTEransAS3是一款功能强大的应用软件,旨在结合ELSYS的高精度瞬态记录仪TPCX和TraNET,为用户提供最全面的数据记录和分析解决方案。该软件安装快速,操作简单,能够采集、显示并分析复杂的瞬态信号。...

Global site tag (gtag.js) - Google Analytics