`
猫耳呀
  • 浏览: 165716 次
社区版块
存档分类
最新评论

阿里巴巴大数据实践之数据建模

阅读更多
摘要: 随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。 为什么需要数据建模 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。

原文地址:http://click.aliyun.com/m/43780/

随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。

为什么需要数据建模

如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。

数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据结构和它们之间的关系”,其阐述了数据模型的重要性。有了适合业务和基础数据存储环境的模型,那么大数据就能获得以下好处。

性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐。
成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。
效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。
质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。

因此,毋庸置疑,大数据系统需要数据模型方法来帮助更好地组织和存储数据,以便在性能、成本、效率和质量之间取得最佳平衡。

关系数据库系统和数据仓库

E .F .Codd是关系数据库的鼻祖,他首次提出了数据库系统的关系模型,开创了数据库关系方法和关系数据理论的研究。随着一大批大型关系数据库商业软件(如Oracle、Informix、DB2等)的兴起,现代企业信息系统几乎都使用关系数据库来存储、加工和处理数据。数据仓库系统也不例外,大量的数据仓库系统依托强大的关系数据库能力存储和处理数据,其采用的数据模型方法也是基于关系数据库理论的。虽然近年来大数据的存储和计算基础设施在分布式方面有了飞速的发展,NoSQL技术也曾流行一时,但是不管是Hadoop、Spark还是阿里巴巴集团的MaxCompute系统,仍然在大规模使用SQL进行数据的加工和处理,仍然在用Table存储数据,仍然在使用关系理论描述数据之间的关系,只是在大数据领域,基于其数据存取的特点在关系数据模型的范式上有了不同的选择而已。关于范式的详细说明和定义,以及其他一些关系数据库的理论是大数据领域建模的基础,有兴趣的读者可以参考相关的经典数据库理论书籍,如《数据库系统概念》。

从OLTP和OLAP系统的区别看模型方法论的选择

OLTP系统通常面向的主要数据操作是随机读写,主要采用满足3NF的实体关系模型存储数据,从而在事务处理中解决数据的冗余和一致性问题;而OLAP系统面向的主要数据操作是批量读写,事务处理中的一致性不是OLAP所关注的,其主要关注数据的整合,以及在一次性的复杂大数据查询和处理中的性能,因此它需要采用一些不同的数据建模方法。

典型的数据仓库建模方法论

ER模型

数据仓库之父Bill Inmon提出的建模方法是从全企业的高度设计一个3NF模型,用实体关系(Entity Relationship,ER)模型描述企业业务,在范式理论上符合3NF。数据仓库中的3NF与OLTP系统中的3NF的区别在于,它是站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系的抽象。其具有以下几个特点:

需要全面了解企业业务和数据。
实施周期非常长。
对建模人员的能力要求非常高。

采用ER模型建设数据仓库模型的出发点是整合数据,将各个系统中的数据以整个企业角度按主题进行相似性组合和合并,并进行一致性处理,为数据分析决策服务,但是并不能直接用于分析决策。

其建模步骤分为三个阶段。

高层模型:一个高度抽象的模型,描述主要的主题以及主题间的关系,用于描述企业的业务总体概况。
中层模型:在高层模型的基础上,细化主题的数据项。
物理模型(也叫底层模型):在中层模型的基础上,考虑物理存储,同时基于性能和平台特点进行物理属性的设计,也可能做一些表的合并、分区的设计等。

ER模型在实践中最典型的代表是Teradata公司基于金融业务发布的FS-LDM(Financial Services Logical Data Model),它通过对金融业务的高度抽象和总结,将金融业务划分为10大主题,并以设计面向金融仓库模型的核心为基础,企业基于此模型做适当调整和扩展就能快速落地实施。

维度模型

维度模型是数据仓库领域的Ralph Kimball大师所倡导的,他的The Data Warehouse Toolkit-The Complete Guide to Dimensional Modeling是数据仓库工程领域最流行的数据仓库建模的经典。

维度建模从分析决策的需求出发构建模型,为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。其典型的代表是星形模型,以及在一些特殊场景下使用的雪花模型。其设计分为以下几个步骤。

选择需要进行分析决策的业务过程。业务过程可以是单个业务事件,比如交易的支付、退款等;也可以是某个事件的状态,比如当前的账户余额等;还可以是一系列相关业务事件组成的业务流程,具体需要看我们分析的是某些事件发生情况,还是当前状态,或是事件流转效率。
选择粒度。在事件分析中,我们要预判所有分析需要细分的程度,从而决定选择的粒度。粒度是维度的一个组合。
识别维表。选择好粒度之后,就需要基于此粒度设计维表,包括维度属性,用于分析时进行分组和筛选。
选择事实。确定分析需要衡量的指标。

Data Vault模型

Data Vault是Dan Linstedt发起创建的一种模型,它是ER模型的衍生,其设计的出发点也是为了实现数据的整合,但不能直接用于数据分析决策。它强调建立一个可审计的基础数据层,也就是强调数据的历史性、可追溯性和原子性,而不要求对数据进行过度的一致性处理和整合;同时它基于主题概念将企业数据进行结构化组织,并引入了更进一步的范式处理来优化模型,以应对源系统变更的扩展性。Data Vault模型由以下几部分组成。

Hub:是企业的核心业务实体,由实体key、数据仓库序列代理键、装载时间、数据来源组成。
Link:代表Hub之间的关系。这里与ER模型最大的区别是将关系作为一个独立的单元抽象,可以提升模型的扩展性。它可以直接描述1:1、1:n和n:n的关系,而不需要做任何变更。它由Hub的代理键、装载时间、数据来源组成。
Satellite:是Hub的详细描述内容,一个Hub可以有多个Satellite。它由Hub的代理键、装载时间、来源类型、详细的Hub描述信息组成。

Data Vault模型比ER模型更容易设计和产出,它的ETL加工可实现配置化。通过Dan Linstedt的比喻更能理解Data Vault的核心思想:Hub可以想象成人的骨架,那么Link就是连接骨架的韧带,而Satellite就是骨架上面的血肉。看如下实例(来自Data Vault Modeling Guide,作者Hans Hultgren),如图1所示。




Anchor模型

Anchor对Data Vault模型做了进一步规范化处理,Lars. Rönnbäck的初衷是设计一个高度可扩展的模型,其核心思想是所有的扩展只是添加而不是修改,因此将模型规范到6NF,基本变成了k-v结构化模型。我们看一下Anchor模型的组成。

Anchors:类似于Data Vault的Hub,代表业务实体,且只有主键。
Attributes:功能类似于Data Vault的Satellite,但是它更加规范化,将其全部k-v结构化,一个表只有一个Anchors的属性描述。
Ties:就是Anchors之间的关系,单独用表来描述,类似于Data Vault的Link,可以提升整体模型关系的扩展能力。
Knots:代表那些可能会在多个Anchors中公用的属性的提炼,比如性别、状态等这种枚举类型且被公用的属性。

在上述四个基本对象的基础上,又可以细划分为历史的和非历史的,其中历史的会以时间戳加多条记录的方式记录数据的变迁历史。

Anchor模型的创建者以此方式来获取极大的可扩展性,但是也会增加非常多的查询join操作。创建者的观点是,数据仓库中的分析查询只是基于一小部分字段进行的,类似于列存储结构,可以大大减少数据扫描,从而对查询性能影响较小。一些有数据表裁剪(Table Elimination)特性的数据库如MariaDB的出现,还会大量减少join操作。但是实际情况是不是如此,还有待商榷。下面是一个Anchor模型图(来自Anchor Modeling-Agile Information Modeling in Evolving Data Environments,作者Lars. Rönnbäck),如图2所示。




阿里巴巴数据模型实践综述

阿里巴巴集团很早就已经把大数据作为其战略目标实施,而且其各个业务也非常依赖数据支撑运营,那么阿里巴巴究竟采取何种方法构建自己的数据仓库模型呢?阿里巴巴的数据仓库模型建设经历了多个发展阶段。

第一个阶段:完全应用驱动的时代,阿里巴巴的第一代数据仓库系统构建在Oracle上,数据完全以满足报表需求为目的,将数据以与源结构相同的方式同步到Oracle(称作ODS层),数据工程师基于ODS数据进行统计,基本没有系统化的模型方法体系,完全基于对Oracle数据库特性的利用进行数据存储和加工,部分采用一些维度建模的缓慢变化维方式进行历史数据处理。这时候的数据架构只有两层,即ODS+DSS。

第二个阶段:随着阿里巴巴业务的快速发展,数据量也在飞速增长,性能成为一个较大的问题,因此引入了当时MPP架构体系的Greenplum,同时阿里巴巴的数据团队也在着手进行一定的数据架构优化,希望通过一些模型技术改变烟囱式的开发模型,消除一些冗余,提升数据的一致性。来自传统行业的数据仓库工程师开始尝试将工程领域比较流行的ER模型+维度模型方式应用到阿里巴巴集团,构建出一个四层的模型架构,即ODL(操作数据层)+BDL(基础数据层)+IDL(接口数据层)+ADL(应用数据层)。ODL和源系统保持一致;BDL希望引入ER模型,加强数据的整合,构建一致的基础数据模型;IDL基于维度模型方法构建集市层;ADL完成应用的个性化和基于展现需求的数据组装。在此期间,我们在构建ER模型时遇到了比较大的困难和挑战,互联网业务的快速发展、人员的快速变化、业务知识功底的不够全面,导致ER模型设计迟迟不能产出。至此,我们也得到了一个经验:在不太成熟、快速变化的业务面前,构建ER模型的风险非常大,不太适合去构建ER模型。

第三个阶段:阿里巴巴集团的业务和数据还在飞速发展,这时候迎来了以Hadoop为代表的分布式存储计算平台的快速发展,同时阿里巴巴集团自主研发的分布式计算平台MaxCompute也在紧锣密鼓地进行着。我们在拥抱分布式计算平台的同时,也开始建设自己的第三代模型架构,这时候需要找到既适合阿里巴巴集团业务发展,又能充分利用分布式计算平台能力的数据模型方式。我们选择了以Kimball的维度建模为核心理念的模型方法论,同时对其进行了一定的升级和扩展,构建了阿里巴巴集团的公共层模型数据架构体系。

数据公共层建设的目的是着力解决数据存储和计算的共享问题。阿里巴巴集团当下已经发展为多个BU,各个业务产生庞大的数据,并且数据每年以近2.5倍的速度在增长,数据的增长远远超过业务的增长,带来的成本开销也是非常令人担忧的。

阿里巴巴数据公共层建设的指导方法是一套统一化的集团数据整合及管理的方法体系(在内部这一体系称为“OneData”),其包括一致性的指标定义体系、模型设计方法体系以及配套工具。


本文节选自《大数据之路:阿里巴巴大数据实践》一书,阿里巴巴数据技术及产品部所著。



在阿里巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路:阿里巴巴大数据实践》就是在此背景下完成的。相信《大数据之路:阿里巴巴大数据实践》中的实践和思考对同行会有很大的启发和借鉴意义。

识别以下二维码,阅读更多干货


分享到:
评论

相关推荐

    阿里巴巴大数据之路——数据技术篇.pdf

    阿里巴巴大数据之路的数据技术篇主要探讨了企业大数据处理的架构及其核心组成部分,包括数据采集、计算、服务和应用四个层面。在整体架构中,数据采集层使用DataX等工具进行数据同步,数据计算层依赖MaxCompute这样...

    阿里巴巴大数据及AI实战.docx

    《阿里巴巴大数据及AI实战》不仅详细介绍了阿里巴巴在大数据和AI领域的具体实践案例,还深入剖析了这些实践背后的技术原理与应用场景。通过本书的学习,企业和开发者不仅可以获得宝贵的实践经验,还能深入了解如何...

    阿里大数据之路——关键总结版.pdf

    阿里大数据之路的总结主要涵盖了大数据开发的关键技术和架构,包括数据的采集、存储、处理和分析等方面。以下是对这些内容的详细解析: 1. 数据采集 数据采集是大数据流程的第一步,涉及对Web和APP产生的数据进行...

    阿里巴巴大数据智能技术.zip

    这个名为“阿里巴巴大数据智能技术”的压缩包文件,包含了阿里巴巴集团在大数据领域的重要成果和应用案例,旨在分享其先进的技术和理念。 首先,大数据是21世纪信息技术发展的重要趋势,它涉及到海量数据的收集、...

    【精品】大数据大创新-阿里巴巴云上数据中台之道.rar

    《大数据大创新-阿里巴巴云上数据中台之道》是一份深度探讨阿里巴巴在大数据与创新领域实践的资料。本文将从标题、描述以及标签所涉及的关键概念出发,详细阐述相关知识点,帮助读者理解大数据、创新、互联网及人工...

    阿里巴巴大数据竞赛.zip

    阿里巴巴大数据竞赛通常涉及一系列复杂的数据分析和预测任务,旨在挑战参赛者在大数据处理、机器学习以及人工智能领域的技能。"Ali-Data-Mining-master"这个文件名可能是比赛项目的源代码仓库或者资源包,其中可能...

    大数据系列2020-数据仓库资料2.zip

    1. 《大数据之路:阿里巴巴大数据实践》.pdf 这本书揭示了阿里巴巴集团在大数据领域的实践经验,涵盖了大数据技术体系、数据平台建设、业务场景应用等方面。通过阿里巴巴的实例,读者可以了解到如何在实际业务中构建...

    阿里双十一大数据计算平台PDF

    阿里双十一大数据计算平台是阿里巴巴集团在每年双十一购物狂欢节期间,为处理海量交易数据而构建的一个强大、高效、可靠的计算平台。这个平台的核心目标是实时处理、分析和预测业务数据,确保购物节期间的系统稳定...

    海量大数据平台运维智能化实践_阿里巴巴.pdf

    总而言之,阿里巴巴的海量大数据平台运维智能化实践是通过先进的数据化运维理念和技术手段,构建高效、智能的运维体系,以应对大数据环境下的复杂挑战,确保系统的稳定运行和高效服务。这种实践不仅提升了运维效率,...

    阿里巴巴的知识图谱

    阿里巴巴的知识图谱是公司大数据战略的重要组成部分,它不仅推动了内部业务的智能化,也为业界提供了宝贵的实践经验。通过深入研究和应用知识图谱,我们可以学习到如何有效管理和利用海量数据,以及如何在实际场景中...

    阿里巴巴数据挖掘工程师实习生招聘2015附加题

    9. 实践项目经验:阿里巴巴可能会关注应聘者是否有实际的数据挖掘项目经验,例如电商推荐系统、用户行为分析、市场预测等。 在阿里巴巴的附加题中,可能会设计一些实际问题,比如模拟数据清洗、模型构建、结果解释...

    TinachiBigdata:阿里巴巴天池大数据竞赛

    天池大数据竞赛是由阿里巴巴集团主办的全球性数据科学竞赛平台,旨在推动大数据技术的发展和应用,吸引全球的数据科学家、工程师参与解决实际业务问题。通过这些比赛,参赛者可以提升自己的数据分析、机器学习和人工...

    ODPS权威指南阿里大数据平台应用开发实践

    6. **最佳实践**:学习如何进行数据建模,合理设置分区,优化表结构,以及如何利用ODPS的并行计算能力,提高数据处理速度。 通过阅读“ODPS权威指南阿里大数据平台应用开发实践”,开发者可以全面了解ODPS的使用...

    阿里巴巴数据库操作手册

    阿里巴巴采用Hadoop、Spark等大数据处理框架,结合分布式数据库如OceanBase,实现对大数据的高效存储和分析。这部分内容将讲解这些技术的原理及应用。 五、安全与合规 数据库安全包括数据加密、访问控制、审计日志...

    大数据分系统设计方案.docx

    4. 数据开发工具阿里云数据开发工具 DataWorks 是具备阿里巴巴大数据 10 年最佳实践的全域大数据智能研发平台,提供一站式混合云大数据与 AI 智能化开发、编排、调度和运维平台以及全方位数据治理能力,帮助互联网...

    大数据Hadoop、MapReduce、Hive项目实践

    其中提供云端大数据服务的华为、阿里巴巴,提供数据存储硬件的浪潮、提供数据库&数据平台类服务的星环和数据应用方面的帆软、海云数据等;国内近几年也在加快自主研发数据平台的脚步,国产的数据库和大数据环境已经...

    阿里云数据中台解决方案

    同时,数据中台也是阿里巴巴技术能力输出的重要方式之一,能够帮助其他企业实现数据驱动的转型和升级。 企业在实施数据中台后,将面临企业数据价值实现的挑战。如何通过数据中台,把企业积累的数据资产转化为实际的...

Global site tag (gtag.js) - Google Analytics