`
qindongliang1922
  • 浏览: 2183866 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117531
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:125921
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59907
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71301
社区版块
存档分类
最新评论

理解数据仓库中星型模型和雪花模型

    博客分类:
  • Hive
阅读更多
在数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。



(一)星型模型图示如下:




星型模是一种多维的数据关系,它由一个事实表和一组维表组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。强调的是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。这也是我们在使用hive时,经常会看到一些大宽表的原因,大宽表一般都是事实表,包含了维度关联的主键和一些度量信息,而维度表则是事实表里面维度的具体信息,使用时候一般通过join来组合数据,相对来说对OLAP的分析比较方便。




(二)雪花模型图示如下:



当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。雪花模型更加符合数据库范式,减少数据冗余,但是在分析数据的时候,操作比较复杂,需要join的表比较多所以其性能并不一定比星型模型高。



(三)星型模型和雪花模型的优劣对比:






(四)应用场景

星型模型的设计方式主要带来的好处是能够提升查询效率,因为生成的事实表已经经过预处理,主要的数据都在事实表里面,所以只要扫描实时表就能够进行大量的查询,而不必进行大量的join,其次维表数据一般比较少,在join可直接放入内存进行join以提升效率,除此之外,星型模型的事实表可读性比较好,不用关联多个表就能获取大部分核心信息,设计维护相对比较简答。




雪花模型的设计方式是比较符合数据库范式的理念,设计方式比较正规,数据冗余少,但在查询的时候可能需要join多张表从而导致查询效率下降,此外规范化操作在后期维护比较复杂。




(五)总结

通过上面的对比,我们可以发现数据仓库大多数时候是比较适合使用星型模型构建底层数据Hive表,通过大量的冗余来提升查询效率,星型模型对OLAP的分析引擎支持比较友好,这一点在Kylin中比较能体现。而雪花模型在关系型数据库中如MySQL,Oracle中非常常见,尤其像电商的数据库表。在数据仓库中雪花模型的应用场景比较少,但也不是没有,所以在具体设计的时候,可以考虑是不是能结合两者的优点参与设计,以此达到设计的最优化目的。






  • 大小: 17.7 KB
0
1
分享到:
评论

相关推荐

    数据仓库架构星型模型VS雪花模型.docx

    数据仓库架构中,星型模型和雪花模型是两种常见的维度建模方法,它们在处理大量数据和提供商业智能(BI)解决方案时起着至关重要的作用。这两种模型在设计原理、数据冗余、查询效率和规范性方面都有所不同。 首先,...

    数据仓库架构星型模型VS雪花模型.pdf

    数据仓库架构中的星型模型和雪花模型是两种常见的多维数据模型,主要用于支持商业智能(BI)和数据分析。这两种模型都是基于维度表和事实表的概念,但它们在数据规范化程度、冗余数据处理和查询效率方面有所不同。 ...

    数据治理及数据仓库模型设计.pdf

    在当今的信息时代,数据治理和数据仓库模型设计是企业管理和信息技术领域中的两个关键概念。随着大数据技术的快速发展,企业需要处理的数据量不断增加,数据治理和数据仓库模型设计成为了确保数据得到合理管理和高效...

    基于财务数据分析的数据仓库模型

    常见的数据模型包括星型模型(Star Schema)、雪花模型(Snowflake Schema)和第三范式模型(3NF)。星型模型因其简单和高效而广泛应用于数据仓库设计,它由一个事实表和多个维度表组成。 当我们涉及到财务数据分析...

    数据仓库原理 数据仓库设计与应用 第2章 数据仓库开发模型(共30页).ppt

    星型模型和雪花模型是数据仓库设计中常见的两种逻辑模型。星型模型以事实表为核心,周围环绕着多个维度表,提供直观的分析路径。雪花模型则是对星型模型的规范化扩展,每个维度可以进一步分解为更详细的子维度表,...

    数据仓库模型设计说明书

    数据仓库模型设计原则是指数据建模所使用的设计方法,例如维度建模(星型、雪花等)或第三范式(3NF)等。 二、概念模型设计 概念模型设计是指使用建模工具说明本系统包含的主题域以及该主题域包含的内容,如公共...

    数据仓库的数据模型数据组织数据仓库设计学时PPT学习教案.pptx

    理解并熟练运用信息包图、星型图和雪花模型,以及物理模型的设计原则,对于构建高效、灵活的数据仓库系统至关重要。这些知识不仅适用于数据仓库的建设者,也是数据分析师和业务决策者理解数据仓库运作原理的关键。...

    星级酒店经营数据集市的“星型模型”

    **星型模型**是数据仓库中最常用的一种数据模型,它能够以直观且高效的方式展现数据之间的关系。一个典型的星型模型包含一个中心的事实表以及若干个围绕其周边的维度表。这种结构简化了数据查询过程,使得用户能够更...

    3万字38页《数据仓库知识体系》.pdf

    维度模型进一步细分为星型模型、雪花模型和星座模型,这些模型在数据仓库设计中的应用是理解和运用数据仓库结构的基础。 文章详细介绍了三种事实表的设计原则和方法,即星型模型、雪花模型和星座模型,以及它们之间...

    数据仓库与数据挖掘个人复习

    数据仓库与数据挖掘个人复习 数据仓库与数据挖掘是两个紧密相连的概念,都是数据分析和知识发现的重要组成...这些知识点都是数据分析和知识发现的重要组成部分,能够帮助我们更好地理解和应用数据仓库和数据挖掘技术。

    大数据技术 数据仓库原理设计与应用 第1、2章 数据仓库开发模型(共30页).ppt

    星型模型和雪花模型是数据仓库设计的两种常见结构。星型模型由一个中心事实表和围绕它的多个维度表组成,简化了数据关系,便于分析。雪花模型则是星型模型的扩展,维度表进一步规范化,形成了更复杂的层级结构,虽然...

    数据仓库各类解决方案

    2. **星型模型和雪花模型**:在数据仓库设计中,常见的数据模型有星型模型和雪花模型。星型模型以其简洁明了的结构,便于快速查询,适合大数据量分析;雪花模型则通过规范化减少数据冗余,但可能增加查询复杂性。 3...

    数据仓库开发模型PPT学习教案.pptx

    数据仓库模型中的核心是指标实体,如销售额、成本等,而维度实体提供了对指标的上下文,如时间、地点和人员等。 2.2.2 规范化与反规范化: 传统数据库遵循范式理论,如第一、第二、第三范式,但数据仓库往往采用反...

    第2章数据仓库开发模型.pptx

    例如,星型模型和雪花模型是常见的数据仓库设计模式。星型模型以事实表为中心,周围环绕着多个维度表,简化了查询路径。雪花模型则是在星型模型基础上对维度表进行规范化,提供更细粒度的数据,但可能增加查询复杂性...

    数据仓库教程(陈文伟)

    在《数据仓库教程》中,陈文伟教授可能会讲解数据仓库的架构,包括数据抽取(ETL,Extract-Transform-Load)、数据存储、数据建模(例如星型模型和雪花模型)以及查询和报表工具。ETL过程是构建数据仓库的关键步骤,...

    点击流数据仓库模型

    雪花型模型是对星型模型的扩展,通过多级维度表减少冗余,提高数据一致性。 5. **数据加载**:将预处理后的数据加载到数据仓库中,这通常涉及ETL(提取、转换、加载)过程。 6. **查询优化**:为了支持快速查询,...

    数据仓库的模型设计

    **星型模型**和**雪花模型**是两种常见的数据仓库设计模式。 - **星型模型**的特点是维度表直接与事实表相连,形成了类似星形的结构。这种模型的优点是查询简单、性能较好。但是,它的缺点是模型结构相对简单,难以...

    数据仓库的数据模型、数据组织、数据仓库设计(学时2).ppt

    数据仓库是信息技术领域中用于数据分析的关键组成部分,它与传统数据库有着显著的区别,主要体现在数据模型...通过理解这些基本概念和技术,我们可以更好地构建和利用数据仓库,支持企业的决策支持系统和数据挖掘活动。

    和用PowerDesigner建立数据仓库多维模型的研究

    其中,多维模型是数据仓库中最常用的一种数据组织形式,它主要包括星型模型、雪花模型和星群模型三种类型。 - **星型模型**:这是最简单的多维模型结构,由一个事实表和一组维度表构成。事实表包含了具体的数值型...

Global site tag (gtag.js) - Google Analytics