一、多维数据模型及相关概念
数据模型一般有两个层次:概念层(逻辑层)和物理层。逻辑数据模型是从概念角度抽象出现实世界的内在规律,如业务流程、数据架构等;物理数据模型则侧重于特定环境下的具体实现,如效率、安全性等.
多维数据模型是一个逻辑概念,该模型主要解决如何对大量数据进行快速查询和多角度展示,以便得出有利于管理决策的信息和知识。多维数据模型的应用领域主要有数据仓库、OLAP和数据挖掘三个方面。其中,多维结构是OLAP的核心。
多维数据模型通过引入维、维分层和度量等概念,将信息在概念上视为一个立方体。
1、立方体:用三维或更多的维数描述一个对象,每个维彼此垂直。数据的度量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。
2、维:是人们观察数据的特定角度,是考虑问题时的一类属性。属性的集合构成一个维(如时间维、机构维等)。
3、维分层:同一维度还可以存在细节程度不同的各个描述方面(如时间维可包括年、季度、月份、旬和日期等)。
4、维属性:维的一个取值,是数据项在某维中位置的描述(例如“某年某月某日”是在时间维上位置的描述)。
5、度量:立方体中的单元格,用以存放数据。
OLAP的基本多维分析操作有钻取(roll up,drill down)、切片(Slice)、切块(Dice)及旋转(Pivot)等。
钻取包含向下钻取和向上钻取。上卷操作,钻取的深度与维所划分的层次相对应。上卷操作通过维规约,在数据立方体上进行聚集。下钻操作是上卷操作的逆操作,由不太详细的数据到更详细的数据。
切片和切块是在一部分维上选定值后,度量数据在剩余维上的分布。在多维数据结构中,按照二维、三维进行切块可得到所需数据。如在“机构、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。
旋转(转轴)是变换维的方向,即在表格中重新安排维的放置(如行列互换),通过旋转得到不同视角的数据。
二、多维数据模型的物理实现
OLAP多维数据模型的实现有多种途径,其中主要有采用数组的多维数据库、关系型数据库以及两者相结合的方式,人们通常称之为MOLAP、ROLAP和HOLAP。
1、多维联机分析处理(多维数据库管理系统)
多维联机分析处理(molap)严格遵照库德的定义,自行建立多维数据库来存放联机分析系统的数据,它以多维数据组织方式为核心,也就是说,多维联机分析处理使用多维数组存储数据。
当利用多维数据库存储OLAP数据时,不需要将多维数据模型中的维度、层划分和立方体等概念转换成其他的物理模型,因为多维数组(矩阵)能很好地体现多维数据模型特点。
利用数组实现多维数据模型的优点,在于对数据的快速访问,但同时也会带来存储空间的冗余,即稀疏矩阵问题,进而导致对存储空间的极大需求。
为了解决稀疏矩阵问题,某些产品提出了稀疏维(Sparse)和密度维(Dense)策略。由稀疏维产生索引块,由密度维形成数据块。只有当稀疏维的组合在交易事件初次发生时才创建索引块,进而创建数据块。稀疏维和密度维的引入在一定程度上降低了立方体的存储冗余问题。此外,通过数据压缩技术可降低数据块的存储空间。
2、关系联机分析处理(关系数据库管理系统)
ROLAP以关系数据库为核心 以关系型结构进行多维数据的表示和存储,将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成“星型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表描述,这种星型模式的扩展称为“雪花模式”。这种多维数据的表示方式能够让使用者以较简单的方式了解这些资料,增加查询效率,并对海量数据存储空间有较少要求。
在星型架构架构中有一个事实表和未经正规化的维表。
事实表有如下特性:
①大量的数据列,存储容量可达到Tbt;
②主要是数值信息,只有少数的文字或者多媒体信息;
③有和维表连接的外关键字;
④静态数据和聚集数据。
维表中的信息是对事实表的相应说明,它主要有以下特性:
①记录数较少,可能只有上千或者上万个记录;
②大多为文字资料;
③信息具有层次结构;
④只有一个主键(Primary Key或Dimension Key);
⑤信息可修改。
雪花架构是对星型架构的变形,它将星型架构下的维表格经过正规化处理,使其能表现更丰富的信息,也使得信息处理更加灵活。
3、混合联机分析处理
混合联机分析处理(holap)利用多维联机分析处理技术存储上层汇总数据,利用关系联机分析处理存储细节数据,即低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。
还有其他一些实现OLAP的方法,如提供一个专用的SQL Server,对某些存储模式(如星型、雪花型)提供对SQL查询的特殊支持。
三、存储模式的比较和选择
多维联机分析处理的优势不仅在于能清晰地表达多维概念,更重要的是它有着极高的综合速度。在关系数据库管理系统中,如果要得到某一地区的销售总量,只能逐条记录检索,找到满足条件的记录后将数据相加。而在多维数据库中,数据可以直接按行或列累加,其统计速度远远超过关系数据库管理系统。数据库中的记录数越多,其效果越明显。但是对多维联机分析处理来说,随着维度和维成员的增加,其存储空间可能出现组合爆炸。
关系联机分析处理的存储空间没有大小限制,现有的关系数据库的技术可以沿用,可以通过SQL实现详细数据与概要数据的存储,现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展等,大大提高了关系联机分析处理的访问效率。相比较而言,关系联机分析处理技术具有更大的可伸缩性。
在项目实施过程中,对OLAP产品和存储模式的选择应考虑企业数据量的大小、数据处理过程、访问效率和性价比等多个方面。由于多维联机分析处理访问具有高效性,可以将企业应用的大部分聚集层数据以MOLAP形式存储;对有大量细节数据的应用,为防止立方体存储空间过于膨胀,可考虑对于聚集数据以MOLAP方式存储;而对于原子数据可以以ROLAP方式存储。MOLAP存储依靠多维数据集聚合的设计和百分比,提供快速的查询响应能力。一般来说,MOLAP比较适合于需要频繁使用和快速查询响应的多维数据集。ROLAP查询响应通常比使用MOLAP或HOLAP的查询响应要慢。ROLAP一般用于不经常查询的大型数据集,如年份较早的历史数据等。
对访问汇总数据的查询,HOLAP与MOLAP功能相同。对访问基本数据的查询,必须从关系数据库中检索数据,其速度不如将基本数据存储在MOLAP结构中快。用HOLAP存储的多维数据集比同等的MOLAP多维数据集要小,而对于使用汇总数据的查询,其响应比ROLAP多维数据集快。HOLAP存储一般适用于对基于大量基本数据的汇总进行查询时,需要快速响应的多维数据集。
相关推荐
数据仓库与在线分析处理(OLAP)是信息技术领域中的关键组成部分,主要用于大数据的存储、管理和分析。本实验旨在深入理解这两个概念以及它们在实际应用中的作用。通过参与实验,你可以获得以下关键知识点: 1. **...
数据仓库与OLAP技术在现代企业决策支持系统中扮演着至关重要的角色,它们帮助企业从海量数据中提炼出有价值的信息,从而做出更加明智的决策。以下是对数据仓库与OLAP技术的深入探讨,涵盖其概念、功能、优势及应用...
这三者之间的关系体现在:数据仓库为OLAP和数据挖掘提供了基础数据支持;OLAP负责提供数据的多维视图,便于用户理解数据;数据挖掘则在此基础上进一步探索数据内部的深层联系,从而帮助银行做出更加明智的决策。 2...
数据仓库与在线分析处理(OLAP)是信息技术领域中的核心概念,主要应用于大数据分析和决策支持系统。在这个实验教程中,我们将深入理解这两个概念,并通过实际操作来掌握相关技术。 **数据仓库** 数据仓库(Data ...
总的来说,数据仓库和OLAP技术是现代商业智能系统的基础,它们帮助企业从海量数据中提取价值,支持复杂的决策过程,促进业务增长。随着大数据和云计算的发展,数据仓库和OLAP技术也在不断演进,以适应更广泛和更复杂...
在本文中,我们将深入探讨数据挖掘的基本概念,以及它与数据仓库和在线分析处理(OLAP)的关系。 首先,我们来了解数据挖掘的核心概念。数据挖掘可以分为两大类:监督学习和无监督学习。监督学习包括分类(如决策树...
数据仓库是信息技术领域中...总的来说,数据仓库技术与OLAP、数据挖掘概念和技术共同构建了现代商业智能的基础。掌握这些知识对于理解和利用企业数据资源至关重要,能帮助企业提升竞争优势,实现数据驱动的决策和增长。
数据仓库与在线分析处理(OLAP)是信息技术领域的重要组成部分,尤其在大数据和商业智能的背景下,它们的作用愈发显著。本章将详细阐述这两个概念及其相关技术。 首先,数据仓库是一个专门为决策支持服务设计的系统...
课程内容详尽,逐步深入,涵盖数据仓库的构建、数据的存储和处理,以及数据挖掘的基础理论和技术应用。在第四章中,重点介绍了联机分析处理(OLAP)和数据立方体的概念。 【OLAP(联机分析处理)】OLAP是一种针对...
本实践教程主要针对SQL Server平台,旨在帮助用户深入理解并掌握数据仓库的构建与OLAP的运用。 数据仓库是一个集中的、面向主题的、集成的、非易失的并且随时间变化的数据集合,主要用于支持管理层的决策过程。在...
数据仓库、OLAP与数据挖掘关系概述 ...数据仓库、OLAP与数据挖掘是紧密相连的技术,数据仓库提供了企业决策的数据基础,OLAP则将数据仓库中的数据进行多维分析和呈现,数据挖掘为之提供了更好的决策支持和服务。
数据仓库与OLAP技术是数据分析领域的重要组成部分,主要用于支持决策制定和信息处理。数据仓库是一个专门设计用于决策支持的数据库,它与组织的运营数据库相分离,以提供历史数据分析的集中平台。W.H. Inmon给出了...
数据资源的准备是数据仓库建设的基础,Pub公司现有的Pubs数据库包含了与销售业务相关的数据。在建立多维数据模型时,会依据总线矩阵来定义各个维度,例如日期维度、出版社维度和书店维度。日期维度通常包含年、月、...
在构建数据仓库的过程中,数据预处理至关重要,包括数据清理、集成和转换,这些步骤为后续的数据挖掘奠定了基础。数据挖掘在数据仓库上可以实现多种功能,如分类、预测、关联规则学习和聚集,帮助发现隐藏的模式和...
数据仓库与OLAP技术是企业信息系统中的重要组成部分,它们为决策支持和商业智能提供坚实的基础。数据仓库是一种集成的企业级数据存储,它收集、转换和存储来自不同源的数据,以便进行分析和报告。OLAP(在线分析处理...
### 数据仓库与OLAP技术详解 #### 数据仓库概述 数据仓库是一种用于支持决策制定的数据管理系统,与常规的操作数据库相比,它具有独特的特性和用途。数据仓库不仅存储了组织的当前数据,更重要的是还包含了历史...
OLAP(在线分析处理)是数据仓库的主要任务,与OLTP(在线事务处理)系统有显著差异。OLTP关注快速处理日常交易,而OLAP侧重于数据分析,支持多维度的查询和报表生成。OLAP系统通常具有更复杂的数据视图、只读查询、...
数据仓库和数据挖掘是现代信息技术领域中的重要概念,它们在...在实际应用中,例如“数据仓库和OLTP.ppt”这样的文档,可能会详细阐述这些概念的理论基础、最佳实践以及具体案例,帮助读者更好地理解和应用这些技术。