`

数据仓库技术简介4(上)

阅读更多
二、数据仓库中的数据组织

数据仓库中数据的四个基本特征在本章§1中已经介绍过了,下面就要分析清楚这些问题:数据仓库存储哪些数据呢?数据如何组织,存储?组织形式有哪些?等等。通过对数据仓库中存放的数据内容及其组织形式的介绍,本节将对这些问题做出回答,以加深对数据仓库数据四个基本特征的理解。

2.1 数据仓库的数据组织结构

一个典型的数据仓库的数据组织结构如图1.2所示:

数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级由此可见,数据仓库中存在着不同的综合级别,一般称之为"粒度"。粒度越大,表示细节程度越低,综合程度越高。

数据仓库中还有一种重要的数据--元数据(metadata)。元数据是"关于数据的数据",如在传统数据库中的数据字典就是一种元数据。在数据仓库环境下,主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数据,包含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在数据仓库中是用来和终端用户的多维商业模型/前端工具之间建立映射,此种元数据称之为DSS元数据,常用来开发更先进的决策支持工具。

关于元数据,下面的章节还会做进一步的阐述。



图1.2 DW数据组织结构


2.2 粒度与分割

1. 粒度

粒度是数据仓库的重要概念。粒度可以分为两种形式,第一种粒度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。在数据仓库中,多维粒度是必不可少的。由于数据仓库的主要作用是DSS分析,因而绝大多数查询都基于一定程度的综合数据之上的,只有极少数查询涉及到细节。所以应该将大粒度数据存储于快速设备如磁盘上,小粒度数据存于低速设备如磁带上。

还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中抽取出一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的,而是有采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。

2. 分割

分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。它是将数据分散到 各自的物理单元中去,以便能分别独立处理。有许多数据分割的标准可供参考:如日期、地 域、业务领域等等,也可以是其组合。一般而言,分割标准总应包括日期项,它十分自然而且分割均匀。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics