二、数据仓库中的数据组织
数据仓库中数据的四个基本特征在本章§1中已经介绍过了,下面就要分析清楚这些问题:数据仓库存储哪些数据呢?数据如何组织,存储?组织形式有哪些?等等。通过对数据仓库中存放的数据内容及其组织形式的介绍,本节将对这些问题做出回答,以加深对数据仓库数据四个基本特征的理解。
2.1 数据仓库的数据组织结构
一个典型的数据仓库的数据组织结构如图1.2所示:
数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级由此可见,数据仓库中存在着不同的综合级别,一般称之为"粒度"。粒度越大,表示细节程度越低,综合程度越高。
数据仓库中还有一种重要的数据--元数据(metadata)。元数据是"关于数据的数据",如在传统数据库中的数据字典就是一种元数据。在数据仓库环境下,主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数据,包含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在数据仓库中是用来和终端用户的多维商业模型/前端工具之间建立映射,此种元数据称之为DSS元数据,常用来开发更先进的决策支持工具。
关于元数据,下面的章节还会做进一步的阐述。
图1.2 DW数据组织结构
2.2 粒度与分割
1. 粒度
粒度是数据仓库的重要概念。粒度可以分为两种形式,第一种粒度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。在数据仓库中,多维粒度是必不可少的。由于数据仓库的主要作用是DSS分析,因而绝大多数查询都基于一定程度的综合数据之上的,只有极少数查询涉及到细节。所以应该将大粒度数据存储于快速设备如磁盘上,小粒度数据存于低速设备如磁带上。
还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中抽取出一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的,而是有采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。
2. 分割
分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。它是将数据分散到 各自的物理单元中去,以便能分别独立处理。有许多数据分割的标准可供参考:如日期、地 域、业务领域等等,也可以是其组合。一般而言,分割标准总应包括日期项,它十分自然而且分割均匀。
分享到:
相关推荐
数据仓库技术是数据库领域的重要分支,它主要针对分析型处理需求,为企业决策提供支持。传统的数据库技术主要关注操作型处理,即事务处理,这涉及到对数据库的日常查询和修改,强调快速响应、数据安全和完整性。然而...
### 数据仓库技术架构及...综上所述,Teradata不仅在数据仓库领域具有深厚的技术积累和市场领先地位,还通过其先进的架构设计和完整的解决方案,为企业提供了强大的数据分析能力,帮助它们更好地理解和利用数据价值。
数据仓库技术简介.doc
6.11 在多种层次上建造数据仓库 134 6.12 多个小组建立当前细节级 136 6.12.1 不同层不同需求 138 6.12.2 其他类型的细节数据 140 6.12.3 元数据 142 6.13 公用细节数据采用多种平台 142 6.14 小结 143 第7章 高级...
本书主要是面向数据仓库的设计、开发和管理人员,以及构造和使用现代信息系统的人员,也适于信息处理方面的高校师生和从事传统数据库系统技术工作的人阅读。 目录 译者序 审、译者简介 前言 第1章 决策支持系统的...
通过对Teradata数据仓库技术架构的深入理解,我们可以看到其在数据架构设计、整体架构构建以及ETL架构实现上的专业性和高效性。Teradata以强大的系统扩展能力和模块化设计,为企业级数据仓库领域提供了有力的技术...
综上所述,数据仓库与联机分析处理技术是现代企业信息化建设的重要组成部分,它们不仅帮助企业更好地理解和利用积累的大量数据,还为企业提供了强大的决策支持能力。随着技术的不断进步和发展,数据仓库和OLAP技术将...
6.11 在多种层次上建造数据仓库 134 6.12 多个小组建立当前细节级 136 6.12.1 不同层不同需求 138 6.12.2 其他类型的细节数据 140 6.12.3 元数据 142 6.13 公用细节数据采用多种平台 142 6.14 小结 143 ...
目前,市场上有多种数据仓库产品,以下是一些主流的数据仓库产品: * BusinessObjects(BO)数据仓库解决方案 * IBM 数据仓库解决方案 * Oracle 数据仓库解决方案 * Sybase 数据仓库解决方案 * Infomix 数据仓库...
### 一、《数据仓库生命周期工具箱》简介 #### 1. 数据仓库基础概念 - **定义**: 首先介绍了数据仓库领域内的一些基本概念,并对这些术语进行了明确界定。例如,“数据仓库”这一术语在不同的背景下可能会有不同的...
本书主要是面向数据仓库的设计、开发和管理人员,以及构造和使用现代信息系统的人员,也适于信息处理方面的高校师生和从事传统数据库系统技术工作的人阅读。 目录 译者序 审、译者简介 前言 第1章 决策支持系统的...
### 数据仓库及其应用 #### 15.1 数据仓库发展的...综上所述,数据仓库是一项复杂但至关重要的技术,它为企业提供了管理和分析海量数据的强大工具。通过合理设计和实施数据仓库,企业可以提高决策效率,增强竞争力。
#### 第1章 数据仓库和数据挖掘简介 **1.1 数据简介** 在本部分中,作者简要介绍了所使用的数据集来源及其特点。该实验涉及到两个数据集: - **超市交易数据集**:主要用于进行关联规则分析。虽然文本未提供详细...
数据仓库技术介绍(PPT 100页).ppt
数据仓库技术架构及方案 数据仓库技术架构及方案是一种复杂的技术架构,旨在提供一个集成的企业级数据仓库解决方案。以下是该架构的详细介绍: Teradata 简介 Teradata 是一家全球领先的数据仓库解决方案提供商,...
根据提供的信息,我们可以总结出以下关于《数据仓库工具箱》第...综上所述,《数据仓库工具箱》第三版是一本全面涵盖数据仓库理论与实践的权威指南,对于希望深入了解这一领域的专业人士来说,是一本不可或缺的参考书。
### SAP BW 数据仓库简介 #### 一、数据仓库的基本理论 **1.1 数据仓库定义** 数据仓库(Data Warehouse)是一种特殊类型的数据管理系统,用于存储和管理来自多种数据源的历史数据,以便支持业务智能(BI)活动,...