2.3 数据仓库的数据组织形式
这里简单介绍数据仓库中常见的数据组织形式:
1. 简单堆积文件: 它将每日由数据库中提取并加工的数据逐天积累并存储起来。
2. 轮转综合文件: 数据存储单位被分为日、周、月、年等几个级别。在一个星期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合并记录在周数据集中;接下去的一个星期,日数据集被重新使用,以记录新数据。同理,周数据集达到五个后,数据再一次被综合并记入月数据集。以此类推。轮转综合结构十分简捷,数据量较简单堆积结构大大减少。当然,它是以损失数据细节为代价的,越久远的数据,细节损失越多。
3. 简化直接文件: 它类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔一星期或一个月作一次。
4. 连续文件: 通过两个连续的简化直接文件,可以生成另一种连续文件,它是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新的简单直接文件也可生成新的连续文件。
对于各种文件结构的最终实现,在关系数据库中仍然要依靠"表"这种最基本的结构。
2.4 数据仓库的数据追加
如何定期向数据仓库追加数据也是一个十分重要的技术。我们知道,数据仓库的数据是 来自OLTP的数据库中,问题是我们如何知道究竟哪些数据是在上一次追加过程之后新生成 的。常用的技术和方法有:
·时标方法: 如果数据含有时标,对新插入或更新的数据记录,在记录中加更新时的时标,那么只需根据时标判断即可。但并非所有的数据库中的数据都含有时标。
·DELTA文件: 它是由应用生成的,记录了应用所改变的所有内容。利用DELTA文件效率 很高,它避免了扫描整个数据库,但同样的问题是生成DELTA文件的应用并不普遍。此外,还有更改应用代码的方法,使得应用在生成新数据时可以自动将其记录下来。但应用成千上万,且修改代码十分繁琐,这种方法很难实现。
·前后映象文件的方法: 在抽取数据前后对数据库各作一次快照,然后比较两幅快照的不同从而确定新数据。它占用大量资源,对性能影响极大,因此并无多大实际意义。
·日志文件: 最可取的技术大概是利用日志文件了,因为它是DB的固有机制,不会影响O LTP的性能。同时,它还具有DELTA文件的优越性质,提取数据只要局限日志文件即可,不用扫描整个数据库。当然,原来日志文件的格式是依据DB系统的要求而确定的,它包含的数据对于数据仓库而言可能有许多冗余。比如,对一个记录的多次更新,日志文件将全部变化过程都记录下来;而对于数据仓库,只需要最终结果。但比较而言,日志文件仍然是最可行的一种选择。
分享到:
相关推荐
数据仓库技术是数据库领域的重要分支,它主要针对分析型处理需求,为企业决策提供支持。传统的数据库技术主要关注操作型处理,即事务处理,这涉及到对数据库的日常查询和修改,强调快速响应、数据安全和完整性。然而...
### 数据仓库技术架构及...综上所述,Teradata不仅在数据仓库领域具有深厚的技术积累和市场领先地位,还通过其先进的架构设计和完整的解决方案,为企业提供了强大的数据分析能力,帮助它们更好地理解和利用数据价值。
(整理)(整理)11数据仓库技术简介.pdf仓库技术简介.pdf(整理)数据仓库技术简介.pdf
(整理)(整理)11数据仓库技术简介.docx仓库技术简介.docx(整理)数据仓库技术简介.docx
数据仓库技术简介.doc
第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言...
第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言...
通过对Teradata数据仓库技术架构的深入理解,我们可以看到其在数据架构设计、整体架构构建以及ETL架构实现上的专业性和高效性。Teradata以强大的系统扩展能力和模块化设计,为企业级数据仓库领域提供了有力的技术...
综上所述,数据仓库与联机分析处理技术是现代企业信息化建设的重要组成部分,它们不仅帮助企业更好地理解和利用积累的大量数据,还为企业提供了强大的决策支持能力。随着技术的不断进步和发展,数据仓库和OLAP技术将...
第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据...
第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言...
目前,市场上有多种数据仓库产品,以下是一些主流的数据仓库产品: * BusinessObjects(BO)数据仓库解决方案 * IBM 数据仓库解决方案 * Oracle 数据仓库解决方案 * Sybase 数据仓库解决方案 * Infomix 数据仓库...
### 一、《数据仓库生命周期工具箱》简介 #### 1. 数据仓库基础概念 - **定义**: 首先介绍了数据仓库领域内的一些基本概念,并对这些术语进行了明确界定。例如,“数据仓库”这一术语在不同的背景下可能会有不同的...
第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言...
### 数据仓库及其应用 #### 15.1 数据仓库发展的...综上所述,数据仓库是一项复杂但至关重要的技术,它为企业提供了管理和分析海量数据的强大工具。通过合理设计和实施数据仓库,企业可以提高决策效率,增强竞争力。
数据仓库技术架构及方案 数据仓库技术架构及方案是一种复杂的技术架构,旨在提供一个集成的企业级数据仓库解决方案。以下是该架构的详细介绍: Teradata 简介 Teradata 是一家全球领先的数据仓库解决方案提供商,...
数据仓库技术介绍(PPT 100页).ppt