数据仓库之父的W.H.Inmon将数据仓库定义为:“数据仓库是一个面向主题的、集成的、相对稳定的和随时间的数据集合,用于支持管理决策和商务智能。”数据仓库技术,简单的说,就是将企业内外部的数据进行全面的集成、清洗和整理,去除一些纯事务性的数据,将企业数据按主题放置到一个“仓库”中,然后在次基础上建立各种决策支持的数据为企业服务。基本结构如图1所示:
对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库拥有以下四个特点:
①面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织,它与传统数据库中的面向应用相对应。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
②集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤。它能够统一原始数据中的矛盾之处,还能够将原始数据结构从面向应用向面向主题转变。
③相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
④反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
根据以上的特点,在数据仓库里,数据是在对不同来源的数据抽取、清理的基础上经过系统加上、汇总和整理得到的一个紧密的整体;数据所提供的信息是关于某一特别的主题而不是关于一个公司的日常运营,数据仓库在构建之初就明确其主题,即确定决策涉及的范围和所要解决的问题。数据仓库中的所有数据都由某一个特别的时间段来识别,数据仓库中的数据是相对稳定的,数据仓库中的数据主要供企业决策分拆之用,一旦某个数据进入数据仓库一般被长期保留,修改和删除操作很少,通常只需要定期的加载、刷新,这使得管理人员能获得一幅关于商务的一致的画面。
数据仓库的一个重要作用是为决策者提供必要的智能,促进决策者更好的理解商务危机、商务机会和运营状况。在决策支持过程中,数据仓库主要有四个流程:整合、执行、智能和创新,如图3所示。
(2)数据仓库和数据集市
数据集市(Data Marts)是为了特定的应用目的或应用范围,从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据,通常服务于单个部门或企业中的部分用户。按照业务的不同可以分为财务、销售、市场等多个数据集市,每个数据集市只包含特定领域内的数据。数据仓库和数据集市的比较如表1所示。
表1 数据仓库与数据集市比较
关于构建数据仓库和数据集市先后顺序,有两种截然不同的学术观点,Ralph Kimball认为“数据仓库仅仅是构成它的数据集市的联合”,而Inmon认为只有在构建几个单主题区域之后,集中式的数据仓库才能创建数据集市。实际上,方法的选择取决于项目的主要商业驱动。如果该组织正忍受糟糕的数据管理和不一致的数据,或者希望为今后打下良好的基础,那么Inmon的方法就更好一些。
如果该组织迫切需要给用户提供信息,那么Kimball的方法将满足该需求。而一旦满足了迫切的信息需求后,就应该考虑包含独立数据仓库的数据体系结构的转换计划。特别需要注意的是个别部门要防止滥用Kimball的方法而脱离集中控制。
(3)数据抽取、转换、装载数据抽取、转换、装载上具(Extract Transform.Load.ETL)是数据仓库的重要组成之一,它是把数据从不同的操作型数据库、业务部门和企业外部数据库中拿出来,进行必要的转化、整理,再以统一定义的格式存放到数据仓库内。它首先对数据进行筛选,去掉对决策没有意义的数据段,然后将数据转换成统一的数据名称和定义,计算统计和衍生数据:估计遗失数据的缺省值。数据抽取、转换与装载过程的目的在于把来自各个不同平台的数据合并到决策支持环境下的商务智能目标的数据仓库的标准格式中去。数据抽取工具能对各种不同存储方式的数据访问,应能生成不同程序、作业控制语言、脚本和语句等,以访问不同的数据。
相关推荐
数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 数据仓库 ,由数据仓库之父比尔·恩门...
主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。...
2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 2.6 样本数据库 34 2.7 数据分割 35 2.8 数据仓库中的数据组织 ...
2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 2.6 样本数据库 34 2.7 数据分割 35 2.8 数据仓库中的数据组织 ...
### 数据仓库技术架构及方案 #### Teradata简介 Teradata是一家全球领先的数据仓库解决方案提供商,成立于1979年,并于2007年10月1日在纽约证券交易所上市,股票代码为“TDC”。作为企业级数据仓库领域的领导者,...
2. **数据仓库的体系结构**:常见的数据仓库架构有两层架构、独立型和依赖型数据集市、操作型数据存储(ODS)等。这些架构旨在满足不同规模和复杂度的决策支持需求。 3. **OLAP(在线分析处理)**:是数据仓库中...
**1.2 数据仓库的特点** - **面向主题**:数据仓库围绕特定业务主题组织数据,而不是像传统数据库那样按照应用程序的需求组织。 - **集成性**:数据仓库中的数据来源于多个异构数据源,需要进行清洗和转换,以确保...
- **数据仓库**: 是一个用于支持企业各级决策制定过程的数据集合,其主要特点是面向主题、集成性、稳定性和时变性。数据仓库不仅用于存储数据,更重要的是支持复杂的查询和数据分析,帮助企业做出更好的商业决策。 -...
第3章介绍数据仓库结构及其创建,包括数据仓库数据库、事实表、维度表及多维数据集创建;第4章介绍数据仓库开发完整过程,包括项目系统规划、用户需求确定、系统分析、系统设计、系统实现、系统试用及扩充;第5章...
* 数据仓库主要用于存储结构化数据,用于业务智能领域的比较和分析,而数据湖则可以存储结构化和非结构化数据,用于不同的分析和应用。 * 数据平台是融合了结构化和非结构化数据的数据基础平台,为业务提供服务的...
数据仓库的体系结构通常分为两层,即数据库(DB)和数据仓库(DW),但这种结构无法覆盖所有需求。于是,介于两者之间的操作数据存储(ODS)应运而生。ODS是为支持日常全局应用而设计的数据集合,它的数据也是面向...
8.1 数据仓库中的外部数据/非结构化数据 157 8.2 元数据和外部数据 158 8.3 存储外部数据/非结构化数据 159 8.4 外部数据/非结构化数据的不同 组成部分 160 8.5 建模与外部数据/非结构化数据 160 8.6 ...
数据仓库初阶 数据仓库的概念 数据仓库的特点 数据仓库的结构
对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后, 一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新...
在介绍数据仓库的建模过程及相关工具之前,我们首先要明确几个关键概念和特点。 首先,数据仓库是一个面向主题的、集成的、稳定且反映历史变化的数据集合。它不同于传统的操作型数据库(OLTP),主要以查询和分析...
数据仓库的特点包括面向主题、集成性、时变性和非易失性。 数据仓库的设计过程通常包括以下步骤:需求分析、源系统理解、数据建模、ETL(提取、转换、加载)、数据质量保证和性能优化。其中,ETL是数据仓库建设的...
数据仓库体系架构、主要过程...综上所述,数据仓库体系架构、主要过程与技术涉及了数据仓库的定义、特点、体系架构、建设过程和主要技术。理解这些知识点有助于构建和维护一个高效、稳定、能够支撑决策的数据仓库系统。
数据仓库的特点包括数据的时态性,即它记录了数据的历史变化,以及数据的多维性,这使得我们可以从不同角度(即维度)查看数据。 接着,数据挖掘是利用算法和统计方法从数据中提取模式的过程。它主要分为监督学习、...
1. 财务报告的编制:数据仓库可以整合财务及非财务的数据,为企业提供全面的财务报告,包括利润表、资产负债表和现金流量表等。通过数据仓库,企业能够实现自动化的报告生成,减少手工计算错误,提高报告的准确性和...
第二代数据仓库在继承第一代数据仓库的基础上,着重在数据仓库的生命周期、数据访问模式、结构化与非结构化数据处理、以及元数据的管理和应用等方面进行了深入的拓展和改进。以下是对第二代数据仓库技术特点和发展...