什么是数据仓库
(转载自北大高科网站,http://www.pku-ht.com/)
目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
根据数据仓库概念的含义,数据仓库拥有以下四个特点:
1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。
|
|
数据仓库系统体系结构 |
|
|
·数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;
·数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
·OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
·前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
|
分享到:
相关推荐
数据仓库与数据挖掘是信息技术领域中的重要组成部分,尤其在当今大数据时代,这两个概念的重要性日益凸显。华北电力大学开设的这门研究生课程,由郑玲老师主讲,旨在深入讲解这两方面的理论与实践。 数据仓库(Data...
数据仓库与数据挖掘是现代企业决策支持系统的关键组成部分。数据仓库是存储历史数据的系统,设计目的是为了支持决策分析,而数据挖掘则是从大量数据中发现有价值信息的过程。以下是这两个领域的核心概念及其特点: ...
首先,我们要理解什么是数据仓库。数据仓库是一个专门为决策支持系统设计的集成化、非易失性的数据集合,它存储了组织历史上的数据,通常来自多个不同的源系统。数据仓库的目标是提供一个中心化的存储,使得分析人员...
### 数据仓库与数据挖掘课程实验知识点解析 #### 一、数据仓库基础知识 **1.1 数据仓库的概念** 数据仓库是一种用于存储和管理大量历史数据的系统,主要用于支持业务决策过程。它通过收集、整理和组织来自不同源...
"数据仓库需求文档.pdf" 数据仓库是企业关键业绩指标报告系统的核心内容,能够从大量的企业经营的关键知识及信息中抽取出潜在的、有价值的知识或规则的过程。数据仓库的主要功能是建立集中存储的基于业务主题的统一...
数据仓库是一种专为数据分析和决策支持服务的系统,它与传统的事务处理系统有着显著的区别。在事务处理系统中,数据是实时更新的,注重高效快速地处理单个事务,而在数据仓库环境中,数据是静态的,主要用于数据分析...
数据仓库与数据挖掘是现代信息技术领域中的重要组成部分,它们在数据驱动决策的背景下扮演着关键角色。本实验报告主要探讨了数据仓库的设计、实现及多维分析,涉及到的关键概念包括数据仓库、多维数据模型、ETL过程...
在当今的信息时代,数据治理和数据仓库模型设计是企业管理和信息技术领域中的两个关键概念。随着大数据技术的快速发展,企业需要处理的数据量不断增加,数据治理和数据仓库模型设计成为了确保数据得到合理管理和高效...
### 数据仓库与数据挖掘课程设计知识点详解 #### 一、项目背景及提出问题 - **项目背景**: 在当前的大数据时代背景下,无论是哪个行业都需要对商品及其相关环节的数据进行有效的收集与处理。特别是零售行业,通过对...
数据仓库、数据湖、数据平台和数据中台概念和区别 在企业数字化转型或者信息化建设过程中,数据治理是不可避免的重要一步。数据仓库、数据湖、数据平台和数据中台都是数据治理的载体,但它们之间有着明显的区别。 ...
1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 ...
数据仓库与数据挖掘是信息技术领域中的重要组成部分,尤其在大数据时代,它们的作用愈发显著。这份《数据仓库与数据挖掘》课程设计方案报告模板旨在为学生提供一个实践导向的学习框架,通过实际项目来理解并掌握这两...
3. **大数据之数据仓库**:深入理解大数据环境下的数据仓库建设,如Hadoop数据仓库(Hadoop Data Warehouse)的设计原则、架构优化和性能提升策略。 4. **数据仓库、大数据平台和数据中台三者之间的关系**:数据...
1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 ...
陈文伟的教程还可能涉及到数据仓库的最新发展,如云计算中的数据仓库(云数据仓库)、大数据处理框架(如Hadoop和Spark)对数据仓库的影响,以及现代数据仓库工具如Amazon Redshift、Google BigQuery和Snowflake等。...
数据仓库与数据挖掘是现代信息技术领域中的重要主题,特别是在大数据时代背景下,这两个概念的重要性日益凸显。华电(华北电力大学)开设的这门研究生课程,旨在深入探讨数据仓库的构建与管理,以及如何利用数据挖掘...
数据仓库与数据挖掘是信息技术领域中的重要组成部分,它们在现代商业智能和决策支持系统中扮演着核心角色。数据仓库是一个集中的、非易失性的、用于报告和数据分析的数据集合,而数据挖掘则是一种从大量数据中发现有...
在当今的企业运营环境中,数据仓库模型的建立是帮助企业管理其财务数据,从而进行深入分析并制定策略的关键。对于企业而言,理解并构建基于财务数据分析的数据仓库模型是一项至关重要的工作。接下来,我们将详细介绍...
数据仓库设计是一个复杂而关键的过程,它涉及到决策支持系统(DSS)的发展和信息技术的演进。DSS的起源可以追溯到20世纪60年代,最初是基于主文件和穿孔卡的数据处理,主要使用COBOL语言。随着技术的进步,数据存储...