全文连接
http://click.aliyun.com/m/22751/
初次接触数据仓库的朋友,肯定也听过另一个类似的概念:数据集市。很多朋友都心有疑惑,到底这两个有什么关系呢,今天这篇文章来谈一谈。
首先来看一张网上的数据仓库架构图,这是一个从属型数据集市,位于数据仓库的上层。
e901353f0ebb80066e2e17f1b15243432e6a0d1b
一、数据仓库和数据集市的概念
数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。
首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;
其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
数据集市是用来满足特殊用户的应用需求的数据仓库,它们的规模可能达到数百GB。使其成为数据集市的关键是它的使用目标、范围,而非规模大小。数据集市可以理解为是一个小型的部门或者工作组级别的数据仓库。有两种类型的数据集市:
独立型(直接从操作型环境中获取数据):这些数据集市是由特定的工作组、部门或业务线进行控制的,完全是为满足其需求而构建的。实际上,它们甚至与其他工作组、部门或业务线中的数据集市没有任何连通性
从属型(从企业级数据仓库中获取数据,如开始时的架构图):这样的数据集市往往以分布式的方式实现。虽然不同的数据集市是在特定的工作组、部门或生产线中实现的,但它们可以是集成、互连的,以提供更加全局的业务范围的数据视图。实际上,在最高的集成层次上,它们可以成为业务范围的数据仓库。这意味着一个部门中的终端用户可以访问和使用另一部门中数据集市中的数据。
二、数据集市是怎么产生的
一个企业往往有很多现有的系统,跟随有许多现有的OLTP数据库,虽然这些数据库拥有很多信息,但是分析人员很难从这些系统中提取有意义的信息并且速度也较慢。而且这些系统虽然一般可支持预先定义操作的报表,但却经常无法支持一个组织对于历史的、联合的或易于访问的信息的需求。因为数据分布在许多跨系统和平台的表中,而且通常是“脏的”,包含了不一致的和无效的值,使得难于分析。针对这种数据散落难以集中分析的状况,数据仓库应运而生。真对大型企业,数据经过ETL以后,汇总到一起。但是部门需求庞杂,导致如果从数据仓库中直接提炼分析数据,性能也不太可观,这时候,数据仓库应运而生。真对不同部门的不同分类需求,数据仓库延伸出各种数据集市供给某一部分特定部门或者人群。这样就大大提高了不同分析需求的执行效率。
一个设计良好的数据集市有如下特点(有些特点数据仓库也具有,有些特点是相对于数据仓库来讲的):
(1) 特定用户群体所需的信息,通常是一个部门或者一个特定组织的用户,且无需受制于源系统的大量需求和操作性危机(想对于数据仓库)。
(2) 支持访问非易变的业务信息。(非易变的信息是以预定的时间间隔进行更新的,并且不受 OLTP 系统进行中的更新的影响。)
(3) 调和来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管理以及组织外部的行业数据。
(4) 通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义,从而提供净化的数据。
(5) 为即席分析和预定义报表提供合理的查询响应时间(由于数据集市是部门级的,相对于庞大的数据仓库来讲,其查询和分析的响应时间会大大缩短)。
三、数据仓库设计方法论
在数据仓库建立之前,会考虑其实现方法,通常有自顶向下、自底向上和两者综合进行的这样三种实现方案,下面分别对其做简要阐述:
(1)自顶向下
自顶向下的方法就是在单个项目阶段中实现数据仓库。自顶向下的实现需要在项目开始时完成更多计划和设计工作。这就需要涉及参与数据仓库实现的每个工作组、部门或业务线中的人员。要使用的数据源、安全性、数据结构、数据质量、数据标准和整个数据模型的有关决策一般需要在真正的实现开始之前就完成。
(2)自底向上
自底向上的实现包含数据仓库的计划和设计,无需等待安置好更大业务范围的数据仓库设计。这并不意味着不会开发更大业务范围的数据仓库设计;随着初始数据仓库实现的扩展,将逐渐增加对它的构建。现在,该方法得到了比自顶向下方法更广泛的接受,因为数据仓库的直接结果可以实现,并可以用作扩展更大业务范围实现的证明。
(3)折中方案
每种实现方法都有利弊。在许多情况下,最好的方法可能是某两种的组合。该方法的关键之一就是确定业务范围的架构需要用于支持集成的计划和设计的程度,因为数据仓库是用自底向上的方法进行构建。在使用自底向上或阶段性数据仓库项目模型来构建业务范围架构中的一系列数据集市时,您可以一个接一个地集成不同业务主题领域中的数据集市,从而形成设计良好的业务数据仓库。这样的方法可以极好地适用于业务。在这种方法中,可以把数据集市理解为整个数据仓库系统的逻辑子集,换句话说数据仓库就是一致化了的数据集市的集合。
四、数据仓库和数据集市的区别
全文连接
http://click.aliyun.com/m/22751/
分享到:
相关推荐
数据仓库和数据集市是两个不同的概念,尽管它们都是数据存储和分析的解决方案,但它们的设计理念、架构和应用场景都有所不同。 数据集市是一种按照特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。...
数据仓库、数据集市和商业智能(BI)是现代企业数据管理与分析的核心组成部分。这篇文章将深入探讨这些概念,以及它们如何协同工作以支持数据分析。 首先,我们来理解数据仓库。数据仓库是一个集中的、结构化的存储...
数据挖掘源代码: 数据仓库与数据挖掘技术浅谈.caj; 数据仓库与数据挖掘12.caj 数据仓库与数据挖掘.caj 数据仓库和数据挖掘技术在ERP中的应用.kdh 数据仓库与数据挖掘1.caj ...数据仓库、数据集市和数据挖掘.caj
数据仓库和数据集市是两种重要的数据管理工具,它们在企业数据处理和分析中扮演着关键角色。本文将详细探讨这两个概念以及它们之间的区别。 首先,数据仓库是一个为企业级决策制定提供全面数据支持的集合,源自多个...
数据仓库、数据集市和数据挖掘.caj 数据仓库的建设与数据挖掘技术浅析.caj 数据仓库和数据挖掘技术在ERP中的应用.kdh 数据仓库与数据挖掘1.caj 数据仓库与数据挖掘12.caj 数据仓库与数据挖掘.caj 数据仓库与数据挖掘...
数据仓库、数据集市和数据挖掘 三者关系形象说明
数据仓库-数据集市-BI-数据分析 数据仓库工具箱 维度建模权威指南(第3版) 数据仓库技术架构及方案 数据仓库架构、模型、调度、指标建设方案 数据仓库建模与ETL的实践技巧 数据仓库建设规范模板 数据仓库设计-221页 ...
数据仓库和数据集市是两个常见的概念,在决策支持系统(DSS)中扮演着重要的角色。但是,许多人对这两个概念的理解存在误区,认为它们是相同的系统,或者认为数据仓库是多个数据集市的集合。然而,业界公认的数据...
数据仓库和数据集市是两种不同的数据管理架构,它们在用途、构建方式和目标上有所区别。数据仓库是一种集中式的企业级系统,旨在提供全面、一致的历史数据视图,支持高级分析和决策制定。而数据集市则是针对特定业务...
2. **数据仓库的体系结构**:常见的数据仓库架构有两层架构、独立型和依赖型数据集市、操作型数据存储(ODS)等。这些架构旨在满足不同规模和复杂度的决策支持需求。 3. **OLAP(在线分析处理)**:是数据仓库中...
数据仓库、数据集市、数据湖和数据中台都是大数据领域中的关键组件,它们各自服务于不同的数据管理和分析需求。 数据仓库是一种集中式的数据存储系统,设计目的是为了支持企业的决策制定过程,提供历史数据的分析和...
数据仓库和数据集市是现代企业管理和决策支持的关键组成部分。数据仓库是一个专为分析而设计的系统,它将来自不同业务系统的分散数据整合在一起,形成一个一致的全局视图,以支持高级分析和决策。这个系统的特点是...
数据仓库和数据集市是信息化管理中的重要组成部分,主要用于支持决策制定和信息共享。数据仓库是一个设计成面向特定主题、集成、稳定且具有时间变化特性的数据集合。它不同于操作数据库,后者主要处理日常业务交易,...
### 数据仓库与数据集市体系...总之,无论是数据仓库还是数据集市,都是为了更好地支持企业的决策支持系统和数据分析需求。通过合理的设计和架构,可以充分发挥这些数据管理工具的优势,帮助企业做出更为明智的决策。
在华北电力大学的这门课程中,郑玲老师的课件可能会涵盖数据仓库的体系架构、OLAP(在线分析处理)、数据集市、ETL(提取、转换、加载)过程,以及数据挖掘的算法如决策树、神经网络、支持向量机、聚类算法等。...
- **数据集市**: 数据集市是一种小型的数据仓库,通常是某个特定部门为了满足其决策支持需求而构建的。数据集市通常包含较少的主题领域,但针对性更强,更加灵活。 #### 三、数据仓库的设计与建立 - **概念模型设计...