`
student_lp
  • 浏览: 437959 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

数据仓库简介---概况

阅读更多

1、数据仓库的定义

      数据仓库是一个面向主题的、集成的、稳定的、反映历史变化的、随着时间的流逝发生变化的数据集合。它主要支持管理人员的决策分析。

      数据仓库收集了企业相关内部和外部各个业务系统数据源、归档文件等一系列历史数据,最后转化成企业需要的战略决策信息。

  • 面向主题:根据业务的不同而进行的内容划分;
  • 集成特性:因为不同的业务源数据具有不同的数据特点,当业务源数据进入到数据仓库时,需要采用统一的编码格式进行数据加载,从而保证数据仓库中数据的唯一性;
  • 非易失性:数据仓库通过保存数据不同历史的各种状态,并不对数据进行任何更新操作。
  • 历史特性:数据保留时间戳字段,记录每个数据在不同时间内的各种状态。

2、数据仓库的特点

  • 面向主题的:普通的操作型数据库主要面向事务性处理,而数据仓库中的所有数据一般按照主题进行划分。主题是对业务数据的一种抽象,是从较高层次上对信息系统中得数据进行的归纳和整理。面向主题的数据可以划分成两部分----根据原系统业务数据的特点进行主题的抽取和确定每个主题所包含的数据内容,例如客户主题、产品主题、财务主题等;而客户主题包括客户基本信息、客户信用信息、客户资源信息等内容。分析数据仓库主题的时候,一般方法是先确定几个基本的主题,然后再将范围扩大,最后再逐步求精
  • 集成性:面向操作型的数据库通常是异构的、并且相互独立,所以无法对信息进行概括和反映信息的本质。而数据仓库中的数据是经过源数据的抽取、清洗、切换、加载得到的,所以为了保证数据不存在二义性,必须对源数据进行编码的统一和必要的汇总,以保证数据仓库内数据的一致性。数据仓库在经历数据集成阶段后,使数据仓库中得数据都遵循统一的编码规则,并且消除许多冗余数据。集成一般有如下两种形式:
  • ①数据的集成,当数据从操作型数据传向数据仓库时,数据被集成,例如:
  • ②当数据仓库是从原有分散的源数据库抽取出来的时候,为了消除编码的不一致性,需要将这些来自不同数据源的数据编码集成起来,使之遵循统一的编码规则,例如:
  • 稳定性:数据仓库中得数据反映的都是一段历史时期的数据内容,他的主要操作是查询、分析而不进行一般意义上得更新(数据集成前的操作型数据库主要完成数据记录的增加、删除、修改、查询),一旦某个数据进入到仓库后,一般情况下数据会被长期保留,当超过规定的期限时才会被删除。通常数据仓库需要做的工作就是加载、查询和分析,一般不进行任何修改操作,是为了企业高层人员决策分析之用。
  • 反映历史变化:数据仓库的目标就是对企业的发展趋势作出分析和预测。数据仓库不断从操作型数据库中获得变化的数据,从而形成分析和预测需要的历史数据,所以一般数据仓库中数据表的键码都含有时间键,以表明数据的历史时期信息,然后不断增加新的数据内容。数据仓库中的数据也含有数据期限(一般5-10年),当超出规定的期限时,需要删除这些过时的数据。通过这些历史信息可以对企业的发展历程和趋势作出分析和预测。数据仓库的建设需要大量的业务数据作为积累,并将这些宝贵的历史信息经过加工、整理,最后提供给决策分析人员,这是数据仓库建设的根本目的。

 3、数据仓库和数据库的区别

      数据仓库和数据库的不同:数据库生产系统主要是面向应用的、事物型的数据处理,一般来说具有实时性较高,数据检索量较小,普通用户的数量较大等特点。而数据仓库系统主要面向主题的、分析型的数据处理,具有实时性要求不高,数据检索量较大,主要针对特殊的用户群体,用户数量较小的特点。其中事务型和分析型处理数据是有区别的:

  • 事务型处理数据一般来说对性能的要求较为严格,数据是事务驱动的,主要面向应用,存储的一般都是即时性、细节性的数据,数据是可更新的。
  • 分析型处理数据一般来说对性能要求不高,数据是分析驱动的,主要面向决策分析,存储的一般都是历史、汇总性的数据,数据一般不会更新。

4、数据仓库建设

      数据仓库开发应用过程主要包括:规划分析阶段、设计实现阶段、使用维护阶段。

      ①规划分析阶段
  • 确定数据仓库的开发目标。从用户角度分析,给用户提供那些分析内容和功能。从技术角度分析,在划分的各个主题中需要那些业务数据源,确定使用那种ETL工具去抽取数据,使用什么工具构建数据模型,确定数据仓库的实现范围,然后定制数据仓库目标和工程计划。
  • 编写文档,说明该系统对企业发展的作用,内容包括对工作任务概要的说明、重点支持的项目业务部门和设计开发的工作计划。
  • 开始概念模型的设计工作,包括用户需求调研、模型的定义和需求分析等内容。先明确用户的需求;然后理解用户需求的基础上,进行数据仓库模型的设计,还包括撰写详细的用户需求分析调查表和针对概念模型的评审报告。
  • 在概念模型的基础上进行逻辑模型的分析和设计。包括所要分析的主题域、主题域包含的主题和实体,实体粒度层级定义。除此之外,还需要撰写逻辑模型的评审报告和定义数据仓库的抽取流程。

      ②设计实现阶段

  • 设计阶段主要包含数据模型的设计,元数据的设计,ETL数据抽取、转换、加载的设计,报表展现的设计内容。其中元数据包括业务元数据和技术元数据。
  • 在实现阶段,需要确定数据仓库系统选择了那些业务数据源,实现从源系统中抽取数据、清洗数据、装载数据的设计和编码过程,使用报表展现工具开发报表。
      ③使用维护阶段
      在使用维护阶段主要完成:针对用户的培训,数据仓库的备份和恢复,数据归档,性能管理和监控,用户培训。
  • 备份和恢复:数据仓库数据的定期备份和恢复是数据仓库项目一个必不可少的运维步骤。保证用户使用的同时,也对数据仓库中的数据进行妥善处理,以应对将来历史数据的增加和数据仓库规模的扩大。
  • 数据归档:历史数据大量的增加使数据仓库需要增加额外的存储设备来存储这些数据,也差生额外开销。正是因为如此,数据仓库需要将历史细节性数据归类当离线的存储设备上,从而降低运维的难度。
  • 性能管理和监控:性能管理主要包括---针对业务系统响应的时间,文件传输的时间、数据备份和恢复的时间、ETL的时间和报表展示的时间等方面。
  • 用户培训:目的让用户对数据仓库系统的结构、功能和操作流程有一个比较清晰的认识,用户能够依靠培训手册学会基本的操作和了解该系统提供的各种功能。
     数据仓库的开发周期可以划分为规划分析阶段、设计实现阶段以及使用维护阶段。这3个阶段是不断循环和完善的过程,经过多次循环设计、开发和改进,不断为系统增加新的功能,使数据仓库系统的应用得到进一步的加强。

  • 大小: 9.6 KB
  • 大小: 29.2 KB
  • 大小: 7.2 KB
  • 大小: 19.9 KB
  • 大小: 9.3 KB
  • 大小: 8.8 KB
分享到:
评论

相关推荐

    数据仓库和BI技术概况.docx

    ### 数据仓库和BI技术概述 #### 一、数据仓库概览 **概念:** 数据仓库是一种专门用于存储历史数据的数据库系统,旨在为企业提供决策支持。它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。数据...

    数据仓库与数据挖掘技术

    第1章主要介绍企业信息化发展历程、数据库与数据仓库概念、特点、区别、联系及数据仓库系统在企业应用概况;第2章介绍数据仓库开发工具——微软SQL Server 2000数据仓库体系结构及应用技术;第3章介绍数据仓库结构...

    商业银行历史数据管理--硕士论文

    历史查询子系统数据库,为查询交易提供数据基础和数据仓库的数据源;前台新增交易界面,让柜员能够方便地执行交易;以及历史查询后台服务,通过创建中间件服务来处理查询请求。 系统的架构设计包括核心业务系统、...

    ETL 架构师面试题 数据仓库

    逻辑数据映射(Logical Data Mapping)是ETL项目中一个关键的概念,它用于描述源系统的数据定义、目标数据仓库的模型以及从源系统到目标数据仓库的数据转换规则。这一过程不仅确保了数据的一致性和准确性,还提高了...

    数据仓库架构师面试题.docx

    数据仓库架构师在面试中可能面临的问题涉及到多个关键领域,如数据仓库的构建、ETL(提取、转换、加载)过程、数据探索和系统起始来源的确定。这些知识点是理解数据仓库架构和商业智能(BI)项目核心的组成部分。 1...

    商务智能课程 BI教程 大数据与数据挖掘教程 第3章 数据仓库设计与开发(共100页).pptx

    概念模型用于描绘整个企业的数据概况,逻辑模型则更具体地描述数据仓库的主题域,而物理模型关注于如何在特定硬件和软件环境下存储数据。在设计中,需要去除操作性数据,增加时间因素,并适当添加导出数据。常见的...

    数据挖掘知识点概况及试题.docx

    数据仓库系统的体系结构根据应用需求的不同,可以分为以下 4 种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。 操作型数据存储 操作型数据存储实际上是一个...

    JTT 697.3-2013 交通信息基础数据元 第3部分:港口信息基础数据元.pdf

    《JTT 697.3-2013 交通信息基础数据元 第3部分:港口信息基础数据元》是中国交通运输行业的一项标准,旨在规范和统一港口信息的基础数据元素,提高交通信息管理的效率和准确性。该标准于2013年10月9日发布,2014年1...

    2023年中国数据仓库软件市场发展概况分析:预计市场规模将增长至75.55亿元图.docx

    数据仓库软件在中国市场的快速发展反映了数字化转型的加速进程。2023年,中国的数据仓库软件市场规模预计将增长到75.55亿元,较2022年的63.4亿元有显著提升,增长率高达19.17%。这一增长趋势主要得益于企业对大数据...

    数据挖掘知识点概况及试题.pdf

    本概述主要涵盖数据仓库、数据处理、OLAP(在线分析处理)、数据仓库系统架构、ETL(抽取、转换、加载)过程、数据模型以及数据挖掘相关的算法和分类方法。 首先,数据仓库是一个专门针对特定主题、高度集成、保持...

    基于数据仓库的决策支持系统的分析(完整资料).doc

    "基于数据仓库的决策支持系统的分析" 本文主要研究基于数据仓库的决策支持系统的分析,讨论了数据仓库技术、联机分析处理(OLAP)技术和数据挖掘技术在决策支持系统中的应用。数据仓库的出现解决了数据管理的基础性...

    基于数据仓库的决策支持系统的分析.pdf

    基于数据仓库的决策支持系统的分析 本文主要介绍了基于数据仓库的决策支持系统的分析,涵盖了数据仓库、数据挖掘、联机分析处理等多种信息处理技术的集成。通过数据仓库的出现,解决了DSS应用的基础性问题,即数据...

    2019.04.10 (希嘉)城职大数据及决策辅助....docx

    - **业务系统与数据治理的关系**:解释了为何即使已有多个业务系统和共享数据库,仍需进行数据治理以及构建全量数据仓库。 - **权威数据来源确定**:明确了如何确保数据的准确性和可靠性,从而提高决策支持系统的...

    国内大型银行数据仓库系统招标书样本.doc

    - **招标人信息系统概况**:这部分通常会介绍银行当前的信息系统架构、存在的问题或需求,以及对新数据仓库系统期望的功能和性能指标。 - **总体阐明**:详细说明招标项目的背景、目的、目标和预期成果,包括数据...

    Oracle的数据仓库解决方案.pptx

    Oracle的数据仓库解决方案是其在企业级信息技术领域的重要组成部分,它为全球企业提供了一整套高效、安全的数据管理和分析工具。Oracle作为全球领先的数据库软件公司,其数据仓库解决方案旨在帮助企业构建、管理和...

    数据仓库概念

    数据仓库概念解析与核心知识点详解 一、数据仓库概述 数据仓库是一种用于收集、管理和分析组织内部各种数据的系统,其主要目标是为企业决策提供支持。数据仓库将来自多个源系统的数据进行清洗、转换和加载至一个...

Global site tag (gtag.js) - Google Analytics