`
housen1987
  • 浏览: 344577 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

数据仓库

阅读更多

企业常见的数据处理工作:


  • OLTP(On-line Transaction Processing,联机事务处理)

传统的关系型数据库的主要应用。

  • OLAP(On-line Analysical Processing,联机分析处理)

数据仓库的主要应用,支持复杂的分析操作,侧重决策支持,提供直观易懂的查询结果。

 

1 OLAP

OLTP是传统关系型数据库的重要应用,主要是日常的事务处理,如银行交易、电信计费、民航订票等,对相应时间要求比较高,强调的是密集数据更新处理的性能和系统的可靠性以及效率。OLTP用短小或中等复杂程度的查询语句,读取或修改数据库中比较小的部分,数据访问方式是小的随机磁盘访问。

OLTP是事件驱动、面向应用的。

基本特点:


  • 对相应时间要求高
  • 用户数据量庞大,主要是操作人员
  • 各种操作基于索引
  • 对数据库的事务已预先定义,查询简单,一般不涉及多表操作。


OLAP使得数据分析人员能够从多角度对数据进行快速、一致、交互地存取,从而获得对数据更深入的了解。OLAP的目标是满足决策支持或在多维环境下特定的查询和报表需求。


OLTP OLAP
用户 操作人员,低层管理人员 决策人员,高级管理人员
功能 日常操作处理 分析决策
DB设计 面向应用 面向主题
数据 当前的,最新细节的,二维分布的 历史的,聚集的,多维集成的,统一的
存取 读写数十条记录 读上百万记录
主要工作 简单的事务处理 复杂的查询
用户数 上千 百位以下
DB大小 100MB-GB 100GB-PB


OLAP的技术核心是“维”的概念。

维是人们观察客观世界的角度,是一种高层次的类型划分。

维一般包含着层次关系,通过把一个实体的多项重要的属性定义为多个维,使用户能对不同维上的数据进行比较。

OLAP是多维数据分析工具的集合。

OLAP的基本多维分析操作:

  • 钻取:改变维的层次,变换分析的粒度,包括向上钻取和向下钻取。向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据,或减少维数。向下钻取是从汇总数据深入到细节数据进行观察或增加新维度。
  • 切片和切块:在一部分维度上选定值后,关心度量数据在剩余维度上的分布,如果剩余维度为2个,则为切片,3个或3个以上为切块。
  • 旋转:变换维度的方向,如行列互换。
OLAP的实现方式:
  • ROLAP(Relational OLAP):以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分成2类表:事实表(用来存储数据和维度关键字),维度表(对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息)。维度表和事实表通过主外关键字结合,形成星型模型,对于层次复杂的维度,为了避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模型的扩展成为“雪花模型”。灵活性好。
  • MOLAP(Multidimensional OLAP):以多维数据库组织方式为核心,MOLAP使用多维数组存储数据,多维数据在存储中将形成立方块(Cube)的结构,在MOLAP中对立方体的旋转、切块、切片等式产生多维数据报表的主要技术。(IBM收购的Cognos系列产品就是典型的MOLAP)。响应速度快。
  • HOLAP(Hybrid OLAP):低层是关系型的,高层是多维矩阵型的或者反之。这种方式具有更好的灵活性。

OLAP工具是针对特定问题的联机数据访问和分析,通过多维的方式对数据进行分析、查询和报表。多维分析是指以多维形式组织起来的数据采取切片、切块、钻取、旋转等分析操作,以求剖析数据,使用户从多角度、多侧面观察数据库中的数据,从而深入理解包含在数据中的信息。

 

2 数据仓库的概念


数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、且随时间变化的数据集合,用于支持管理决策。

数据仓库特征:


  • 面向主题:操作型数据库组织面向事务处理任务(面向应用),各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点,一个主题通常与多个操作型信息系统相关。例如一个保险公司所进行的事务处理(应用问题)可能包括汽车保险、人寿保险、健康保险等,而公司的主要主题范围可能事顾客、保险单、保险费和索赔等。
  • 集成的:最重要的特征。
  • 相对稳定的(非易失的)。操作型数据库中的数据更新频度快。数据仓库的数据主要供企业决策分析所用,所涉及的数据操作主要是数据查询。通常只需要定期加载、刷新。
  • 随时间变化。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时间点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。


数据仓库反映历史变化的属性表现在:

 

  1. 数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限,传统操作型数据系统中的数据时间期限可能为数十天或数个月,数据仓库中的数据时间期限可能为数年甚至几十年。
  2. 传统操作型数据系统中的数据含有“当前值”的数据,而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。
  3. 传统操作型数据系统中可能包含时间元素,如年、月、日等,而数据仓库中一定包含时间元素。

数据仓库分类:

 

  • 企业仓库:收集跨越整个企业的各个主题的所有信息,提供全企业范围的数据集成,数据通常来自多个操作型数据库和外部信息提供者,并且是跨多个功能范围的,通常包含详细数据和汇总数据。
  • 数据集市:对特定用户有用的,企业范围数据的一个子集,范围限定为选定的主题。
  • 虚拟仓库:操作型数据库上视图的集合。

数据聚集和立方:

数据仓库中多维的交点就是数据仓库用户要观察的事务。

聚集是指按照维度粒度、指标和计算元的不同,依据实际分析需要对底层数据进行记录行压缩、表连接、属性合并等预处理,是对底层的详细数据进行相应的统计的数据加工形式,包括求和、求平均值等。


聚集计算的结果是根据用户可能的查询预先计算好的汇总数据。汇总可以沿着数据仓库中的多维数据的任何一维或多维进行。给定维度集合的所有方体形成的方体格成为该维集合的数据立方(data cube)。数据立方的建立是通过聚集实现的。数据仓库中的立方也成为多维立方,数据立方的维数超过3时成为超立方体或超维数聚集。


数据聚集用于提升数据仓库系统进行OLAP时的性能。通过在问题提出之前就准备好答案来缩短查询相应时间,是OLAP技术能够快速相应的基础。聚集降低了直接访问基础数据对前段应用的影响,减少了对基础数据的重复计算,使用聚集可以在一定程度上保证数据一致性。


数据仓库的结构


数据仓库系统要包含数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。

数据仓库建立后,首先要从数据源中抽取相关的数据到数据准备区,在数据准备区中经过净化处理后再加载到数据仓库数据库,最后根据用户的需求将数据导入数据集市和知识挖掘库中。当用户使用数据仓库时,可以利用OLAP在内的多种数据仓库应用工具向数据集市/知识挖掘库或者数据仓库进行决策查询分析或知识挖掘。数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。

  • 数据仓库的参考框架

数据仓库的参考框架由数据仓库基本功能层、数据仓库管理层和数据仓库环境支持层组成。

(1)数据仓库基本功能层。包含数据源、数据准备区、数据仓库结构、数据集市或知识挖掘库,以及存储和使用部分。本层的功能是从数据源抽取数据,对所抽取的数据进行筛选、清理,将处理过的数据导入或者加载到数据仓库中,根据用户的需求设立数据集市,完成数据仓库的复杂查询、决策分析和知识的挖掘等。

 

分享到:
评论

相关推荐

    数据仓库与数据挖掘-实验报告 数据仓库的设计、实现及多维分析 共14页.pdf

    数据仓库与数据挖掘是现代信息技术领域中的重要组成部分,它们在数据驱动决策的背景下扮演着关键角色。本实验报告主要探讨了数据仓库的设计、实现及多维分析,涉及到的关键概念包括数据仓库、多维数据模型、ETL过程...

    【推荐】数据仓库建设学习资料合集(38份).zip

    推荐,数据仓库建设学习资料合集,包含建设规范、架构、工具及模型等资料。共38份。 2021数据仓库服务常见问题-华为-51页 2021云数据仓库专业服务-华为-168页 阿里云数据中台-金融行业新一代数据仓库解决方案 ...

    数据仓库与数据挖掘(陈志泊)课后习题答案1

    数据仓库与数据挖掘是现代企业决策支持系统的关键组成部分。数据仓库是存储历史数据的系统,设计目的是为了支持决策分析,而数据挖掘则是从大量数据中发现有价值信息的过程。以下是这两个领域的核心概念及其特点: ...

    数据治理及数据仓库模型设计.pdf

    在当今的信息时代,数据治理和数据仓库模型设计是企业管理和信息技术领域中的两个关键概念。随着大数据技术的快速发展,企业需要处理的数据量不断增加,数据治理和数据仓库模型设计成为了确保数据得到合理管理和高效...

    数据仓库与数据挖掘课程实验

    ### 数据仓库与数据挖掘课程实验知识点解析 #### 一、数据仓库基础知识 **1.1 数据仓库的概念** 数据仓库是一种用于存储和管理大量历史数据的系统,主要用于支持业务决策过程。它通过收集、整理和组织来自不同源...

    数据仓库设计说明书

    1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 ...

    3万字38页《数据仓库知识体系》.pdf

    本文档《数据仓库知识体系》详细整理了数据仓库领域几乎所有的知识点,覆盖了数据仓库的多个方面,从发展阶段、数据模型、事实表设计、多维体系结构、规范设计、元数据管理、维度表设计、范式和反范式化、数据仓库...

    数据仓库与数据挖掘(华电)

    数据仓库与数据挖掘是信息技术领域中的重要组成部分,尤其在当今大数据时代,这两个概念的重要性日益凸显。华北电力大学开设的这门研究生课程,由郑玲老师主讲,旨在深入讲解这两方面的理论与实践。 数据仓库(Data...

    数据仓库与数据挖掘课程设计.docx

    ### 数据仓库与数据挖掘课程设计知识点详解 #### 一、项目背景及提出问题 - **项目背景**: 在当前的大数据时代背景下,无论是哪个行业都需要对商品及其相关环节的数据进行有效的收集与处理。特别是零售行业,通过对...

    IBM数据仓库需求建模方法及行业数据仓库模型

    IBM数据仓库需求建模方法及行业数据仓库模型的知识点主要涵盖了数据仓库的建设、企业级数据仓库建模、软硬件配置、行业数据仓库模型以及市场趋势和相关技术。 首先,IBM数据仓库需求建模方法强调了企业级数据仓库...

    数据仓库需求文档.pdf

    "数据仓库需求文档.pdf" 数据仓库是企业关键业绩指标报告系统的核心内容,能够从大量的企业经营的关键知识及信息中抽取出潜在的、有价值的知识或规则的过程。数据仓库的主要功能是建立集中存储的基于业务主题的统一...

    数据仓库设计-221页.pdf

    数据仓库设计是一个复杂而关键的过程,它涉及到决策支持系统(DSS)的发展和信息技术的演进。DSS的起源可以追溯到20世纪60年代,最初是基于主文件和穿孔卡的数据处理,主要使用COBOL语言。随着技术的进步,数据存储...

    《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf

    《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第...

    《数据仓库与数据挖掘》课程设计方案报告模板.pdf

    数据仓库与数据挖掘是信息技术领域中的重要组成部分,尤其在大数据时代,它们的作用愈发显著。这份《数据仓库与数据挖掘》课程设计方案报告模板旨在为学生提供一个实践导向的学习框架,通过实际项目来理解并掌握这两...

    数据仓库生命周期工具箱:设计、开发、配置数据仓库的专家方法

    根据提供的文件信息,我们可以深入探讨数据仓库生命周期工具箱的关键知识点,包括设计、开发与配置数据仓库的方法论。本书旨在为读者提供一个全面的数据仓库构建指南,涵盖了从项目管理到最终部署的所有步骤。以下是...

    数据仓库数据仓库数据仓库

    主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。...

    大数据中台、数据仓库、大数据平台、数据治理经验总结.rar

    3. **大数据之数据仓库**:深入理解大数据环境下的数据仓库建设,如Hadoop数据仓库(Hadoop Data Warehouse)的设计原则、架构优化和性能提升策略。 4. **数据仓库、大数据平台和数据中台三者之间的关系**:数据...

    数据仓库的概念

    ### 数据仓库的概念详解 #### 一、什么是数据仓库 数据仓库是一种特殊类型的数据库,它主要用于支持决策制定过程,而非日常的事务处理。数据仓库的主要特点是面向主题、集成性、相对稳定性以及反映历史变化。 1. ...

Global site tag (gtag.js) - Google Analytics