`

数据仓库基本知识

阅读更多

由于工作需要,最近在弄数据库相关的项目,对于很多地方不甚了解,特别是一些概念性的东西,知其然而不知其所以然,这里列出一些基本知识,做个印记,也和读者共享。

数据仓库

    数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

 

根据数据仓库概念的含义,数据仓库拥有以下四个特点:
     1
、面向主题。

数据仓库中的数据是按照一定的主题域进行组织。

主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

而操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离。

2、集成的。

数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。

3、相对稳定的。

数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。

 

    4、反映历史变化。

 

数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

而操作型数据库主要关心当前某一个时间段内的数据。 

 

 

数据仓库的存储模式 

    数据仓库存储的两个基本的元素是维度表和事实表。(维是看问题的角度,比如时间,部门,维度表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID

事实表:是反映业务核心的表,表中存储了与该业务相关的关键数据,我们称其为“度量值”,是今后用来计算及统计的主要字段。除此之外,事实表中还存储着与该业务相关的所有表的关联信息,也就是数据库中外键。能够与其他表建立起联系,从而获得所需要的所有业务信息。而被关联的其他表就是维度表。

维度表:存储与业务相关的非核心信息的表。

事实表与维度表之间通过主外键关联,结构有两种:星型结构和雪花型结构。

星型结构:如图,是指一个事实表连接一个或多个维度表构成的结构,维度表不再关联其他维度表。

雪花型结构:是指一个事实表关联一个或多个维度表,并且维度表还关联了其他的维度表,构成多层级的结构,称为雪花型。

 

 

联机分析处理OLAP:

    OLAP(联机分析处理On-Line Analytical Processing)也叫多维DBMS。

    OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

    OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。

    “维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。也叫做多维数据集。一般一个多维数据集可以用一个立方体的方式进行描述。

    多维数据集是联机分析处理 (OLAP) 中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术。多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。

    每个多维数据集都有一个架构,架构是数据仓库中已联接的各表的集合,多维数据集从数据仓库提取其源数据。架构中的核心表是事实数据表,事实数据表是多维数据集度量值的源。

    OLAP的基本多维分析操作有钻取(roll updrill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill acrossdrill through等。·钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。·切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。·旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

 

 

 

ETL介绍:

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的一重要组成部分 。

企业使用ETL工具后,利用起了已存在的数据资源,避免大量的联机事务处理。ETL工具的典型代表有:OWB、微软DTS, Informatica,Datastage 等 

ETL的质量问题具体表现为:正确性、完整性、一致性、完备性、有效性、时效性和可获取性。

不同时期系统业务过程有变化,遗留系统和新业务,遗留系统模块在运营、人事、财务、办公系统等相关信息的不一致,ETL转换的过程主要包含空值处理、规范化数据格式、拆分数据、验证数据正确性及数据替换。. 

 

DTS介绍:

DTS (Data Transformation Services的缩写)能处理数据导入、分析操作过程中与数据转换有关的步骤 .进行校验,清理等.可以自动或交互的从多个异构数据源向数据仓库或数据集市装入数据的技术。

大多数机构都有数据的多种存储格式和多个存储位置。为了支持决策制定、改善系统性能或更新现有系统,数据经常必须从一个数据存储位置移动到另一个存储位置,都可由DTS来做。DTS还允许用户定期导入或变换数据,以实现数据转换的自动化。

可以将 DTS 解决方案创建为一个或多个包。每个包都可能包含一组用来定义要执行工作的经过组织的任务、对数据和对象的转换、用来定义任务执行的工作流约束以及与数据源和目标的连接。DTS 包还提供了一些服务,例如记录包执行详细信息、控制事务和处理全局变量。DTS提供一组工具,可以从不同的源将数据抽取、转换和合并到一个或多个目标位置。借助于DTS工具,您可以创建适合于您的组织特定需要的自定义移动解决方案。

 

 

 

数据仓库与ETL

如下图所示,ETL服务于数据仓库,将数据迁移至仓库中。

ETL功能包括:数据抽取、数据传输、数据转换、数据装载、配置维护。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖 瓦的话,那么ETL就是建设大厦的过程。 

E:  Extract ,连接异构数据源平台,提取数据

T:  Transform,过程一般都是批量操作,也是ETL的核心 

L:  Load ,由普通关系库导进数据仓库

ETL正式运行特点:

一是数据同步,按照固定周期运行

二是数据量一般都是巨大的,所以会拆分成E,T,L几个过程

ETL正式运行要求:

  增量与自动定时运行 ,相应的加载策略、更新策略(周期)、汇总策略(替换变化的数据记录,或新增汇总记录)、维护策略。 

 

ETL与DTS关系

为数据仓库提供导入,清洗,装载的系统解决方案的工具叫ETL,DTS是微软提供的实现ETL工具的一个解决方案,通过DTS组件的提供的功能,可定制自己的ETL运行方案。

导入:配置好数据源连接由数据转换任务从数据源提取数据(DTS的数据源Connections 11个,任务(task)19个,工作流(workflow)3个)

清洗:定制好转换规则,在字段级上处理数据

装载:清洗后处理的数据结果,批量存入数据库中

分享到:
评论

相关推荐

    大数据时代-数据仓库基本知识点汇总.pdf

    大数据时代-数据仓库基本知识点汇总 大数据时代,企业面临着海量数据的洪潮,如何将这些数据转换为有价值的信息和知识,已经成为了企业提高核心竞争力的主要瓶颈。数据仓库作为一种主要技术手段,能够将数据转换为...

    3万字38页《数据仓库知识体系》.pdf

    本文档《数据仓库知识体系》详细整理了数据仓库领域几乎所有的知识点,覆盖了数据仓库的多个方面,从发展阶段、数据模型、事实表设计、多维体系结构、规范设计、元数据管理、维度表设计、范式和反范式化、数据仓库...

    南京大学《数据仓库与知识发现》期末考试试卷.pdf

    数据仓库与知识发现是信息技术领域中的重要组成部分,尤其在大数据时代,它们的作用更为显著。数据仓库是企业数据管理的核心,而知识发现则是从海量数据中提取有用信息并转化为可操作的知识的过程。 数据仓库是一个...

    数据仓库基本概念PPT

    学习数据仓库不仅涉及理论知识,还包括实践技能的培养,如使用Brio等数据仓库展现工具建立模型和完成实际项目。通过课程学习,学生将能掌握数据仓库的基本概念、技术和市场趋势,为将来在商业智能领域的工作奠定坚实...

    数据仓库与数据挖掘课程实验

    通过本实验的学习,学生不仅能够掌握数据仓库的基本操作技能,还能够了解数据仓库中数据的处理技术,以及基于数据仓库的自动数据分析技术的基本操作技能。此外,还能熟悉并掌握至少一种专用数据挖掘软件,从而具备...

    数据仓库与数据挖掘-实验报告 数据仓库的设计、实现及多维分析 共14页.pdf

    综上所述,数据仓库与数据挖掘的实验报告涵盖了数据仓库设计的基本原理、实现方法和多维分析技巧,以及关联规则挖掘的Apriori算法,这些都是IT专业人士在处理大数据和进行智能决策时不可或缺的知识点。通过这样的...

    数据仓库教程(陈文伟)

    陈文伟编写的《数据仓库教程》是清华大学出版的一本教材,深入浅出地介绍了数据仓库的基本理论、设计原理以及实际应用。 首先,我们需要理解数据仓库的核心概念。数据仓库不同于传统的在线事务处理(OLTP)系统,后...

    数据仓库与数据挖掘课程设计.docx

    ### 数据仓库与数据挖掘课程设计知识点详解 #### 一、项目背景及提出问题 - **项目背景**: 在当前的大数据时代背景下,无论是哪个行业都需要对商品及其相关环节的数据进行有效的收集与处理。特别是零售行业,通过对...

    数据仓库工具箱完全指南 合集 4 本

    最后,"数据仓库基础"这本书可能是数据仓库领域的入门读物,讲解了数据仓库的基本原理、架构和技术。可能包括OLAP(在线分析处理)、数据集市、数据仓库的层次结构、数据集成以及与数据库管理系统的关系等内容。同时...

    数据仓库与数据分析教程ppt.rar

    通过学习这个教程,读者不仅可以了解数据仓库和数据分析的基本概念,还能掌握实际操作技能,提升在业务场景中解决问题的能力。 在学习过程中,配套的教学资源包可能会包含案例研究、练习题和示例代码,帮助学习者更...

    数据仓库生命周期工具箱:设计、开发、配置数据仓库的专家方法

    根据提供的文件信息,我们可以深入探讨数据仓库生命周期工具箱的关键知识点,包括设计、开发与配置数据仓库的方法论。本书旨在为读者提供一个全面的数据仓库构建指南,涵盖了从项目管理到最终部署的所有步骤。以下是...

    数据仓库生命周期工具箱

    综上所述,《数据仓库生命周期工具箱》不仅是一本理论指南,更是一部实践宝典,它覆盖了数据仓库从概念形成到成熟运行的每一个关键阶段,为读者提供了丰富的知识体系和实战经验,是所有参与数据仓库项目人员不可或缺...

    数据仓库与数据挖掘技术课件-夏火松

    通过学习这个课程,学员不仅可以掌握数据仓库和数据挖掘的基本理论,还能了解到实际操作中的技巧和最佳实践。无论是在学术研究还是在企业应用中,这些知识都能帮助我们更好地理解和利用大数据,从而实现更智能、更...

    数据仓库教程.rar

    在“数据仓库入门经典教程.pdf”中,你可能会学习到关于数据仓库的基本概念,包括数据仓库的架构、ETL过程、数据模型设计以及如何选择合适的数据仓库工具。此外,教程可能还会涵盖数据仓库项目管理、性能优化和安全...

    oracle数据仓库教程

    Oracle数据仓库教程是针对使用Oracle数据库系统构建和管理数据仓库的专业知识体系的深入学习资源。在数据仓库领域,Oracle以其高效、稳定和强大的功能而备受赞誉。本教程旨在帮助学习者掌握如何利用Oracle构建和优化...

    《Hive数据仓库案例教程》教学大纲.pdf

    1. **Hive数据仓库基础**:这一部分主要讲解数据仓库的基本概念,包括数据仓库的特性、数据仓库与数据库的区别,以及Hive数据仓库的原理。学生需要理解Hive架构,以及它在大数据处理中的角色。 2. **Hive环境搭建**...

    数据仓库考证 内部题目

    1. **数据仓库概念**:理解数据仓库的基本定义,包括其与操作型数据库的区别。数据仓库是用于决策支持的集成、非易失性、随时间变化的数据集合。 2. **数据仓库架构**:掌握数据仓库的三层架构(源系统、ETL(提取...

Global site tag (gtag.js) - Google Analytics