数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用:
从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。
数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。
下面主要简单介绍下数据仓库架构中的各个模块,当然这里所介绍的数据仓库主要是指网站数据仓库。
数据仓库的数据来源
对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,对于分析网站Outcome这类数据更加精准;其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。
数据仓库的数据存储
源数据通过ETL的日常任务调度导出,并经过转换后以特性的形式存入数据仓库。其实这个过程一直有很大的争议,就是到底数据仓库需不需要储存细节数据,一方的观点是数据仓库面向分析,所以只要存储特定需求的多维分析模型;另一方的观点是数据仓库先要建立和维护细节数据,再根据需求聚合和处理细节数据生成特定的分析模型。我比较偏向后面一个观点:数据仓库并不需要储存所有的原始数据,但数据仓库需要储存细节数据,并且导入的数据必须经过整理和转换使其面向主题。简单地解释下:
(1).为什么不需要所有原始数据?数据仓库面向分析处理,但是某些源数据对于分析而言没有价值或者其可能产生的价值远低于储存这些数据所需要的数据仓库的实现和性能上的成本。比如我们知道用户的省份、城市足够,至于用户究竟住哪里可能只是物流商关心的事,或者用户在博客的评论内容可能只是文本挖掘会有需要,但将这些冗长的评论文本存在数据仓库就得不偿失;
(2).为什么要存细节数据?细节数据是必需的,数据仓库的分析需求会时刻变化,而有了细节数据就可以做到以不变应万变,但如果我们只存储根据某些需求搭建起来的数据模型,那么显然对于频繁变动的需求会手足无措;
(3).为什么要面向主题?面向主题是数据仓库的第一特性,主要是指合理地组织数据以方面实现分析。对于源数据而言,其数据组织形式是多样的,像点击流的数据格式是未经优化的,前台数据库的数据是基于OLTP操作组织优化的,这些可能都不适合分析,而整理成面向主题的组织形式才是真正地利于分析的,比如将点击流日志整理成页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,这样可以明显提升分析的效率。
数据仓库基于维护细节数据的基础上在对数据进行处理,使其真正地能够应用于分析。主要包括三个方面:
数据的聚合
这里的聚合数据指的是基于特定需求的简单聚合(基于多维数据的聚合体现在多维数据模型中),简单聚合可以是网站的总Pageviews、Visits、Unique Visitors等汇总数据,也可以是Avg. time on page、Avg. time on site等平均数据,这些数据可以直接地展示于报表上。
多维数据模型
多维数据模型提供了多角度多层次的分析应用,比如基于时间维、地域维等构建的销售星形模型、雪花模型,可以实现在各时间维度和地域维度的交叉查询,以及基于时间维和地域维的细分。所以多维数据模型的应用一般都是基于联机分析处理(Online Analytical Process, OLAP)的,而面向特定需求群体的数据集市也会基于多维数据模型进行构建。
业务模型
这里的业务模型指的是基于某些数据分析和决策支持而建立起来的数据模型,比如我之前介绍过的用户评价模型、关联推荐模型、RFM分析模型等,或者是决策支持的线性规划模型、库存模型等;同时,数据挖掘中前期数据的处理也可以在这里完成。
数据仓库的数据应用
数据仓库的价值
数据仓库的4个基本特征:面向主题的、集成的、相对稳定的、记录历史的,而数据仓库的价值正是基于这4个特征体现的:
1、高效的数据组织形式
面向主题的特性决定了数据仓库拥有业务数据库所无法拥有的高效的数据组织形式,更加完整的数据体系,清晰的数据分类和分层机制。因为所有数据在进入数据仓库之前都经过清洗和过滤,使原始数据不再杂乱无章,基于优化查询的组织形式,有效提高数据获取、统计和分析的效率。
2、时间价值
数据仓库的构建将大大缩短获取信息的时间,数据仓库作为数据的集合,所有的信息都可以从数据仓库直接获取,数据仓库的最大优势在于一旦底层从各类数据源到数据仓库的ETL流程构建成型,那么每天就会有来自各方面的信息通过自动任务调度的形式流入数据仓库,从而使一切基于这些底层信息的数据获取的效率达到迅速提升。
从应用来看,使用数据仓库可以大大提高数据的查询效率,尤其对于海量数据的关联查询和复杂查询,所以数据仓库有利于实现复杂的统计需求,提高数据统计的效率。
3、集成价值
数据仓库是所有数据的集合,包括日志信息、数据库数据、文本数据、外部数据等都集成在数据仓库中,对于应用来说,实现各种不同数据的关联并使多维分析更加方便,为从多角度多层次地数据分析和决策制定提供的可能。
4、历史数据
记历史是数据仓库的特性之一,数据仓库能够还原历史时间点上的产品状态、用户状态、用户行为等,以便于能更好的回溯历史,分析历史,跟踪用户的历史行为,更好地比较历史和总结历史,同时根据历史预测未来。
数据仓库的价值远不止这样,而且其价值真正的体现是在数据仓库的数据应用上。图中罗列的几种应用并未包含所有,其实一切基于数据相关的扩展性应用都可以基于数据仓库来实现。
报表展示
报表几乎是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,提供了最为简单和直观的数据。
即席查询
理论上数据仓库的所有数据(包括细节数据、聚合数据、多维数据和分析数据)都应该开放即席查询,即席查询提供了足够灵活的数据获取方式,用户可以根据自己的需要查询获取数据,并提供导出到Excel等外部文件的功能。
数据分析
数据分析大部分可以基于构建的业务模型展开,当然也可以使用聚合的数据进行趋势分析、比较分析、相关分析等,而多维数据模型提供了多维分析的数据基础;同时从细节数据中获取一些样本数据进行特定的分析也是较为常见的一种途径。
数据挖掘
数据挖掘用一些高级的算法可以让数据展现出各种令人惊讶的结果。数据挖掘可以基于数据仓库中已经构建起来的业务模型展开,但大多数时候数据挖掘会直接从细节数据上入手,而数据仓库为挖掘工具诸如SAS、SPSS等提供数据接口。
元数据管理
元数据(Meta Date),其实应该叫做解释性数据,即数据的数据。主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。
最后做个Ending,数据仓库本身既不生产数据也不消费数据,只是作为一个中间平台集成化地存储数据;数据仓库实现的难度在于整体架构的构建及ETL的设计,这也是日常管理维护中的重头;而数据仓库的真正价值体现在于基于其的数据应用上,如果没有有效的数据应用也就失去了构建数据仓库的意义。
本文转载自:http://webdataanalysis.net/web-data-warehouse/data-warehouse-frame/
相关推荐
本实践指南将深入探讨如何利用Hadoop来构建高效的数据仓库系统,以此来提升数据分析的效率和准确性。作者王雪迎通过实际案例,将这一过程分解为可操作的步骤,帮助读者理解和掌握这一技术。 首先,我们要理解Hadoop...
### 11步成功建立数据仓库 随着信息技术的飞速发展与企业对于数据价值认知的提升,越来越多的企业开始意识到构建高效、稳定的数据仓库系统对于推动业务增长、优化决策流程及提高竞争力的重要性。本文将根据提供的...
### ETL构建数据仓库 #### 一、ETL的概念及其重要性 ETL(Extract-Transform-Load)是数据抽取(Extract)、转换(Transform)、加载(Load)的简称,是构建数据仓库过程中不可或缺的关键环节。它负责从各种来源的...
在构建数据仓库的过程中,SQL Server 2005 提供了一系列强大的工具和技术,使得数据的获取、处理和分析变得更加高效。数据仓库是一个专门设计用于数据分析和报告的系统,它从多个源头整合数据,并以结构化的形式存储...
以下八条建立数据仓库的基本准则可以帮助企业在构建数据仓库时避免常见问题,提升项目成功率。 1. **从小处着手**:初始阶段,不要追求大规模的企业级数据仓库,而是应选择一个特定的部门或业务线作为起点,构建...
大数据技术中的ETL构建数据仓库五步法 大数据技术中的数据仓库设计与开发技术是...ETL构建数据仓库五步法是大数据技术中的一个非常重要的技术,它可以帮助企业建立一个高效的数据仓库,提高数据分析和商业智能的能力。
### 建立数据仓库:理解比尔·恩门的理念 #### 1. 决策支持系统的演变历程 ##### 1.1 不成熟的信息系统领域 - **背景介绍**:“不成熟”一词在此文中指的是信息系统领域相较于其他历史悠久的技术领域来说,起步较...
在IT行业的数据库领域,"运行PD建立数据仓库模型"这一主题深入探讨了如何利用PowerDesigner Warehouse Architect这款强大的工具来设计和构建数据仓库模型。本文将根据给定的标题、描述、标签以及部分内容,详细阐述...
1. ROLAP在关系数据库上建立数据仓库,利用二维关系表来表达多维数据模型。这种方法允许银行利用已有的关系数据库技术,但可能面临性能挑战,因为查询需要在多个表之间进行连接,可能导致效率低下。 2. MOLAP则直接...
为了建立数据仓库,采用了原型法来开发数据仓库,即从构建系统简单而基础的框架着手,逐步丰富和完善整个系统。数据仓库设计步骤具体包括概念模型设计、逻辑模型设计和物理模型设计。概念模型设计时,选择2005至2008...
本文将详细介绍《11步成功建立数据仓库》中提到的关键步骤,帮助读者更好地理解如何有效地构建一个数据仓库系统。 #### 1. 认识到任务可能比预期更难 - **背景分析**:根据专家的经验,一般数据库中的信息有30%到...
构建可靠的数据仓库 模板-数据仓库整体设计方案 企业大数据平台数仓架构建设思路 商业银行数据仓库系统V2.0 数据仓库-数据集市-BI-数据分析 数据仓库工具箱 维度建模权威指南(第3版) 数据仓库技术架构及方案 数据...
为什么要建立数据仓库 数据仓库建模与ETL实践技巧 ETL构建数据仓库五步法 标准的数据仓库建模应用之维度 对数据仓库进行数据建模 关键绩效指标:KPI的开发、实施和应用 基于多维数据库的MOLAP存储及查询技术研究 ...
### 和用PowerDesigner建立数据仓库多维模型的研究 #### 摘要与关键词解析 本文主要探讨了如何使用PowerDesigner工具来构建数据仓库中的多维模型,并对其在“学生成绩分析”系统中的具体应用进行了深入分析。...
阿里云构建数据仓库是一个复杂而全面的过程,涉及到多个关键技术和服务,旨在为企业提供高效、安全且可扩展的数据存储和分析能力。本资料包“07-基于阿里云构建数据仓库”可能涵盖以下关键知识点: 1. **MaxCompute...
基于Hadoop平台构建数据仓库关键技术的研究.