一、数据仓库设计的商务分析框架
“拥有数据仓库,商务分析者能够得到什么?”首先,拥有数据仓库可以通过提供相关信息,据此估计性能并作出重要调整,以帮助战胜其他竞争对手,可以提供竞争优势。第二,数据仓库可以提高企业生产力,因为它能够快速、有效的搜集准确描述组织机构的信息。第三,数据仓库有利于客户联系管理,因为它跨越所有商务、所有部门和所有市场,提供了顾客和商品的一致视图。最后,通过一致和可靠的方式长期跟踪趋势、模式和异常,数据仓库可以降低成本。
为设计有效的数据仓库,需要理解和分析商务需求,并构造一个商务分析框架。构建一个大型复杂的信息系统就像构造一个大型复杂的建筑,业主、设计师和建筑商都有不同的视图。这些视图结合在一起,形成一个复杂的框架,代表自顶向下、商务驱动的或业主的视图,也代表自底向上、建筑商驱动的或信息系统实现者的视图。
关于数据仓库的设计,必须考虑四种不同的视图:自顶向下视图、数据源视图、数据仓库视图和商务查询视图。
- 自顶向下视图:使得我们可以选择数据仓库所需的相关信息。这些信息能够满足当前和未来的商务需求。(业务建模)
- 数据源视图:揭示被操作数据库系统收集、存储和管理的信息。这些信息可能以不同的详细程度和精度记录,存放在个别数据源表或集成的数据源表中。(ODS层)
- 数据仓库视图:包括事实表和维表。他们提供存放在数据仓库内的信息,包括预算的总和与计算,以及提供历史背景的关于源、日期和时间等信息。(企业级数据仓库)
- 商务查询视图:是从最终用户的角度透视数据仓库中的数据。
建立和使用数据仓库是一项复杂的任务,因为他需要商务技巧、技术技巧和计划管理技巧。关于商务技巧,建立数据仓库涉及到理解这样的系统如何存储和管理他们的数据;如果构造一个提取程序,将数据由操作数据库转换到数据仓库;如果构造一个仓库刷新软件,合理的保持数据仓库中的数据相对于操作数据库中数据的当前性。使用数据仓库涉及理解它所包含的数据的含义,以及理解商务需求并将它转换成数据仓库查询。
关于技术技巧,数据分析者需要理解如何由定量信息做出估价,以及如何根据数据仓库中的历史信息得到的结论推到事实。这些技巧包括发现模式和趋势,根据历史推断趋势和发现异常或模式漂移的能力,并根据这种分析提出条理清晰的管理建议。最后,计划管理技巧涉及需要与许多技术人员、经销商和最终用户沟通,以便以及时和讲求效益的方式提交结果。
二、数据仓库的设计过程
数据仓库可以使用自顶向下方法、自底向上方法,或二者结合的混合方法设计。自顶向下方法由总体设计和规划开始。当技术成熟并且已经掌握,对必须解决的商务问题清楚并且已经很好的理解时,这种方法是有用的。自底向上方法以实验和原型开始。在商务建模和技术开发的早期阶段,这种方法是有用的。这样可以以相当低的代价推进,在作出重要承诺之前评估技术带来的利益。在混合方法下,一个组织既能利用自顶向下方法的规划性和战略性的特点,又能保持像自底向上方法一样开速实现和立刻应用。
从软件工程的角度来看,数据仓库的设计和构造包含以下步骤:规划、需求研究、问题分析、仓库设计、数据集成和测试,最后,部署数据仓库。大型软件系统可以用两种方法开发:瀑布式方法和螺旋式方法。瀑布式方法在进行下一步之前,每一步都进行结构的和系统的分析,就像瀑布一样,从一级落到下一级。螺旋式方法涉及功能渐增的系统的快速产生,相继发布之间的间隔很短,能够快速修改,并且新的设计和技术可以及时接受。
一般而言,数据仓库的设计过程包含如下步骤:
- 选取待建模的商务处理。如果一个商务过程是整个组织的,并涉及多个复杂的对象,应当选用数据仓库模型。然而,如果处理是部门的,并关注某一类商务处理的分析,则应选择数据集市。
- 选取商务处理的粒度。对于处理,该粒度是基本的,在事实表中是数据的原子级。
- 选取用于每个事实表记录的维。典型的维是时间、商品、顾客、供应商、仓库、事务类型和状态。
- 选取将安放在每个事实表记录中的度量。典型的度量是可加的数据量。
由于数据仓库的构造是一项困难、长期的任务,因此应当清楚的定义它的实现范围。最初的数据仓库的实现目标应当是详细而明确的、可实现的和可测量的。这涉及确定时间和预算的分配,一个组织的那些子集需要建模,选取的数据源数量,提供服务的部门数量和类型。
一旦设计和构造好数据仓库,数据仓库的最初部署就包括初始化安装、首次展示规划、培训和熟悉情况。平台的升级和维护也要考虑。数据仓库管理包括数据刷新、数据源同步、规划灾难恢复、管理存取控制和安全、管理数据增长、管理数据库性能以及数据仓库的增强和扩充。范围管理包括控制查询、维、报告的数量和范围,限制数据仓库的大小,或限制进度、预算和资源。
各种数据仓库设计工具都可以使用。数据仓库开发工具提供一些功能,定义和编辑元数据库内容,回答查询,输出报告,向或从关系数据库目录传送元数据。规划与分析工具研究模式改变的影响,以及当刷新率或时间窗口改变时对刷新性能的影响。
三、数据仓库用于信息处理
通常数据仓库使用的时间越长,它进化的就越好。进化发生在整个过程的多个阶段。最初,数据仓库主要用于产生报告和回答预先定义的查询。渐渐地,它用于分析汇总和详细数据,结果以报表和图表形式提供。稍后,数据仓库用于决策,进行多维分析和复杂的切片以及切块操作。最后,使用数据挖掘工具,数据仓库可恩呢刚用于知识发现战略决策制定。这种意义下,数据仓库工具可以分为访问与检索工具,数据库报表工具,数据分析工具和数据挖掘工具。
企业用户需要一种手段,知道数据仓库里有什么(通过元数据),如果访问数据仓库的内容,如何使用数据分析工具考察这些内容和如何提供分析结果。
有三类数据仓库应用:信息处理、分析处理和数据挖掘。
- 信息处理:支持查询和基本的统计分析,并使用交叉表、表、图表或图进行报告。数据仓库信息处理的当前趋势是构造低价格的基于Web的访问工具,然后与Web浏览器集成在一起。
- 分析处理:支持基本的OLAP操作,包括切片和砌块、下钻、上卷和转轴。一般的,他在汇总的和细节的历史数据上操作。与信息处理相比,联机分析处理的主要优势是它支持数据仓库的多维数据分析。
- 数据挖掘:支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并使用可视化工具提供挖掘结果。
相关推荐
推荐,数据仓库建设学习资料合集,包含建设规范、架构、工具及模型等资料。共38份。 2021数据仓库服务常见问题-华为-51页 2021云数据仓库专业服务-华为-168页 阿里云数据中台-金融行业新一代数据仓库解决方案 ...
主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。...
维度建模是指根据业务需求,定义和设计数据仓库的维度模型的过程。维度模型是数据仓库的核心部分,它定义了数据仓库的结构和内容。 在阿里集团数据研发体系中,维度建模主要包括以下几个步骤: 1. 业务需求分析:...
1. 数据仓库建设的目的:在大数据环境下建设数据仓库的目的主要在于隔离底层业务变动对上层需求的影响,简化复杂业务逻辑,使业务数据结构清晰、简单,并便于业务人员使用。此外,数据仓库能够追溯数据来源和去向,...
综上所述,XX银行数据仓库建设项目方案详细阐述了系统的总体架构设计和ETL体系建设,涵盖了从架构设计到具体实施的各个环节,旨在构建一个稳定可靠、高效灵活的数据仓库系统,以支持银行的业务决策和发展需求。
本方案深入探讨了数据仓库的整体架构设计、数据挖掘与清洗转换的实施方法,并涉及了相关工具和技术的使用。 数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用以支持...
数据仓库模型设计(91页).ppt 数据仓库建设项目实施方案建议书.doc 数据仓库技术介绍(99页).pdf 数仓建模指标体系解析.docx 数据仓库建设规范模板.docx 数据仓库技术架构及方案(60页).pptx 数据仓库模板-指标体系...
XX数据仓库建设规范 版本号V1.0 修订历史 版本号 作者 内容提要 核准人 发布日期 1.0 初稿 1 概述 本文档制定了XX数据仓库中数据库对象的命名规范(用户、表、 视图、存储过程、函数、表分区、主键、索引、序列等)...
全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、...
第3章 设计数据仓库 45 3.1 从操作型数据开始 45 3.2 数据/过程模型和体系结构设计环境 49 3.3 数据仓库和数据模型 50 3.3.1 数据模型 52 3.3.2 中间层数据模型 54 3.3.3 物理数据模型 58 3.4 数据模型和反复开发 59...
在探讨理想汽车基于Flink的实时数据仓库0-1初步建设过程中,可以从以下几个关键知识点进行深入分析: 1. Flink技术背景:Apache Flink是一个开源的流处理框架,用于对无界和有界数据流进行状态计算。Flink能够提供...
数据仓库是信息技术领域中的一个重要概念,它是一种特殊设计的数据库系统,主要用于数据分析和报告,而不是日常业务操作。数据仓库的主要目标是从多个不同的源系统中整合数据,并为决策制定者提供一致、准确且易于...
没有模型设计,建设数据仓库就无法实现,正如没有建筑设计就无法建造出一栋大厦。 国内数据仓库常见的失败原因可能包括缺乏清晰的模型设计、忽视数据质量管理、技术和业务需求不匹配、项目管理不善等。因此,在数据...
Oracle数据仓库设计指南是这个领域的权威参考资料,它为数据仓库的建设和优化提供了深入的指导。Oracle作为全球领先的数据库管理系统供应商,其在数据仓库解决方案上拥有丰富的经验和强大的技术支撑。 在数据仓库...
### 数据治理与数据仓库模型建设 #### 数据治理概述 数据治理是一种组织管理和监督数据资源的过程,旨在确保数据的准确性和一致性。它不仅涉及到技术层面,还包括政策、程序、角色分配等多个方面。良好的数据治理...
该文档详细探讨了数据仓库的设计与应用,并针对数据质量、数据源选择、数据集之间的关系以及数据所有者及其限制等问题提供了宝贵的见解。 #### 一、项目背景与合作框架 - **项目名称**:马萨诸塞州交通安全数据...
数据仓库概述 数据仓库是企业级数据管理的重要组成部分,用于指导数据仓库模型管理、任务管理、命名规范,维护和管理企业级数据仓库。京东集团数据仓库是按照《数据仓库参考手册》的标准建立的,旨在保证数据仓库的...
### 数据仓库与数据挖掘实验报告知识点汇总 #### 第1章 数据仓库和数据挖掘简介 **1.1 数据简介** 在本部分中,作者简要介绍了所使用的数据集来源及其特点。该实验涉及到两个数据集: - **超市交易数据集**:...
58交易营销数据仓库建设 Hadoop构建数据仓库实践 IBM Netezza数据仓库一体机介绍 IBM数据仓库架构 oracle数据仓库 SaaS 云数据仓库实践手册 构建真正实用且可信的数据仓库 基于数据仓库的数据挖掘技术 金融行业新...
以下是建设数据仓库的八个核心步骤的详细解释: 1. **系统分析与主题确定**:此阶段主要是与业务部门进行深入交流,了解业务需求,明确数据仓库要解决的问题,确定查询和分析的需求。这包括对问题的分类、数据保留...