数据仓库系统的设计与开发
建立数据仓库的步骤
1) 收集和分析业务需求
用户需求,管理人员需求。
2) 建立数据模型和数据仓库的物理设计
概念模型,逻辑模型,物理模型
3) 定义数据源
数据源面向应用,不是面向主题,而且数据源之间存在多个不一致的情况,所以必须在已有的系统中定义记录系统(内容正确,在多个数据源间起决定作用的操作型数据源)
4) 选择数据仓库技术和平台
5) 从操作型数据库中抽取,清洗及转换数据到数据仓库。
6) 选择访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件。
7) 更新数据仓库。
数据仓库的生命周期
数据仓库建立思维模式
1) 自顶向下
把oltp数据通过etl汇集到数据仓库中,然后在复制到数据集市中
2) 自底向上
把oltp数据构建到数据集市中,然后通过复制的方式提升到数据仓库中。这种模式构建数据集市的工作相对简单,易成功。这种模式也是实现快速数据传送的原型。
数据仓库的设计步骤
分析组织的业务状况及数据源结构
公司的概况,公司主营业务,主要产品,多少工人。
分析几个主业务,主题业务流程:原材料采购、生产和销售环节等主要流程。
对数据源结构的分析与理解:表设计为几个模块、主要业务表、静态表。分为:个人客户关系,产品数据,原材料数据。
组织需求调研,收集分析需求
采用数据加用户需求的方式。
1) 从上层行政官员可以得到许多惊奇的有关业务操作及其希望从该组织得到的内容。以及数据仓库项目或有关业务的行政职员。有些共性的问题:
成绩怎样得来,怎样确定成败。
分析过程的时间
信息分发的形式
怎样弥补信息的空缺
分析数据需要哪一级的详细程度
业务目标
当前信息源和日常报表需求
主题域
2) 用户需求调研的分析
度量指标
维度
信息包图法设计数据仓库的概念模型
五个组成部分:名称,度量,维度,层次,类别。
确定主题和元数据。
建模:超立方体及信息包图发。
超立方体步骤:
1) 要抓住的业务过程
2) 要捕获的度量值
3) 确定数据的粒度
无直观,且不能超出三维。
信息宝图法:用二维表反映多维特性,并提供了可视化表示。
三重要对象:度量(指标),维度,类别。
eg:
1) 获取各个业务部门对业务员数据的多维特性的分析结果,各个部门对销售额主题,它的维度包含:时间,区域,产品和客户。
2) 对每个维度进行分析,确定维度与类别之间的传递和映射关系,如:时间维有年,季,月和日等级别。而区域分为国家,省州,城市
3) 确定用户需要的度量指标体系,这里以销售情况作为事实依据确定的销售的相关指标包括实际销售额,计划销售额和计划完成率。
有了以上的分析,就可以画出销售分析的信息包图,以销售分析为主题,归纳事实和指标,归纳维度和层次,确定数据的粒度和类别。
维度—> |
信息包图法:销售分析 |
||||
类别 | V |
时间维 |
区域维 |
产品维 |
客户维 |
广告维 |
年度(5) |
国家(10) |
产品类别(500) |
年龄分组(7) |
广告费分组(5) |
|
季度(20) |
省州(100) |
产品名称(9000) |
收入分组(8) |
|
|
月(60) |
城市(500) |
|
信用组(2) |
|
|
日(1800) |
销售点(8000) |
|
|
|
|
度量指标:实际销售额,计划销售额,计划完成率 |
设计概念模型:
信息包图法确定了数据仓库的主题和大部分元数据。
主题:就是在较高的层次上将业务数据进行综合,归类和分析利用的一个抽象概念。每个主题对应一个分析领域,如前面的销售分析就是一个分析领域,也称为一个应用的主题。
主题是根据分析需求确定的。如在一个生产企业中,对于材料的供应,在OLTP中我们关心的是怎样更方便和更快捷地进行材料供应的业务处理。而在分析处理时,我们更关心材料的不同采购渠道和材料供应是否及时,材料质量状况等。
主题域:主题的边界:如前面:供应商,商品,客户和仓库等主图。
利用星型图法设计数据仓库的逻辑模型
五个逻辑实体:详细信息逻辑实体,度量逻辑实体,维度逻辑实体,层次逻辑实体,类别逻辑实体。
其中度量指标实体,维度逻辑实体,类别逻辑实体分别对应信息包图中的三个主要部分。
创建星形图
对应建立的实例为:
确定主题的属性组
例:
主题名 |
公共建 |
属性组 |
商品 |
商品号 |
基本信息:商品号、商品名、类型和颜色等 采购信息:商品号、应商号、供应价、供应日期、供应量 库存信息:商品号、库房号、库存量、日期 |
销售 |
销售单号 |
基本信息:销售单号、销售地址等 销售信息:酷虎好、商品号、销售价、销售量、销售时间 |
客户 |
客户号 |
基本信息:客户号、客户名、性别、年龄、文化程度、住址、电话 经济信息:客户号、年收入、和家庭总收入 |
事实表及其特征
度量是客户发生事件或动作的事实记录,相当于业务表
特征:记录数据很多,因此事实表应当尽量减少一条记录的长度,避免事实表过大。
事实表中除了度量变量外,其它字段都是维表或者是中间表的关键字(外键)
事实表的维度很多,则事实表的字段数也会很多。
逻辑模型示例:
对应地理位置逻辑模型
对应销售员维逻辑模型
数据仓库的物理模型设计
五类表:事实表,详细信息表,维表,层次表,类别表。
需要考虑的因素有I/O存取时间,空间利用率,维护成本。
主要工作:
1) 定义数据标准,规范化数据仓库中的数据。
2) 选择数据库架构(关系数据库的星形模式、多维数据库的CUBE)及具体的数据库管理系统和版本。
3) 根据具体使用的数据库管理系统,将实体和实体特征物理化,具体包括如下内容:
字段设计
物理记录设计
反响规范化
分区
4) 数据容量和使用频率分析,以定义规模,确定数据容量、响应时间要求和更新频率等
5) 物理文件的设计。指针、文件组织、和簇文件
6) 索引的使用与选择
7) RAID
物理存储结构设计原则
1) 不要把经常连接的几张表放在同一个存储设备上,这样可以利用存储设备的并行操作功能加快数据的查询速度。
2) 建议把整个组织共享的细节数据放在一个集中式服务器上,以提高这些共享数据的访问性。
3) 建议把数据库表和索引分放在不同的物理存储设备上,一般可以把索引放在高速的存储设备上,而将表存放在一般存储设备上,以加快数据的查询速度。
4) 建议在系统中使用廉价的沉余磁盘阵列。
数据仓库索引设计特殊性
按照索引使用的频率由高到低添加,知道某一索引加入后,使数据加载或重组表的时间过长时,就结束索引的添加。
存储优化与存储策略
1) 表的归并与簇文件
2) 反向规范,引入沉余
3) 表的物理分割
相关推荐
大数据技术与数据仓库设计开发 大数据技术是指在处理、存储和处理大量数据时所使用的技术,包括数据存储、数据处理、数据分析和数据挖掘等方面。数据仓库是大数据技术的一个重要组成部分,旨在提供一个集中化的存储...
大数据技术 数据仓库设计与开发 数据仓库学习笔记 共54页.pdf 本资源是一个关于大数据技术和数据仓库设计与开发的学习笔记,共54页,涵盖了数据仓库的基本概念、架构设计、开发和实施等方面的知识。下面是对该资源...
大数据技术中的数据仓库设计与开发 大数据技术中的数据仓库设计与开发是指通过将组织中的数据收集、存储、处理和分析,来支持业务决策的过程。数据仓库是大数据技术的核心组件之一,它提供了一个统一的数据视图,...
大数据技术中的数据仓库设计与开发技术 大数据技术中的数据仓库设计与开发技术是指利用数据仓库技术对大量数据进行处理、存储和分析,以便于企业更好地进行数据分析和决策。数据仓库设计与开发技术是大数据技术的...
大数据技术中的数据仓库设计与开发是非常重要的一方面,本文将从oracle数据仓库设计指南的角度,详细讲解数据仓库的设计方法和实现。 数据仓库的概念定义是非常重要的,数据仓库概念规定了数据仓库所具有的几个基本...
数据仓库设计与开发 大数据技术在当今时代扮演着越来越重要的角色,而数据仓库作为大数据技术的一个重要组成部分,发挥着关键性的作用。在本资源中,我们将从数据仓库的组成、特点、发展演变、ETL 软件、存储优化...
大数据技术中的数据仓库设计与开发是企业信息化建设的关键部分。数据仓库技术可以帮助企业集成大量数据,提供实时查询和数据分析功能,支持管理决策。 一、数据仓库简介 数据仓库是一种面向主题的、集成的、相对...
商务智能(BI)课程主要涉及数据仓库设计与开发、大数据处理和数据挖掘等多个核心领域。在数据仓库设计与开发这一章节中,学习者需要掌握的关键知识点包括数据仓库的开发过程、数据模型设计、粒度设计以及数据仓库的...
本报告将详细探讨大数据技术背景下的数据仓库设计与开发,包括其总体设计的各个方面。 1. **背景**: - 待开发的软件系统名称:通常指数据仓库项目的特定命名,它可能根据组织或业务需求而定制。 - 系统的基本...
数据仓库设计与开发是IT行业中一个重要的领域,主要涉及企业数据的管理和分析,为企业决策提供支持。本章主要探讨了数据仓库的开发过程、规划、分析与设计、实施以及所面临的技术挑战。 首先,数据仓库的开发应用...
数据仓库设计与开发是信息化管理领域的一个重要环节,它涉及到数据的组织、处理和分析,以便为企业决策提供支持。在本章中,我们将探讨数据仓库的开发过程、数据模型设计、粒度设计以及构建数据仓库的基本步骤。 ...
在信息技术领域中,数据仓库设计与开发是一个重要的课题,它关系到企业能否有效地进行决策分析和数据挖掘,进而提高决策效率和数据资产的价值。本篇文章将详细解析数据仓库从规划到实施的整个生命周期,包括规划分析...
大数据技术中的数据仓库设计与开发技术是当前非常热门的主题,而ETL(Extract, Transform, Load)构建数据仓库五步法则是其中非常关键的一部分。下面将对ETL构建数据仓库五步法的每一个步骤进行详细的解释,并对其在...
大数据技术 数据仓库设计与开发技术 银行数据仓库方案 本方案旨在为招商银行提供一个完整的数据仓库解决方案,以提高银行的管理能力和竞争力。该方案基于 IBM 的先进技术和经验,旨在帮助银行实现业务系统的现代化...
离线数据仓库设计与开发是大数据领域中的一个重要环节,它主要关注如何构建高效、稳定的数据存储系统,以供分析和决策使用。对于大数据初学者,理解数仓的体系结构和SQL编写步骤至关重要。 数仓技术架构通常包括多...
数据仓库设计与开发过程及案例.zip
大数据技术 数据仓库设计与开发技术 数据仓库:业务维量周期 共6页.pdf