`

数据仓库 三

阅读更多

 

数据仓库数据导入:

格式化

获取传统数据库更新数据 1.时间戳  2.增量文件 3.日志文件 4.嵌入代码 5.前后映像

时基变化 数据必须附有时间元素

 

----------------------------------

 

数据模型 information system architecture

 

有三个层次:1.高层建模(ERD实体关系层)

            2.中间层建模(DIS数据项集)

            3.底层建模(物理层)

1.高层建模(ERD实体关系层)

用实体和箭头描述,通过不同视角描绘出的ERD图的总和

 

2.中间层建模(DIS数据项集)

对ERD中的每个实体,都要建立一个中间层模型

1.初始数据组:键码+属性

2.二次数据组

3.连接件

4.数据类型(拓展出来的数据组)

每个数据组都通常表示一张表

 

3.物理模型

是基于中间层建模的结果,创建实际物理存储

3.1节省IO,将经常用到并且很少更新的数据作为冗余存储在表中(摘要描述作为冗余)

3.2按照访问频率拆分数据到不同的表中(银行账户,余额作为单独的表存储)

3.3存储计算结果(每月的消费存储在消费表中,可用于每年消费计算)

3.4数据仓库需要“创造的索引”(为终端用户感兴趣的项目建立一个概要文件,包括最大消费,最不活跃的账户,最近的发货等等)

3.5数据参考完整性,在操作型环境中数据之间的动态连接,在数据仓库中数据量打,数据不更新,数据按时间标示,关系不静态,面向多种业务,需要“人工关系”(初始数据和二次数据的关系),人为添加的

 

------------------------------------------------------------------

 

数据快照

包括:键码,时间,初始数据,二次数据(如销售产品,销售时间,产品信息,销售时股票优惠等信息)

 

-------------------------------------------------------------------

 

元数据记录在数据仓库的位置

程序数据结构

DSS数据结构

源数据

数据加入数据仓库的转换

数据模型

数据模型和数据仓库的关系

抽取数据的历史记录

 

---------------------------------------------------------------------

 

事件触发仓库快照机制

 

----------------------------------------

 

即时策略

1.1(定时计算)使用脱机计算和定期分析进行,将当前数据(关系数据库)和计算好的历史的中间计算结果作为输入,进行脱机计算

1.2(个性化)个性化计算,将数据仓库中的数据,进行个性化分析,对一个ID进行分析(上次购货日期,上次购货项目,市场分类,体验情况),个性化对于销售人员,人事都有意义

1.3(转变需求)信息审核,在贷款时,为了分析用户信用,需要大量历史数据计算偿还历史,私有财产,收入等等;可以提供预核准,预分析程序,计算1.客户识别信息2.核准信贷限制3.特殊的核准限制

 

----------------------------------------

 

 

星型连接

数据最大的作为主表,其他表都跟主表有关联,称为维表

对于DSS系统,星型模型在处理冗余数据,获得管理数据有优势

对于其他系统,在更新操作过多时,管理星型模型缺点太多

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics