`

数据仓库中的维度(原创)

 
阅读更多

维度

维度在数据仓库中主要对事实指标进行过滤和重新组织提供指导。可以将用户对事实的查询结果按照维度指标进行筛选,只允许与维度指标相关的数据返回给用户。维度一般具有如下特性:可以形成一个维度体系,具备访问和过滤事实的能力,能够提供相关的非标准实体,包括一个完整的维度体系编码、关键词以及相关的表示,可以映射到用户所需要信息的列。在物理数据仓库中是较小的表,可以对前台用户的应用程序进行数据填充,或引用红花的数据仓库分析。
维度层级

维度层级用来描述维度的各个层级。根据维度细节程度的不同,划分数据在逻辑上的等级关系,例如,时间维度包括年、季度、月、日等层次,地区维度包括国家、省、市等层次。

维度的构成
维度的元素:维度的取值,即维度中的各个数据元素的取值。例如,地区维度中具体的成员有
英国、法国、德国。见下图


在设计过程中,来自数据源的数值数据字段到底是一个已度量的事实还是一个维度的属性是比较容易混淆的一个问题。一般情况下,在每次抽样时,如果数值数据字段的度量都改变,那么它就是事实,如果它是某种东西的离散值描述,并几乎保持为常数,那么它就是维属性。

维度的操作

1、钻取:通过变换维度的层次,改变粒度的大小。它包括上钻取(Drill up)和向下钻取(Drill down)。向上钻取是将细节数据向上追溯到最高层次的汇总数据。向下钻取是将高层次的汇总数据深入到低层的细节数据中。
2、旋转:通过变换维度的方向,重新安排维的位置,例如行列转换。
3、切片和切块:在一个或者多个维度上选取固定的值,分析其他维度上的度量数据。如果其他维度
剩余两个,则是切片;如果是3个则是切块。

维度的分类
维度主要有4种类型,包括结构维、信息维、分区维和分类维。结构维最为普通,它包含具有层次结构的成员;信息维包含需要计算的属性;分区维用于信息的比较,如计划销售情况和实际销售情况;分类维用于根据维的属性来分组。此外,还有一些结构上比较特殊的维,如退化维和垃圾维等。
结构维
结构维表示在层次结构组成中的信息量度。

下面是一些普通的结构维:客户地理位置维这个维可提供一个根据客户所在地进行归类的层次结构。客户维的典型例子是“customer_city”、“customer_state”和“custmer_country”。这个维通常用于查看不同的地理位置在销售、利润和其他客户度量方面的不同。
时间维可表明事件发生的时间。典型的时间维应该是年、月和日。
销售人员地理位置维这个维可提供一个根据销售人员所在地域进行归类的层次结构。这个维通常用来查看工作在不同地域的销售人员的销售情况和利润等。
产品维出售的产品。这个层次结构可能包括“product_name”、“product_brand”、“product_category”和“product_department”。这个维用来查看不同类别的产品的销售利润和其他指标。
所有这些结构维都包含他们所在层次结构的属性。在结构维中层次是非常重要的,所以要在下面分别进行讨论。

信息维
信息维是计算字段建立的。用户也许想通过销售利润了解所有产品的销售总额。也许希望通过增加销售来获得丰厚的利润。然而,如果某一款商品降价销售,可能会发现销售量虽然很大,而利润却很小或几乎没有利润。从另一方面看,用户可能希望通过提高某种产品的价格获得较大利润。这种产品可能具有较高的利润空间,但销量却可能很低。因此,就利润建立一个维,就销售总量建立一个度量可以提供有用的产品信息。
用户可以对利润进行2种计算。第1种是计算每种商品的平均利润,这一方法很简单,即用销售价格减去销售人员的开销。知道了每种商品的平均利润之后,还可以用它乘以每一天的销售量从而得到每种商品每一天的总利润。
真实世界在实际应用中,也许需要进行很多项这样的计算,因为每一天的销售价格和开销都有很大差异。因此,需要一个包含每天的销售价格和每天开销情况的表。在用户查看的时间段上,每一天的销售价格和每天的开销情况都是有区别的,需要进行合计并求平均。某一天每种商品的利润乘以这一天的销售量等于当天的总利润,选定时间段的利润总和为各天的利润之和。
创建了一个包括每种商品利润和全部利润的维,就有了一个信息维。
分区维生成信息表
以同一结构生成两个或多个维时,要用到分区维。例如,用户可能要创建用于预测销售额和实际销售额的两个维。这两个维的结构相同,只是数值不同。另一个例子是时间维,每一年有相同的季度,相同的月和相同的天(除了闰年以外,而它不影响维)。在OLAP Services中,将频繁使用时间分区维来分割数据仓库中的数据。
例如:为下列结构生成两个同样的维。
the_day
the_month
the_year
一个时间维中的数据是针对1998年的,而另一个时间维中的数据针对1999年的。建立事实表时,可以把度量分割为1998年的数据和1999年的数据,这将带来许多益处。
分类维
分类维是通过对一个维的属性值分组而创建的。如果客户表中有家庭收入属性,那么,可能希望查看客户根据收入的购物方式。为此,可以生成一个含有家庭收入的分类维。
例如:如果有以下家庭每年收入的数据分组:0~20000元、20001~40000元、40001~60 000元、60 001~100 000元和大于100 001元。现在就可以考虑如何度量,例如,从这些分类中的每一个所购买产品的数量上来看他们的收入水平怎样和购买量怎样。另外一个可能的分类是家庭成员的性别和数量。
特殊维类型
特殊的维主要是在结构上区别于常见的维度,主要有退化维、垃圾维、一致维和父子维。

退化维

当维表中的主键在事实表中没有与外键关联时,这样的维称为退化维,退化维的定义是Ralph Kimball提出来的。一般来说事实表中的外键都对应一个维表,维的信息主要存放在维表中;但是退化维仅仅是事实表中的一列,这个维的相关信息都在这一 列中,没有维表与之相关联。退化维与事实表并无关系,但用于一般在企业事件中跨越维之间查询数据时,作为约束,也就是查询限制条件(比如订单号码、出货单编号等),就是常用退化维。以销售分析而言,通常是把出货日期作为事实的时间,而把订单日期或需求日期等作为查询条件,这里,订单日期或需求日期就是退化维。
退化维的作用
1、退化维具有普通维的各种操作,比如:上卷,切片,切块等。
2、如果存在退化维,那么在ETL的过程将会变得容易。
3、它可以让group by等操作变得更快。
垃圾维

针对某企业事件,通常提供了必要的查询值,但是却没有直接映射信息对象产生的维表,这样的字段就是垃圾维。一般来说,如果OLAP系统包含杂乱的标识和文字属性,而且与时间维以外的维表没有关系,就可以使用垃圾维。唯一要注意的是,垃圾维必须是对企业决策潜在限制值非常重要的属性,通常会创建一个维表来存储这些属性。
一致维

在多维体系结构中,没有物理上的数据仓库,由物理上的数据集市组合成逻辑上的数据仓库。而且数据集市的建立是可以逐步完成的,最终组合在一起,成为一个数据仓库。 如果分步建立数据集市的过程出现了问题,数据集市就会变成孤立的集市,不能组合成数据仓库,而一致性维度的提出正式为了解决这个问题。

当有好几个数据集市要合并成一个企业级的数据仓库时,可以使用一致维来集成数据集市以便确定所有的数据集市可以使用每个数据集市的事实。所以,一致维常用于属于企业级的综合性数据仓库,使得数据可以跨越不同的模式来查询。
在同一个集市内,一致性维度的意思是两个维度如果有关系,要么就是完全一样的,要么就是一个维度在数学意义上是另一个维度的子集。例如,如果建立月维度话,月维度的各种描述必须与日期维度中的完全一致,最常用的做法就是在日期维度上建立视图生成月维度。这样月维度就可以是日期维度的子集,在后续钻取等操作时可以保持一致。如果维度表中的数据量较大,出于效率的考虑,应该建立物化视图或者实际的物理表。
这样,维度保持一致后,事实就可以保存在各个数据集市中。虽然在物理上是独立的,但在逻辑上由一致性维度使所有的数据集市是联系在一起,随时可以进行交叉探察等操作,也就组成了数据仓库。
父子维
父子维度基于两个维度表列,这两列一起定义了维度成员中的沿袭关系。一列称为成员键列,标识每个成员;另一列称为父键列,标识每个成员的父代。该信息用于创建父子链接,该链接将在创建后组合到代表单个元数据级别的单个成员层次结构中。
父子维度通俗的话来讲,这个表是自反的,即外键本身就是引用的主键;类似这样的关系,如公司组织结构,分公司是总公司的一部分,部门是分公司的一部分,当然如果定义得好的话员工是部门的一部分;通常公司的组织架构并非处在等层次上的,例如总公司下面的部门看起来就和分公司是一样的层次。因此父子维的层次通常不固定的。因为父子维的复杂的自引用关系,如果按照缓慢维度的全历史记录方式来处理,必然导致逻辑关系混乱,处理起来比较棘手;任何一个组织的变动(修改名称,更改引用,新增等等操作)将会引起其下属节点相应的变动;任何一个意外都会导致整个结构的变化,同时发生意外后所带来的逻辑关系很难理顺。因此建议按照缓慢变化维的覆盖方式解决,即只根据主键这个唯一标志进行判断是否是新增还是修改。

缓慢变化维

在以维度建模的数据仓库中,有一种概念叫做缓慢变化维,Slowly Changing Dimension。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题,有时也简称为处理SCD的问题。
处理的一般方法:
1.直接覆盖历史数据。
如果该维度数据的变化并不是你所关心的,那么可以采用直接覆盖历史数据的方法。比如,员工表中某员工的政治面貌发生变化,你不关心这一点则可以直接覆盖历史数据。
2.保留历史纪录并添加一个标志位。
该方法直接添加新纪录,并将历史纪录的标志位设为Inactive,新纪录标志位设为Active。如果需要还可以附上时间戳,表明旧纪录是何时失效的。

3.利用不同的字段保存不同值。
新加一个历史值字段,一个时间戳字段,一个新值字段。该方法若要保存若干条历史纪录则字段数会很多,不清晰明了。

4.新建一个表来保存历史纪录。
相当于把方法2中Inactive的数据保存于另外一张表中,原表中只保存Active的数据。

5.
常规混合方法

这种模式是以上几种模式的混合体,相对而言此种方法更全面,更能应对错综复杂且易变化的用户需求,也是较为常用的。

此方法有以下几条优点:
1. 能用简单的过滤条件选出维度当前的值。
2. 能较容易的关联出历史任意一时刻事实数据的值。
3. 如果事实表中有一些时间字段(如:Order Date, Shipping Date, Confirmation Date),那么我们很容易选择哪一条维度数据进行关联分析。

6.非常规混合方法。
该方法在方法2的基础上添加一个版本的字段,当前版本值为0,历史版本为1,2,3,4...新数据插入时则版本号都加1. 并且在事实表中,为每条纪录添加一个版本号字段和维度表对应,这样可以解决维度表和事实表的多对多关系而不用使用时间戳作为查询的条件。

 

 

参考至:《商业智能深入浅出 Cognos,Informatica技术与应用》王飞著

                  http://blog.csdn.net/wh62592855/article/details/5642852

                  http://happyhou.blog.sohu.com/207395427.html
                  http://www.douban.com/note/151176578/

                  http://happyhou.blog.sohu.com/207394375.html

                  http://bbs.csdn.net/topics/230033248

                  http://bidwhome.itpub.net/post/20871/156215

本文原创,转载请注明出处、作者
如有错误,欢迎指正
邮箱:czmcj@163.com

2
0
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics