对于数据仓库中的数据,我们一般理解都是记录历史变化的。他的定义中也明确提到这一点,所以数据仓库中的事实表一般都有时间或时间戳字段来支持记录的历史变化,而且不光是事实表,维表也要体现历史变化,其中,代理键就起了一定的作用。但是对于ODS层表,他记录的是最近时间的原子数据,忽略了一些历史信息。
ODS层表的数据形态按反应历史变化情况可以分成两种,一种是快照型的,一种是事件型的。
系统中存在一种数据,如果用ER图表示的话,他们多是被别的数据参照,这种数据不知有没有固定的叫法,这里姑且叫做“主数据”。顾名思义,这些数据是很重要的,是系统的核心数据,被引用的越多越重要。例如产品数据、客户数据,以及一系列的代码数据,都属于主数据。而主数据在ODS层中的存储一般都是选择快照型的形态存储。快照型数据反应的是最近一点时刻,主数据的状态信息,例如客户的状态,客户的信用度等,他们都通过update操作将前次状态或信用度都更新掉了。而另一种数据形态,事件型数据,记录是事件的发生,例如记录一次通话,记录一次开帐等,日志表也属于这种形态,它反应的是对数据的历史操作。这两种形态的数据一个较大的区别就是前者会不断被更新,而后者一般不会做更新操作。
理解这两种数据形态对于数据抽取有一些帮助。因此在数据仓库日常的ETL工作中,不可能总是处理全量数据,那个量就太大了,必须寻找增量。这里的增量不是指增加的数据量,还包括修改的和删除的数据。增量的支持对数据源系统是一个很大的考验,对于快照型数据,数据源在实时变化,如何捕捉一个时间段内所有发生变化的数据?一种方法是加入时间戳,所有插入、更新操作都能反应到时间戳,通过选取时间戳在某个时间周期内,就可以得到该周期内的增量数据。但是这种方式没法得到删除的数据(不过一般而言,对于主数据的删除都是很少发生,因为有别的数据在引用它,多数采取删除标记的做法)。还有一种方式得到快照型数据增量,通过数据变更日志,因为每条日志反应的是记录的变化,一个时间周期内出现在日志中的主数据,就是该周期的增量。这种方式还能处理删除数据,但是到了ODS 层,通常也不建议删除任何数据。
通过这两种方式获取快照型数据增量都有一些问题。主要是数据源的支持程度,例如是否有时间戳字段?日志是否记录每种主数据变化?有些系统的答案是否。例如数据源的用户表、客户表就很少有时间戳,而对日志,很可能不能反应所有数据状态变化,以前遇到过一种情况,系统有用户开机日志,停机日志,但这些日志是属于营业模块的,而当另一个信用监控模块对用户作出欠费停机处理后,日志中就没有。如果数据源对这两种方式的增量抽取支持都不够的话,可就得想一些办法了,“ 宁杀一千,不放一个”。一边是全量处理的性能矛盾,一边是增量支持不力的矛盾,需要一种平衡。比如对于用户增量数据,在用户表中有一系列时间字段,如开户时间、开机时间、停机时间、销户时间等,通过这些时间的判断,也能得出一种增量,只不过略显麻烦,而且也不能保证数据源对这些时间的维护是一致的。
对于事件型数据,处理增量相对直观一些,因为这种数据一般都有时间字段或时间戳。但是增量抽取同样存在一些问题。主要是对历史数据的修改,严格意义上,事件发生了,既成事实,不要在修改这些数据,要修改也只是另外一次事件了。但是数据源存在这种现象去修改历史记录,甚至还有手工修改的,根本无法通过时间信息来获取增量。例如话单重批和帐务调账等操作很多都是修改历史数据。面对这种情况,有时就得作出选择,忽略这些数据变化。
摘自 http://happysboy.bokee.com/100204.html
分享到:
相关推荐
### 数据仓库基础知识点详解 #### 一、决策支持系统(DSS)的发展历程 数据仓库的概念与决策支持系统的演进紧密相连。理解决策支持系统的发展背景对于深入掌握数据仓库的基本概念至关重要。 **1.1 信息处理领域的...
数据仓库的概念及其在现代数据分析中的核心地位,并非一蹴而就的创新,而是信息技术领域数十年演化与革新的结果。从20世纪60年代初至今,数据处理技术经历了从简单报表生成到高度集成的数据分析平台的转变,这一过程...
本文将从 HashData 数据仓库的架构设计、元数据服务、计算集群、存储层等方面进行详细介绍,并分享了 HashData 在大数据云平台中的应用经验和成果。 一、HashData 数据仓库架构设计 HashData 数据仓库架构设计的...
在数据仓库和数据挖掘的背景下,关联规则的形态通常表现为一种“如果-那么”(XÞY)的结构,其中X代表规则的前提条件,Y代表结果。这种规则的设定帮助我们洞察数据项间可能存在的关联性,进而挖掘出潜在的模式或...
数据仓库、数据湖、数据平台和数据中台都是企业数据管理的重要组成部分,它们各自有着不同的特点和应用场景。 数据仓库(Data Warehouse)是一个专门设计用于支持决策制定的系统,它汇集了来自不同业务系统的结构化...
数据仓库与数据挖掘是信息技术领域的核心概念,它们在企业决策支持和数据分析中起着至关重要的作用。本篇文章将深入解析这些知识点。 首先,数据仓库是一个专门设计用于支持决策制定的系统,它集成了来自多个来源的...
然而,在传统的企业运营中,操作型系统(OLTP)主要承担着处理日常事务的任务,如订单管理、库存控制等,它们无法有效地提供综合性的战略信息,这使得企业不得不寻求更高级的信息系统——数据仓库。 数据仓库,...
随着大数据和云计算技术的发展,数据仓库正向云数据仓库、湖仓一体等新形态转变。同时,面对数据量的爆炸性增长和数据种类的多样化,如何有效管理、处理和分析这些数据成为新的挑战。例如,如何处理半结构化和非结构...
数据仓库讲求以语义一致的同一种语言实施数据存储,它以物理形态来实现决策支持数据模型,并且还能存储有关于企业战略决策的一切信息。 数据采集也被称为数据挖掘,可以从带有噪声、含混且随机的海量实际应用数据中...
最后,数据仓库系统的体系结构有多种形态,如两层架构、独立型数据集市和依赖型数据集市等,这些架构设计影响着数据的组织、性能和扩展性。 总之,数据仓库是支持企业决策的关键基础设施,通过集成和优化数据,结合...
总结来说,湖仓一体是数据仓库和数据湖在大数据时代背景下相互借鉴、融合发展的新形态,旨在提供更强大、更灵活的数据管理平台。通过结合数据湖的开放性和数据仓库的规范性,企业可以更好地挖掘数据价值,提升业务...
其次解析了数据仓库的分层逻辑,尤其是操作型数据库、ODS(数据准备层)、数据集市及应用展示层的作用与特性,其中特别提及ODS系统的两种形态——缓冲区和信息视图区,前者着重于原始数据采集与暂存,后者专注于提供...
为了得到更精确的边界,可能会进行【图像腐蚀】和【膨胀】操作,这两步属于形态学处理,能增强图像边界,去除噪声,为后续的矢量化提供基础。然后,通过细化算法保持图形的连通性和拓扑关系,确保图形的基本特征不被...
《BI数据仓库需求文档》是IT领域中关于构建企业数据仓库的重要参考资料,主要涉及数据仓库的设计、规划和实施。这份文档旨在为业务智能(BI)系统提供全面、准确的数据支持,以便进行有效的数据分析和决策制定。以下...
数据湖不仅对传统数据仓库进行了补充,更是一种先进的企业数据中台方案。 基于数据湖的数据中台架构主要包括三个部分: 1. OneData:统一数据存储(主数据、数据主题、数据集市) 2. OneID:数据目录元数据账号...
在当今企业信息化管理中,数据库和数据仓库技术是核心的组成部分。《管理信息系统》第六章深入探讨了这些技术,提供了全面的理论知识和实践指导。本章重点介绍了两种企业数据处理的主要方式:联机事务处理(OLTP)和...
数据中台作为核心,负责全局数据仓库规划、数据建模和数据运维监控,确保数据的规范和安全。数据前台则将数据服务高效地应用于多个业务线,满足个性化需求。 业务中台的构建还包括基础设施服务(IAAS)和基础服务层...
《分布式数据库实践:GBase 8a MPP逻辑数据仓库在行业数字化转型中的作用》 在当前数字化转型的大潮中,分布式数据库系统扮演着至关重要的角色。GBase 8a MPP(大规模并行处理)逻辑数据仓库是其中的一个杰出代表,...
业务元数据从业务角度描述了数据仓库中的数据,提供了介于使用者和实际系统之间的语义层,使业务人员能够“读懂”数据仓库中的数据。 元数据管理可以实现业务模型与数据模型的映射,帮助用户理解数据仓库中的数据;...
在南京建筑轮廓数据集中,.dbf 文件扮演着数据属性仓库的角色。每一个建筑物的特征信息,包括名称、高度、用途及建成时间等,都可以在这个文件中找到对应的记录。这些属性数据与.shp 文件中记录的几何信息相互配合,...