实现ETL过程,一般可以从以下四个方面考虑:
(一)、准备区的运用(ODS)
在构建数据仓库时,如果数据源位于一台服务器上,数据仓库在另一台服务器端,考虑到数据源Server端访问频繁,并且数据量大,需要不断更新,所以可以建立准备区数据库(ODS)。先将数据抽取到准备区中,然后基于准备区中的数据进行处理,这样处理的好处是防止了在原OLTP系统中频繁访问,进行数据运算或聚合等操作。如果系统中存在多种不同类型的数据库系统,ODS可以简化ETL的开发技术。
(二)、时间戳的运用
时间维度对于某一事实主题来说十分重要,因为不同的时间有不同的统计数据信息,那么按照时间记录的信息将发挥很重要的作用。在ETL中,时间戳有其特殊的作用,在上面提到的缓慢变化维度中,我们可以使用时间戳标识维度成员;在记录数据库和数据仓库的操作时,我们也将使用时间戳标识信息。例如:在进行数据抽取时,我们将按照时间戳对OLTP系统中的数据进行抽取,比如在午夜0:00取前一天的数据,我们将按照OLTP系统中的时间戳取GETDATE到GETDATE减一天,这样得到前一天数据。
(三)、日志表的运用
在对数据进行处理时,难免会发生数据处理错误,产生出错信息,那么我们如何获得出错信息并及时修正呢? 方法是我们使用一张或多张Log日志表,将出错信息记录下来,在日志表中我们将记录每次抽取的条数、处理成功的条数、处理失败的条数、处理失败的数据、处理时间等等。这样,当数据发生错误时,我们很容易发现问题所在,然后对出错的数据进行修正或重新处理。
(四)、使用调度
在对数据仓库进行增量更新时必须使用调度,即对事实数据表进行增量更新处理。在使用调度前要考虑到事实数据量,确定需要多长时间更新一次。比如希望按天进行查看,那么我们最好按天进行抽取,如果数据量不大,可以按照月或半年对数据进行更新。如果有缓慢变化维度情况,调度时需要考虑到维度表更新情况,在更新事实数据表之前要先更新维度表。
调度是数据仓库的关键环节,要考虑缜密。在ETL的流程搭建好后,要定期对其运行,所以调度是执行ETL流程的关键步骤。每一次调度除了写入Log日志表的数据处理信息外,还要使用发送Email或报警服务等,这样也方便的技术人员对ETL流程的把握,增强了安全性和数据处理的准确性。
参考http://topic.csdn.net/u/20080318/14/10b3581f-05a0-41e6-a878-e52775c66b73.html
- 浏览: 86240 次
- 性别:
- 来自: 北京
-
最新评论
-
xyc717:
楼主好牛叉啊
oracle 将查询结果中的一列合并为一个字符串(转)
相关推荐
在源码和工具的标签提示下,我们可以推测这篇学习笔记可能涵盖了实现这些更新方法的编程细节,比如使用SQL脚本进行数据抽取,或者利用ETL工具(如Informatica、Talend)自动化整个流程。文档可能还讨论了如何设计和...
标题“20170909学习sql笔记”表明这是一个关于SQL学习的资料,可能包含了一天的学习记录或者一个教程的集合。SQL,全称Structured Query Language,是用于管理和处理关系数据库的标准语言。这个标题暗示我们将探讨...
本篇笔记将深入探讨Spark的核心概念、架构设计以及实际应用,旨在帮助读者全面理解并掌握Spark。 1. Spark概述: Spark最初由加州大学伯克利分校AMPLab开发,其设计理念是提供一个快速、通用且可扩展的大数据处理...
本篇笔记主要围绕 Sqoop 的使用场景、安装步骤以及如何配合 Hive 和 Hbase 使用进行展开。 #### 二、数据传输流程设计 最初的设计方案是通过 Sqoop 将数据从 PostgreSQL 导入到 Kafka,再通过存储程序将 Kafka 的...
### MapReduce与并行数据库系统之争 #### 一、背景介绍 2010年1月,ACM杂志上刊载了两篇关于MapReduce(MR)与并行数据库系统的文章,引起了广泛关注。一篇是由Google的Jeffrey Dean与Sanjay Ghemawat撰写的...
本篇笔记主要探讨如何利用Java调用Kettle API来执行转换(Transformation)和作业(Job),以及如何通过Java代码生成Kettle转换。 首先,理解Kettle的基本概念是必要的。转换是数据清洗、转换和加载过程的逻辑单元...
通过本篇读书笔记,我们不仅了解了 SQL Server 2005 的基础知识,还深入探讨了其新特性和高级功能。对于初学者而言,这些内容将有助于更好地理解和掌握 SQL Server 2005 的使用方法,为进一步的学习和发展打下坚实的...
本篇文章将深入探讨如何将这两个云服务有效地结合起来,实现高效的数据流管理和分析。 Azure DataFactory 是一个托管的云数据集成服务,允许用户创建、调度和管理数据管道。它支持多种数据源和数据消费场景,包括...