`

ETL学习笔记之二 实现篇(转)

    博客分类:
  • ETL
ETL 
阅读更多

实现ETL过程,一般可以从以下四个方面考虑: 

(一)、准备区的运用(ODS) 

在构建数据仓库时,如果数据源位于一台服务器上,数据仓库在另一台服务器端,考虑到数据源Server端访问频繁,并且数据量大,需要不断更新,所以可以建立准备区数据库(ODS)。先将数据抽取到准备区中,然后基于准备区中的数据进行处理,这样处理的好处是防止了在原OLTP系统中频繁访问,进行数据运算或聚合等操作。如果系统中存在多种不同类型的数据库系统,ODS可以简化ETL的开发技术。 

(二)、时间戳的运用 

时间维度对于某一事实主题来说十分重要,因为不同的时间有不同的统计数据信息,那么按照时间记录的信息将发挥很重要的作用。在ETL中,时间戳有其特殊的作用,在上面提到的缓慢变化维度中,我们可以使用时间戳标识维度成员;在记录数据库和数据仓库的操作时,我们也将使用时间戳标识信息。例如:在进行数据抽取时,我们将按照时间戳对OLTP系统中的数据进行抽取,比如在午夜0:00取前一天的数据,我们将按照OLTP系统中的时间戳取GETDATE到GETDATE减一天,这样得到前一天数据。 

(三)、日志表的运用 

在对数据进行处理时,难免会发生数据处理错误,产生出错信息,那么我们如何获得出错信息并及时修正呢? 方法是我们使用一张或多张Log日志表,将出错信息记录下来,在日志表中我们将记录每次抽取的条数、处理成功的条数、处理失败的条数、处理失败的数据、处理时间等等。这样,当数据发生错误时,我们很容易发现问题所在,然后对出错的数据进行修正或重新处理。 

(四)、使用调度 

在对数据仓库进行增量更新时必须使用调度,即对事实数据表进行增量更新处理。在使用调度前要考虑到事实数据量,确定需要多长时间更新一次。比如希望按天进行查看,那么我们最好按天进行抽取,如果数据量不大,可以按照月或半年对数据进行更新。如果有缓慢变化维度情况,调度时需要考虑到维度表更新情况,在更新事实数据表之前要先更新维度表。 

调度是数据仓库的关键环节,要考虑缜密。在ETL的流程搭建好后,要定期对其运行,所以调度是执行ETL流程的关键步骤。每一次调度除了写入Log日志表的数据处理信息外,还要使用发送Email或报警服务等,这样也方便的技术人员对ETL流程的把握,增强了安全性和数据处理的准确性。 

参考http://topic.csdn.net/u/20080318/14/10b3581f-05a0-41e6-a878-e52775c66b73.html

分享到:
评论

相关推荐

    ETL学习笔记8.1

    【ETL学习笔记8.1】 - Informatica PowerCenter8.1 安装与配置详解 ETL(Extract, Transform, Load)是数据仓库和大数据处理中的关键过程,用于从不同源系统抽取数据,经过清洗和转换,最终加载到目标系统。...

    ETL学习笔记之Kettle下载与部署与使用

    ### ETL学习笔记之Kettle下载与部署与使用 #### 一、Kettle概念与应用场景 Kettle是一款功能强大的开源ETL(Extract-Transform-Load)工具,它使用纯Java编写,因此可以在多种操作系统上运行,包括Windows、Linux...

    数据仓库和ETL学习笔记

    ETL(Extract, Transform, Load)则是数据仓库构建的核心过程,包括从各种数据源抽取数据、转换数据以满足数据仓库的规范,并加载到数据仓库中。 在数据仓库中,维度表和事实表是两个关键概念: 1. 维度表:维度表...

    ETL学习笔记 Kettle基本知识交流

    "ETL学习笔记 Kettle基本知识交流" Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,可以在 Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把...

    etl学习笔记

    在本“ETL学习笔记”中,我们将深入探讨这个流程的各个方面。 首先,提取(Extract)阶段是ETL过程的起点,涉及到从各种数据源获取信息。这些数据源可能包括关系型数据库、非关系型数据库、Excel文件、文本文件、...

    ETL课程全部笔记.pdf

    在学习ETL课程的笔记中,我们了解到ETL的主要目的是将分布在不同系统和格式中的数据整合、转换后,加载到数据仓库中,以支持决策制定和数据分析。 首先,OLTP(在线联机事务处理)系统主要用于处理日常业务,如订单...

    基于 Flink 的典型 ETL 场景实现-实时数仓篇.pdf

    二、数据转换(Transform) Flink 提供了强大的流处理算子集,允许对数据进行复杂转换。例如,使用Map函数进行简单的值变换,使用Filter进行数据过滤,使用KeyBy进行分组,使用Window进行时间窗口聚合,以及Join...

    数据仓库和ETL学习笔记..doc

    数据仓库和ETL学习笔记 数据仓库是指将来自多个来源的数据整合到一个仓库中,以便进行报表和分析的系统。ETL(Extract、Transform、Load)是数据仓库中最重要的三个步骤,分别是数据抽取、数据转换和数据装载。 ...

    数据仓库和ETL学习笔记..docx

    数据仓库和ETL学习笔记 数据仓库是企业级别的数据存储系统,旨在支持商业智能应用程序。ETL(Extract, Transform, Load)是数据仓库的重要组件,负责从多个数据源中抽取数据,转换数据格式,并加载到数据仓库中。 ...

    ETL工具 ,基于Kettle实现的Web版ETL工具

    本项目是基于Kettle实现的Web版ETL工具,旨在提供一种更直观、易用的方式来执行数据处理任务,尤其适合需要进行简单数据抓取的应用场景。 首先,我们来深入理解一下Kettle的工作原理。Kettle的核心组件包括 Spoon...

    ETL学习资料

    1.什么是ETL 2.BI项目中ETL设计与思考 3.DataStage(ETL)技术总结 4.ETL常见性能瓶颈 5.ETL高级教程 6.ETL工具点评 7.ETL构建企业级数据仓库五步法 8.ETL增量抽取 9.ETL增量抽取方式 10.三大主流ETL工具选型 11.商务...

    ETL学习之Kettle实用教程

    **ETL学习之Kettle实用教程** Kettle,全称为Pentaho Data Integration,是一款强大的开源ETL(Extract, Transform, Load)工具,用于数据整合和数据迁移。它以其直观的图形化界面、灵活的数据处理能力和高效的数据...

    很全的ETL学习资料

    BI项目中ETL设计与思考.docx DataStage(ETL)技术总结.docx ETL增量抽取.docx ETL增量抽取方式.docx ETL工具点评.docx ETL常见性能瓶颈.docx ETL构建企业级数据仓库五步法.docx ETL高级教程.docx 三大主流ETL工具选型...

    ETL-页面二次开发

    **ETL页面二次开发**是数据处理领域中的一个重要概念,主要指对已有的ETL(Extract, Transform, Load)工具的用户界面进行定制化修改,以满足特定项目或组织的需求。在本主题中,我们将专注于Kettle(Pentaho Data ...

    一个ETL系统的设计与实现

    ### 一个ETL系统的设计与实现 #### 一、引言 随着信息技术的快速发展和大数据时代的到来,数据仓库与信息分析已经成为许多企业提升竞争力的重要工具。数据仓库是一种用于存储历史数据以便进行分析和报告的系统,它...

    一种基于MySQL的可扩展ETL系统的研究与实现.pdf

    一种基于 MySQL 的可扩展 ETL 系统的研究与实现 本文旨在研究和实现一种基于 MySQL 的可扩展 ETL(Extract, Transform, Load)系统,旨在解决当前 ETL 系统存在的复杂性和可扩展性问题。该系统使用 PERL 语言实现,...

    ETL学习心得.docx

    此外,通过可视化工具进行数据流程的控制和监控,能够更有效地管理ETL单元,如DataStage的Job和PowerMart的Session,这些都是实现ETL流程实例化和动态化的方式。 在实践中,ETL单元的细分需要根据具体应用场景来...

    ETL之kettle实现异构库表的数据增删改功能

    ETL之kettle实现异构库表的数据增删改功能

Global site tag (gtag.js) - Google Analytics