`
rmzdb
  • 浏览: 80343 次
  • 性别: Icon_minigender_1
  • 来自: 合肥
社区版块
存档分类
最新评论

【转】ETL中用到的一些基本技术概论

 
阅读更多

前话

在公司做了几年的数据,跟数据打了不少的交道。对软件的理解,也慢慢的偏向于对数据的流转上,虽然用户体验UI也占据着很大的地位。之前答应过坛子里的朋友,准备写关于写金蝶的系列文章。时间恍惚,匆匆几年就这样过去了。至今竟没有像样的文字。如今,笔者历经几年,从一个大男孩,变成了美丽女孩的丈夫。为我的程序人生翻开了新的篇章。曾今,朋友说到:有些人写代码是为了一辈子都去写代码,也有些人写代码是为了不去写代码。笔者也曾经在这样的思想中挣扎与徘徊。除了抱怨,也许平静下来钻研并分享技术才是我们的乐趣所在。

那么就从这篇摘抄的技术文档开始把。 

 

----------------------------------------------------- 我是分割线 ------------------------------------------------------------

 

1.ETL简介

随着企业信息化建设的发展,巨大的投资为企业建立了众多的信息系统,以帮助企业进行内外部业务的处理和管理工作。但是随着信息系统的增加,各自孤立工作的信息系统将会造成大量的冗余数据和业务人员的重复劳动。企业应用集成(EAI,Enterprise Application Integration)应运而生。EAI通过建立底层数据交换平台来联系横贯整个企业的异构系统、应用、数据源等,完成在企业内部的ERP、CRM、SCM、数据库、数据仓库,以及其它重要的内部系统之间无缝地共享和交换数据的需要。数据集成是企业应用集成的重要环节,企业实现数据集成,可以使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。

但是,在实施数据集成的过程中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各应用系统中的流动与共享。因此,如何对数据进行有效的集成管理已成为增强企业商业竞争力的必然选择。ETL是实现数据集成的主要技术。

ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。(1)数据抽取:从源数据源系统抽取目的数据源系统需要的数据;(2)数据转换:将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工。(3)数据加载:将转换后的数据装载到目的数据源。

ETL原本是作为构建数据仓库的一个环节,负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。现在也越来越多地将ETL应用于一般信息系统中数据的迁移、交换和同步。

2.ETL中的关键技术

ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些功能,各个ETL工具一般会进行一些功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。

2.1 数据抽取

数据抽取是从数据源中抽取数据的过程。实际应用中,数据源较多采用的是关系数据库。从数据库中抽取数据一般有以下几种方式。

(1)全量抽取

全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。全量抽取比较简单。

(2)增量抽取

增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据。在ETL使用过程中。增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据按一定的频率准确地捕获到;性能,不能对业务系统造成太大的压力,影响现有业务。目前增量数据抽取中常用的捕获变化数据的方法有:

a.触发器:在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线程从临时表中抽取数据,临时表中抽取过的数据被标记或删除。触发器方式的优点是数据抽取的性能较高,缺点是要求业务表建立触发器,对业务系统有一定的影响。

b.时间戳:它是一种基于快照比较的变化数据捕获方式,在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较系统时间与时间戳字段的值来决定抽取哪些数据。有的数据库的时间戳支持自动更新,即表的其它字段的数据发生改变时,自动更新时间戳字段的值。有的数据库不支持时间戳的自动更新,这就要求业务系统在更新业务数据时,手工更新时间戳字段。同触发器方式一样,时间戳方式的性能也比较好,数据抽取相对清楚简单,但对业务系统也有很大的倾入性(加入额外的时间戳字段),特别是对不支持时间戳的自动更新的数据库,还要求业务系统进行额外的更新时间戳操作。另外,无法捕获对时间戳以前数据的delete和update操作,在数据准确性上受到了一定的限制。

c.全表比对:典型的全表比对的方式是采用MD5校验码。ETL工具事先为要抽取的表建立一个结构类似的MD5临时表,该临时表记录源表主键以及根据所有字段的数据计算出来的MD5校验码。每次进行数据抽取时,对源表和MD5临时表进行MD5校验码的比对,从而决定源表中的数据是新增、修改还是删除,同时更新MD5校验码。MD5方式的优点是对源系统的倾入性较小(仅需要建立一个MD5临时表),但缺点也是显而易见的,与触发器和时间戳方式中的主动通知不同,MD5方式是被动的进行全表数据的比对,性能较差。当表中没有主键或唯一列且含有重复记录时,MD5方式的准确性较差。

d.日志对比:通过分析数据库自身的日志来判断变化的数据。Oracle的改变数据捕获(CDC,Changed Data Capture)技术是这方面的代表。CDC 特性是在Oracle9i数据库中引入的。CDC能够帮助你识别从上次抽取之后发生变化的数据。利用CDC,在对源表进行insert、update或 delete等操作的同时就可以提取数据,并且变化的数据被保存在数据库的变化表中。这样就可以捕获发生变化的数据,然后利用数据库视图以一种可控的方式提供给目标系统。CDC体系结构基于发布者/订阅者模型。发布者捕捉变化数据并提供给订阅者。订阅者使用从发布者那里获得的变化数据。通常,CDC系统拥有一个发布者和多个订阅者。发布者首先需要识别捕获变化数据所需的源表。然后,它捕捉变化的数据并将其保存在特别创建的变化表中。它还使订阅者能够控制对变化数据的访问。订阅者需要清楚自己感兴趣的是哪些变化数据。一个订阅者可能不会对发布者发布的所有数据都感兴趣。订阅者需要创建一个订阅者视图来访问经发布者授权可以访问的变化数据。CDC分为同步模式和异步模式,同步模式实时的捕获变化数据并存储到变化表中,发布者与订阅都位于同一数据库中。异步模式则是基于Oracle的流复制技术。

ETL处理的数据源除了关系数据库外,还可能是文件,例如txt文件、excel文件、xml文件等。对文件数据的抽取一般是进行全量抽取,一次抽取前可保存文件的时间戳或计算文件的MD5校验码,下次抽取时进行比对,如果相同则可忽略本次抽取。

2.2 数据转换和加工

从数据源中抽取的数据不一定完全满足目的库的要求,例如数据格式的不一致、数据输入错误、数据不完整等等,因此有必要对抽取出的数据进行数据转换和加工。

数据的转换和加工可以在ETL引擎中进行,也可以在数据抽取过程中利用关系数据库的特性同时进行。

(1)ETL引擎中的数据转换和加工

ETL引擎中一般以组件化的方式实现数据转换。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等。这些组件如同一条流水线上的一道道工序,它们是可插拔的,且可以任意组装,各组件之间通过数据总线共享数据。

有些ETL工具还提供了脚本支持,使得用户可以以一种编程的方式定制数据的转换和加工行为。

(2)在数据库中进行数据加工

关系数据库本身已经提供了强大的SQL、函数来支持数据的加工,如在SQL查询语句中添加where条件进行过滤,查询中重命名字段名与目的表进行映射,substr函数,case条件判断等等。下面是一个SQL查询的例子。

select ID as USERID, substr(TITLE, 1, 20) as TITLE, case when REMARK is null then ' ' else REMARK end as CONTENT from TB_REMARK where ID > 100;

相比在ETL引擎中进行数据转换和加工,直接在SQL语句中进行转换和加工更加简单清晰,性能更高。对于SQL语句无法处理的可以交由ETL引擎处理。

2.3 数据装载

将转换和加工后的数据装载到目的库中通常是ETL过程的最后步骤。装载数据的最佳方法取决于所执行操作的类型以及需要装入多少数据。当目的库是关系数据库时,一般来说有两种装载方式:

(1)直接SQL语句进行insert、update、delete操作。

(2)采用批量装载方法,如bcp、bulk、关系数据库特有的批量装载工具或api。

大多数情况下会使用第一种方法,因为它们进行了日志记录并且是可恢复的。但是,批量装载操作易于使用,并且在装入大量数据时效率较高。使用哪种数据装载方法取决于业务系统的需要。

3.主流ETL工具

ETL工具从厂商来看分为两种,一种是数据库厂商自带的ETL工具,如Oracle warehouse builder、Oracle Data Integrator。另外一种是第三方工具提供商,如Kettle。开源世界也有很多的ETL工具,功能各异,强弱不一。

(1)Oracle Data Integrator(ODI)

ODI前身是Sunopsis Active Integration Platform,在2006年底被Oracle收购,重新命名为Oracle Data Integrator,主要定位于在ETL和数据集成的场景里使用。ODI和Oracle原来的ETL工具OWB相比有一些显著的特点,比如和OWB一样是ELT架构,但是比OWB支持更多的异构的数据源,ODI提供了call web service的机制,并且ODI的接口也可以暴露为web service,从而可以和SOA环境进行交互。ODI能够检测事件,一个事件可以触发ODI的一个接口流程,从而完成近乎实时的数据集成。

ODI的主要功能特点有:

a.使用CDC作为变更数据捕获的捕获方式。

b.代理支持并行处理和负载均衡。

c.完善的权限控制、版本管理功能。

d.支持数据质量检查,清洗和回收脏数据。

e.支持与JMS消息中间件集成。

f.支持Web Service。

(2)SQL Server Integration Services(SSIS)

SSIS是SQL Server 2005的新成员,在SQL Server的早期版本中,其实就已经有了它的雏形,那时的名称叫做数据转换服务(DTS)。在SQL Server 2005的前两个版本SQL Server 7.0和SQL Server 2000中,DTS主要集中于提取和加载。通过使用DTS,可以从任何数据源中提取数据以及将数据加载到任何数据源中。在SQL Server 2005中,对DTS进行了重新设计和改进形成了SSIS。SSIS提供了数据相关的控制流、数据流、日志、变量、event、连接管理等基础设施。控制流也称为工作流或者任务流,它更像工作流,在工作流中每个组件都是一个任务。这些任务是按预定义的顺序执行的。在任务流中可能有分支。当前任务的执行结果决定沿哪条分支前进。数据流是新的概念。数据流也称为流水线,主要解决数据转换的问题。数据流由一组预定义的转换操作组成。数据流的起点通常是数据源(源表);数据流的终点通常是数据的目的地(目标表)。可以将数据流的执行认为是一个流水线的过程,在该过程中,每一行数据都是装配线中需要处理的零件,而每一个转换都是装配线中的处理单元。

4.ETL工具的选择

在数据集成中该如何选择ETL工具呢?一般来说需要考虑以下几个方面:

(1)对平台的支持程度。

(2)对数据源的支持程度。

(3)抽取和装载的性能是不是较高,且对业务系统的性能影响大不大,倾入性高不高。

(4)数据转换和加工的功能强不强。

(5)是否具有管理和调度功能。

(6)是否具有良好的集成性和开放性。

 

注:以上文字转自http://tech.ccidnet.com/art/1105/20080407/1411567_1.html

分享到:
评论

相关推荐

    ETL本质原理和关键技术介绍

    Etl本质原理和关键技术介绍 ETL(Extract, Transform, Load)是一种数据整合解决方案,旨在将来自不同数据源的数据提取、转换和加载到目标系统中。在数据仓库系统中,ETL扮演着关键的一环,它不是一次性的工作,...

    大数据ETL技术方案

    ### 大数据ETL技术方案知识点总结 ...综上所述,大数据ETL技术方案不仅涵盖了ETL的基本概念和技术分类,还深入探讨了具体工具的使用方法及其应用场景,为从事数据仓库建设和维护的技术人员提供了宝贵的参考。

    ETL数据仓库技术面试题.doc

    ETL(Extract, Transform, Load)是数据仓库技术的核心组件之一,负责将数据从源系统中提取、转换、加载到目标系统中。在面试中,考察者需要具备扎实的 ETL 知识和实践经验,本文将从标题、描述、标签和部分内容四个...

    110页大数据ETL技术方案.docx

    因此,出现了一些新的ETL技术和工具,如Kettle、Sqoop、OratoMPP等。 Kettle是Pentaho开发的一款ETL工具,支持多种数据源和目标系统。Kettle提供了一个图形化的界面,用户可以通过拖拽方式设计ETL流程。Kettle支持...

    ETL技术及应用 实例

    ETL(Extraction-Transformation-Loading)是数据仓库技术中的一个关键环节,它负责将分布的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理和数据...

    ETL技术综述

    这些原型不仅涵盖了上述各个方面的技术挑战,还探索了一些前沿的技术趋势,例如利用大数据处理框架(如Hadoop、Spark)来加速ETL过程,或者通过机器学习算法自动识别数据模式以简化转换规则的设计等。 总的来说,...

    如何使用ETL 技术

    ### 如何使用ETL技术——深入解析与应用实践 #### ETL基础知识 **ETL**(Extract, Transform, Load)是一种常用于数据仓库建设中的关键流程。它主要包括三个步骤: 1. **Extract(提取)**:从源系统中抽取所需的...

    ETL实战ETL实战

    在 ETL 过程中,还涉及到一些其他的重要知识点,包括: 1. 数据质量(Data Quality):确保数据的准确性、完整性和一致性。 2. 数据安全(Data Security):保护数据免受未经授权的访问和操作。 3. 数据备份和...

    大数据ETL技术介绍.pptx

    大数据ETL技术是指从不同的数据源中提取、转换和加载数据到目标系统中的过程。在这个过程中,ETL工具扮演着关键的角色,负责从各种数据源中提取数据、转换数据格式、处理数据质量问题、加载数据到目标系统中等。 从...

    很全的ETL学习资料

    商业智能 通过SSIS设计ETL来将Oracle,DB2,Sybase等数据源的数据定期导入到数据仓库.docx 商务智能(BI)的四大关键技术-ETL(抽取(Extract)、转换(Transform)和加载(Load)).docx 选择合适的ETL工具满足数据整合性能挑战...

    etl技术介绍 数据仓库

    介绍数据仓库的知识中,非常重要的知识了解。etl过程的基本释义

    达梦ETL批量流程向导

    随着企业数据规模的不断增长以及对数据处理效率要求的提高,ETL(Extract, Transform, Load)技术成为了现代数据仓库建设中的核心环节之一。其中,“达梦ETL批量流程向导”作为一款高效实用的数据集成工具,在数据...

    清华大学精品大数据之数据清洗课程PPT课件(38页)含习题 第3章 数据清洗ETL基本技术方法.pptx

    清华大学的这份精品课程《大数据之数据清洗》深入浅出地讲解了数据清洗的ETL(Extraction-Transformation-Loading)基本技术方法,旨在培养相关人才的专业技能。 ETL是数据处理的核心流程,分为数据抽取、数据转换...

    ETL工具 ,基于Kettle实现的Web版ETL工具

    这样的设计大大降低了ETL工具的使用门槛,使得非技术背景的业务人员也能参与到数据处理流程中。 在数据抓取方面,Kettle提供了多种方式来获取数据。它可以连接到各种数据库、文件系统、API接口甚至邮件服务器。例如...

    ETL面试的一些问题.doc

    ETL(Extract, Transform, Load)是一种常用的数据集成技术,用于从不同的数据源中提取数据,并将其转换为适合数据仓库的格式,然后加载到目标系统中。在 ETL 过程中,需要使用各种技术和工具来完成数据的提取、转换...

    ETL学习笔记 Kettle基本知识交流

    "ETL学习笔记 Kettle基本知识交流" Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,可以在 Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把...

    ETL Automation使用手册

    2. 在 Windows 2000 Server 上安装 ETL Automation:需要先安装所需的依赖项,然后将 ETL Automation 安装包解压缩到指定目录,最后配置环境变量。 ETL Automation Setup ETL Automation Setup 是指安装和配置 ETL...

    ETL架构师面试题.docx

    本篇主要讨论了几个与ETL架构师面试相关的知识点,包括逻辑数据映射、数据探索阶段、起始来源数据的确定、ETL过程的四个基本阶段以及数据准备区中的数据结构。 1. **逻辑数据映射**:逻辑数据映射是ETL项目中关键的...

Global site tag (gtag.js) - Google Analytics