`

什么是ETL

    博客分类:
  • BI
阅读更多

ETL是商业智能(BI)的重要组成部分。我们先看一下在WIKI中的定义:

ETL,是英文Extract-Transform-Load的缩写,即填充、更新数据仓库的数据抽取、转换、装载的过程。这是实现商业智能之前的数据采集步骤。这一步骤完成之后,对库中数据的数据挖掘、分析处理才可以进行。

对于ETL而言,“是什么”是很容易理解的,也就是将分散的、不易利用的数据进行整理,变成规则清晰的、易于利用的、(可能同时还是)集中的数据。在ETL过程之外,就可以基于报表分析系统、多维分析系统和数据挖掘系统等,进行进一步的数据分析利用。

这一过程可以通过Hard Codding,即编写程序实现,也可以通过各种ETL工具实现。

对于ETL,实际常见的问题有两个:

1、为什么要做ETL,而不是直接利用数据?

这个原因有多种多样,比如可能原始数据量太大,需要加以提炼;可能业务数据的服务器面临性能压力,不希望分析工作影响性能;可能源数据的异构性和低质量,需要加以规范;还有可能有些数据直接利用起来有困难,例如SAP系统中的数据。

2、不同ETL工具与方法的差异主要是什么?

由于ETL是一个可以用Hard Codding并不大困难就可以实现的过程,因此很容易会问“为什么要用ETL工具”。实际上,Hard Codding也是一种可供选择ETL方法,而各种工具与方法主要的差异在于两点,一是设计与建立ETL过程的复杂度,比如有些工作用工具可以很快建立和修改、调试,而写程序要花很大力气,有些工作则配置ETL工具很费力,还不如直接写一个SQL,不同的工具之间也有很大的差异;二是运行时的效率,有些ETL工作,要经常进行,有些则是初始时进行一次,有些数据量大、时效要求高,有些则反之。这样,在不同情况下,就可能需要根据运行效率的需要选择合适的ETL工具。

从上面两个问题,我们可以理解ETL的必要性与适用性,同时,也可以认识到,ETL是一个概念,应该根据实际的情况与需要,选择(包括不使用)合适的ETL工具或方法。

分享到:
评论

相关推荐

    大数据什么是ETL.pdf

    大数据中的ETL(Extract, Transform, Load)是一个关键的数据处理流程,主要用于构建数据仓库或进行数据分析。ETL涉及从各种来源提取数据,对其进行清洗和转换,然后加载到目标存储系统,如数据仓库。 1. **数据...

    很全的ETL学习资料

    什么是ETL.docx 商业智能 通过SSIS设计ETL来将Oracle,DB2,Sybase等数据源的数据定期导入到数据仓库.docx 商务智能(BI)的四大关键技术-ETL(抽取(Extract)、转换(Transform)和加载(Load)).docx 选择合适的ETL工具满足...

    ETL学习资料

    1.什么是ETL 2.BI项目中ETL设计与思考 3.DataStage(ETL)技术总结 4.ETL常见性能瓶颈 5.ETL高级教程 6.ETL工具点评 7.ETL构建企业级数据仓库五步法 8.ETL增量抽取 9.ETL增量抽取方式 10.三大主流ETL工具选型 11.商务...

    etl-kettle讲稿

    一、什么是ETL ETL是数据抽取、转换和加载的英文缩写,中文名称为数据抽取、转换和加载。这个过程是构建数据仓库的关键环节,它负责从各种分布式、异构数据源,如关系数据库、平面文件等,抽取数据并进行清洗、转换...

    ETL 以及 KETTLE 简介

    什么是ETL ETL是指**数据抽取(Extract)、转换(Transform)、装载(Load)**的过程,它是构建数据仓库的重要环节。数据仓库是一种面向主题的、集成的、稳定的且随时间不断变化的数据集合,主要用于支持经营管理...

    ETL+DATASTAGE的实现

    什么是ETL ETL是数据的抽取、转换、装载的过程。原数据很难满足目标系统(就是数据仓库或者别的系统)的需要,就得对数据进行各种各样的处理了。 自编程实现与ETL工具 ETL是一个导数的过程,可以通过编程实现,也...

    阿里开源ETL工具DATAX

    1. **什么是ETL**: ETL是数据仓库系统中的关键过程,包括三个阶段:提取(Extract)、转换(Transform)和加载(Load)。首先,ETL工具从各种数据源中抽取数据;然后,对数据进行清洗、转换和整合,以满足业务需求...

    大数据技术 数据仓库设计与开发技术 ETL构建数据仓库五步法 共9页.pdf

    一、什么是ETL? ETL是Extract, Transform, Load的缩写,指的是从不同的数据源中提取数据,转换数据格式,最后加载到目标系统中的一种数据integration技术。在大数据技术中,ETL技术广泛应用于数据仓库的构建、数据...

    数据仓库建模与ETL的实践技巧.ppt

    四、什么是ETL(Extract、Transform、Load) ETL是数据仓库的核心组件,ETL的三个步骤分别是数据抽取、数据转换和加工、数据装载。 数据抽取:数据抽取是ETL的第一步骤,包括全量抽取和增量抽取两种方式。 数据...

    《ETL数据整合与处理(Kettle)》教学教案 —08无人售货机项目实战.pdf

    * 什么是ETL?ETL 的主要步骤是什么? * 什么是Kettle?Kettle 的主要组件是什么? * 如何使用Kettle 实现ETL 数据整合和处理? * 无人售货机项目实战中,需要掌握哪些ETL 的技术和概念? 七、拓展性问题 * 计算...

    ETL Automation使用手册

    ETL Automation 使用手册 ETL Automation 是一个自动化的数据集成工具,旨在帮助用户快速高效地完成数据提取、转换和加载(ETL)过程。本手册将详细介绍 ETL Automation 的安装、配置、使用和管理。 ETL ...

    ETL Automation 使用手册 Version 2.6.0 中文

    ETL Automation 使用手册 Version 2.6.0 中文 ETL Automation 是一个数据集成平台,旨在提供一个自动化的数据集成解决方案。下面是对 ETL Automation 使用手册 Version 2.6.0 中文的详细知识点解释。 ETL ...

    ETL系列专题2 ETL数据结构

    在ETL(抽取、转换、加载)过程中,数据结构的设计尤为重要,因为它直接影响ETL的性能、效率和可靠性。本章节将详细介绍数据结构的概念和在ETL中的应用,尤其是ETL架构设计中Staging Area(暂存区)的原则和常用数据...

    1、ETL工程师经典面试题.md

    1. 什么是数据准备区?在数据准备区中允许使用的数据结构有哪些?各有什么优缺点? 2. 简述异构数据源中的数据抽取技术。 3. 数据质量检查的四大类是什么?为每类提供一种实现技术。 4. 简述数据仓库中的表的基本...

    传统数据仓库ETL设计报告

    ETL平台分为三个主要模块:ETL元数据驱动模块负责根据配置信息生成ETL作业,ETL调度模块配置调度并结合数据质量校验控制执行,而ETL元数据管理模块则用于管理和检索ETL配置信息。 2.1.2.2 ETL平台技术架构 技术...

    Java分布式ETL框架

    Java分布式ETL(Extract, Transform, Load)框架是用于大数据处理的一种关键技术,它涉及从各种数据源抽取数据,经过转换处理后,加载到目标存储系统的过程。在Java中,实现分布式ETL可以利用多线程、分布式计算以及...

    ETL规范.doc

    ETL 规范设计指南 ETL(Extract、Transform、Load)是数据集成的重要步骤,涉及到数据的抽取、转换和加载。为了确保 ETL 过程的高效性和可靠性,需要制定相应的规范和标准。本文档旨在提供一份完整的 ETL 规范设计...

    ETL Automation 工具简介.pptx

    ETL Automation 是由 Teradata 公司发布的 ETL 流程调度产品,使用 JAVA 程序开发,支持跨平台部署,安装、维护简单。

    ETL:交换任务调度

    ETL(Extract, Transform, Load)是数据仓库领域的一个关键过程,它涉及从不同源系统抽取数据、转换数据以满足特定需求,然后加载到目标系统,如数据仓库或大数据平台。在“ETL:交换任务调度”这个主题中,我们将...

Global site tag (gtag.js) - Google Analytics