ETL是商业智能(BI)的重要组成部分。我们先看一下在WIKI中的定义:
ETL,是英文Extract-Transform-Load的缩写,即填充、更新数据仓库的数据抽取、转换、装载的过程。这是实现商业智能之前的数据采集步骤。这一步骤完成之后,对库中数据的数据挖掘、分析处理才可以进行。
对于ETL而言,“是什么”是很容易理解的,也就是将分散的、不易利用的数据进行整理,变成规则清晰的、易于利用的、(可能同时还是)集中的数据。在ETL过程之外,就可以基于报表分析系统、多维分析系统和数据挖掘系统等,进行进一步的数据分析利用。
这一过程可以通过Hard Codding,即编写程序实现,也可以通过各种ETL工具实现。
对于ETL,实际常见的问题有两个:
1、为什么要做ETL,而不是直接利用数据?
这个原因有多种多样,比如可能原始数据量太大,需要加以提炼;可能业务数据的服务器面临性能压力,不希望分析工作影响性能;可能源数据的异构性和低质量,需要加以规范;还有可能有些数据直接利用起来有困难,例如SAP系统中的数据。
2、不同ETL工具与方法的差异主要是什么?
由于ETL是一个可以用Hard Codding并不大困难就可以实现的过程,因此很容易会问“为什么要用ETL工具”。实际上,Hard Codding也是一种可供选择ETL方法,而各种工具与方法主要的差异在于两点,一是设计与建立ETL过程的复杂度,比如有些工作用工具可以很快建立和修改、调试,而写程序要花很大力气,有些工作则配置ETL工具很费力,还不如直接写一个SQL,不同的工具之间也有很大的差异;二是运行时的效率,有些ETL工作,要经常进行,有些则是初始时进行一次,有些数据量大、时效要求高,有些则反之。这样,在不同情况下,就可能需要根据运行效率的需要选择合适的ETL工具。
从上面两个问题,我们可以理解ETL的必要性与适用性,同时,也可以认识到,ETL是一个概念,应该根据实际的情况与需要,选择(包括不使用)合适的ETL工具或方法。
分享到:
相关推荐
大数据中的ETL(Extract, Transform, Load)是一个关键的数据处理流程,主要用于构建数据仓库或进行数据分析。ETL涉及从各种来源提取数据,对其进行清洗和转换,然后加载到目标存储系统,如数据仓库。 1. **数据...
什么是ETL.docx 商业智能 通过SSIS设计ETL来将Oracle,DB2,Sybase等数据源的数据定期导入到数据仓库.docx 商务智能(BI)的四大关键技术-ETL(抽取(Extract)、转换(Transform)和加载(Load)).docx 选择合适的ETL工具满足...
1.什么是ETL 2.BI项目中ETL设计与思考 3.DataStage(ETL)技术总结 4.ETL常见性能瓶颈 5.ETL高级教程 6.ETL工具点评 7.ETL构建企业级数据仓库五步法 8.ETL增量抽取 9.ETL增量抽取方式 10.三大主流ETL工具选型 11.商务...
一、什么是ETL ETL是数据抽取、转换和加载的英文缩写,中文名称为数据抽取、转换和加载。这个过程是构建数据仓库的关键环节,它负责从各种分布式、异构数据源,如关系数据库、平面文件等,抽取数据并进行清洗、转换...
什么是ETL ETL是指**数据抽取(Extract)、转换(Transform)、装载(Load)**的过程,它是构建数据仓库的重要环节。数据仓库是一种面向主题的、集成的、稳定的且随时间不断变化的数据集合,主要用于支持经营管理...
什么是ETL ETL是数据的抽取、转换、装载的过程。原数据很难满足目标系统(就是数据仓库或者别的系统)的需要,就得对数据进行各种各样的处理了。 自编程实现与ETL工具 ETL是一个导数的过程,可以通过编程实现,也...
1. **什么是ETL**: ETL是数据仓库系统中的关键过程,包括三个阶段:提取(Extract)、转换(Transform)和加载(Load)。首先,ETL工具从各种数据源中抽取数据;然后,对数据进行清洗、转换和整合,以满足业务需求...
一、什么是ETL? ETL是Extract, Transform, Load的缩写,指的是从不同的数据源中提取数据,转换数据格式,最后加载到目标系统中的一种数据integration技术。在大数据技术中,ETL技术广泛应用于数据仓库的构建、数据...
四、什么是ETL(Extract、Transform、Load) ETL是数据仓库的核心组件,ETL的三个步骤分别是数据抽取、数据转换和加工、数据装载。 数据抽取:数据抽取是ETL的第一步骤,包括全量抽取和增量抽取两种方式。 数据...
* 什么是ETL?ETL 的主要步骤是什么? * 什么是Kettle?Kettle 的主要组件是什么? * 如何使用Kettle 实现ETL 数据整合和处理? * 无人售货机项目实战中,需要掌握哪些ETL 的技术和概念? 七、拓展性问题 * 计算...
ETL Automation 使用手册 ETL Automation 是一个自动化的数据集成工具,旨在帮助用户快速高效地完成数据提取、转换和加载(ETL)过程。本手册将详细介绍 ETL Automation 的安装、配置、使用和管理。 ETL ...
ETL Automation 使用手册 Version 2.6.0 中文 ETL Automation 是一个数据集成平台,旨在提供一个自动化的数据集成解决方案。下面是对 ETL Automation 使用手册 Version 2.6.0 中文的详细知识点解释。 ETL ...
在ETL(抽取、转换、加载)过程中,数据结构的设计尤为重要,因为它直接影响ETL的性能、效率和可靠性。本章节将详细介绍数据结构的概念和在ETL中的应用,尤其是ETL架构设计中Staging Area(暂存区)的原则和常用数据...
1. 什么是数据准备区?在数据准备区中允许使用的数据结构有哪些?各有什么优缺点? 2. 简述异构数据源中的数据抽取技术。 3. 数据质量检查的四大类是什么?为每类提供一种实现技术。 4. 简述数据仓库中的表的基本...
ETL平台分为三个主要模块:ETL元数据驱动模块负责根据配置信息生成ETL作业,ETL调度模块配置调度并结合数据质量校验控制执行,而ETL元数据管理模块则用于管理和检索ETL配置信息。 2.1.2.2 ETL平台技术架构 技术...
Java分布式ETL(Extract, Transform, Load)框架是用于大数据处理的一种关键技术,它涉及从各种数据源抽取数据,经过转换处理后,加载到目标存储系统的过程。在Java中,实现分布式ETL可以利用多线程、分布式计算以及...
ETL 规范设计指南 ETL(Extract、Transform、Load)是数据集成的重要步骤,涉及到数据的抽取、转换和加载。为了确保 ETL 过程的高效性和可靠性,需要制定相应的规范和标准。本文档旨在提供一份完整的 ETL 规范设计...
ETL Automation 是由 Teradata 公司发布的 ETL 流程调度产品,使用 JAVA 程序开发,支持跨平台部署,安装、维护简单。
ETL(Extract, Transform, Load)是数据仓库领域的一个关键过程,它涉及从不同源系统抽取数据、转换数据以满足特定需求,然后加载到目标系统,如数据仓库或大数据平台。在“ETL:交换任务调度”这个主题中,我们将...