通常认为ETL就是数据抽取,转换,加载的过程,完全正确.就像数据库就是存储和管理数据的工具一样,然而数据库并不全部是数据的存储,最重要的是管理,即数据的并发性一致性可恢复性管理,包括一系列的进程和内存的管理等等.ETL工具本身也是同样的问题.如果只是抽取转换加载,相信通过PowerBuilder的数据管道技术并加以封装或者一系列的语言工具编码可以做到,并非很难的事情.
之所以思考,是因为阅读了一下<DataStage企业版产品白皮书>,当然也只是粗略的看了一下,其实所有成熟的ETL工具都是相类似的,都是在相互借鉴中不断的完善的结果.
简单的总结一下:
Ø元数据管理,不管通过DBMS进行存储也好,通过XML或者自己的管理系统也好.元数据的管理是必须的,提供了一个可视化的数据字典.
Ø和配置工具的集成,或者内置一个配置库管理工具.
Ø项目化管理和集成环境,统一对系统内的工作流和任务进行管理
Ø任务包中都包含源数据,目标数据的管理,其中也包括关系数据库,平面文件,XML文件,WebService,COBOL等文件的管理
Ø任务包中提供了一系列的排序,转换,合并,连接,过滤,聚合,查找表,复制,分裂,条件分割等等一些通用的数据转换.
Ø数据流架构和流水线即工作流管理,几乎所有的ETL工具都是根据时序进行任务流的处理,这也符合数据仓库的过程化处理要求.其中包括错误处理方式,错误报表,并行处理,时序等待等等.
Ø可伸缩硬件环境支持,最大限度的利用硬件的支持.
Ø并行支持,发挥DBMS的优势,或者通过内置的内存管理进行处理.
不过我有些怀疑ETL的功效,据权威人士统计80%的时间和IO消耗是集中在ETL的抽取和加载环节,而抽取和加载的速度是由DBMS或者其他数据源所决定的,也就是说无论怎么优化,ETL工具的优化也只有20%的余地.有个玩笑:ETL工具执行的效率肯定比不上最好的程序员写的代码的效率,但是起码要比最差的程序员写的代码要强.
也许ETL工具本身就是一个管理的平台,它的意义在于屏蔽底层编码的细节和异构数据源,通过图形化的方式实现数据流程的调度,从而提供开发和管理上的效率,而并非程序执行效率.
分享到:
相关推荐
ETL工具点评.docx ETL常见性能瓶颈.docx ETL构建企业级数据仓库五步法.docx ETL高级教程.docx 三大主流ETL工具选型.docx 什么是ETL.docx 商业智能 通过SSIS设计ETL来将Oracle,DB2,Sybase等数据源的数据定期导入到...
ETL工具比较.pdf ETL应用浅析.pdf ETL开发实施中质量保证的关键要素V1.0.pdf ETL数据增量抽取方案.pdf ETL数据集成方案初步研究.pdf ETL架构师面试题.pdf ETL流程、数据流图及ETL过程解决方案.pdf ETL流程、...
1.什么是ETL 2.BI项目中ETL设计与思考 3.DataStage(ETL)技术总结 4.ETL常见性能瓶颈 5.ETL高级教程 6.ETL工具点评 7.ETL构建企业级数据仓库五步法 8.ETL增量抽取 ...13.选择合适的ETL工具满足数据整合性能挑战
BI 项目中 ETL 设计与思考 ETL(Extract、Transform、Load)是业务智能(BI)项目中一个重要的环节,它是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的...
本教程详细介绍了如何利用Kettle工具进行数据清洗和转换,确保数据的质量和一致性。 记录处理涉及到一系列操作,如排序记录、去除重复记录、替换NULL值、过滤记录、值映射、字符串替换和分组等。这些操作对于数据...
ETL(Extract,Transform,Load)是数据整合和处理的重要步骤,Kettle 是一个popular的开源ETL工具 本教案主要教授学生如何使用Kettle 实现ETL 数据整合和处理,通过实践无人售货机项目实战,掌握ETL 的基本概念和...
本文档主要介绍了DNA元基索引ETL中文脚本编译机系统,这是一个创新性的工具,旨在简化数据库操作和数据处理流程,尤其针对非程序员群体,提供更加便捷的使用体验。该系统源自《德塔 Socket 流可编程数据库语言引擎...
Kettle是一款强大的开源ETL工具,以其直观的图形界面和丰富的数据处理组件,广泛应用于各种数据整合项目。 **迁移和装载** 是ETL过程中的关键步骤,涉及到数据从源系统到目标系统的移动。在Kettle中,这一过程通常...
《ETL数据整合与处理(Kettle)》教学教案的核心内容围绕Kettle这一工具,讲解如何进行源数据的获取。Kettle是一款开源的数据集成工具,它提供了丰富的数据转换和加载功能,广泛应用于数据仓库构建和大数据处理中。本...
在大数据技术类专业中,ETL(Extract, Transform, Load)数据整合与处理是一个关键的技能,而Kettle作为一款强大的开源ETL工具,提供了丰富的转换组件,用于处理各种复杂的数据任务。本章节将重点讲解Kettle中的高级...
虽然这里没有具体提到某个ETL工具,但常见的如Talend、Informatica和Microsoft SQL Server Integration Services (SSIS)等,它们可以帮助用户从不同来源整合数据,进行格式转换,并导入到目标数据库或数据仓库中,为...
《ETL数据整合与处理(Kettle)》教学教案的第三章着重讲解了记录处理的相关知识,这是在大数据技术类专业中进行数据清洗和整合的重要环节。本章将8个学时用于理论与实践,旨在帮助学生掌握基于记录处理的各种数据转换...
本章旨在教授学生如何利用Kettle工具进行一系列基于字段的操作,以达到数据预处理的目的。 1. **字段处理与记录处理的区别**: - 字段处理关注的是数据集中单个列或属性的变换,如选择特定字段、修改字段值或进行...
3. 在使用ETL工具Unicron时,作者意识到每个节点的界面设计需要大量前端资源,希望找到一种简化方法。 4. 周向宇先生的课程启发了作者,尝试将PLSQL指令翻译成中文,扩大使用者范围。 5. 元基卷积和元基DNN计算流的...
这通常涉及到数据清洗、整合、挖掘等技术,如使用ETL(Extract, Transform, Load)工具进行数据预处理,使用数据挖掘算法(如聚类、分类、关联规则)揭示潜在模式。同时,机器学习技术可以帮助预测市场趋势,推荐...
本资料"现代数据栈与数据建模思考共24页.pdf.zip"深入探讨了这两个主题,下面将对它们进行详细的解析。 首先,现代数据栈通常包括以下几个核心组件: 1. **数据源**:这是数据的起点,可以是各种在线和离线系统,...
通过自动化工具统一维护ETL过程,可以提高效率,减少重复工作。 总的来说,电子商务BI是一个全面的体系,涵盖了从数据获取到决策支持的全过程。正确理解和实施BI,能够帮助企业更好地利用数据,提升决策效率,实现...
Codd分为四种类型:绝对模型、解释模型、思考模型和公式模型。这四种模型分别对应静态和动态的数据分析,从简单的事实描述到复杂的趋势预测。数据仓库工具则包括报表查询工具、验证型工具(如OLAP工具)和发掘型...
7. **Integration Services**(SSIS):这是ETL(提取、转换、加载)工具,用于数据整合和迁移。理解如何设计和执行数据流任务是关键。 8. **Development Environment**:使用Visual Studio 2005,开发者可以创建、...