通常认为ETL就是数据抽取,转换,加载的过程,完全正确.就像数据库就是存储和管理数据的工具一样,然而数据库并不全部是数据的存储,最重要的是管理,即数据的并发性一致性可恢复性管理,包括一系列的进程和内存的管理等等.ETL工具本身也是同样的问题.如果只是抽取转换加载,相信通过PowerBuilder的数据管道技术并加以封装或者一系列的语言工具编码可以做到,并非很难的事情.
之所以思考,是因为阅读了一下<DataStage企业版产品白皮书>,当然也只是粗略的看了一下,其实所有成熟的ETL工具都是相类似的,都是在相互借鉴中不断的完善的结果.
简单的总结一下:
Ø元数据管理,不管通过DBMS进行存储也好,通过XML或者自己的管理系统也好.元数据的管理是必须的,提供了一个可视化的数据字典.
Ø和配置工具的集成,或者内置一个配置库管理工具.
Ø项目化管理和集成环境,统一对系统内的工作流和任务进行管理
Ø任务包中都包含源数据,目标数据的管理,其中也包括关系数据库,平面文件,XML文件,WebService,COBOL等文件的管理
Ø任务包中提供了一系列的排序,转换,合并,连接,过滤,聚合,查找表,复制,分裂,条件分割等等一些通用的数据转换.
Ø数据流架构和流水线即工作流管理,几乎所有的ETL工具都是根据时序进行任务流的处理,这也符合数据仓库的过程化处理要求.其中包括错误处理方式,错误报表,并行处理,时序等待等等.
Ø可伸缩硬件环境支持,最大限度的利用硬件的支持.
Ø并行支持,发挥DBMS的优势,或者通过内置的内存管理进行处理.
不过我有些怀疑ETL的功效,据权威人士统计80%的时间和IO消耗是集中在ETL的抽取和加载环节,而抽取和加载的速度是由DBMS或者其他数据源所决定的,也就是说无论怎么优化,ETL工具的优化也只有20%的余地.有个玩笑:ETL工具执行的效率肯定比不上最好的程序员写的代码的效率,但是起码要比最差的程序员写的代码要强.
也许ETL工具本身就是一个管理的平台,它的意义在于屏蔽底层编码的细节和异构数据源,通过图形化的方式实现数据流程的调度,从而提供开发和管理上的效率,而并非程序执行效率.
分享到:
相关推荐
基于微信小程序的在线办公小程序答辩PPT.pptx
这个数据集来自世界卫生组织(WHO),包含了2000年至2015年期间193个国家的预期寿命和相关健康因素的数据。它提供了一个全面的视角,用于分析影响全球人口预期寿命的多种因素。数据集涵盖了从婴儿死亡率、GDP、BMI到免疫接种覆盖率等多个维度,为研究者提供了丰富的信息来探索和预测预期寿命。 该数据集的特点在于其跨国家的比较性,使得研究者能够识别出不同国家之间预期寿命的差异,并分析这些差异背后的原因。数据集包含22个特征列和2938行数据,涉及的变量被分为几个大类:免疫相关因素、死亡因素、经济因素和社会因素。这些数据不仅有助于了解全球健康趋势,还可以辅助制定公共卫生政策和社会福利计划。 数据集的处理包括对缺失值的处理、数据类型转换以及去重等步骤,以确保数据的准确性和可靠性。研究者可以使用这个数据集来探索如教育、健康习惯、生活方式等因素如何影响人们的寿命,以及不同国家的经济发展水平如何与预期寿命相关联。此外,数据集还可以用于预测模型的构建,通过回归分析等统计方法来预测预期寿命。 总的来说,这个数据集是研究全球健康和预期寿命变化的宝贵资源,它不仅提供了历史数据,还为未来的研究和政策制
基于微信小程序的“健康早知道”微信小程序答辩PPT.pptx
基于微信小程序的电影交流平台答辩PPT.pptx
计算机字符编码GB18030
Hive 操作基础(进阶版)多级分区数据文件2
基于java的贫困生管理系统答辩PPT.pptx
pandas whl安装包,对应各个python版本和系统(具体看资源名字),找准自己对应的下载即可! 下载后解压出来是已.whl为后缀的安装包,进入终端,直接pip install pandas-xxx.whl即可,非常方便。 再也不用担心pip联网下载网络超时,各种安装不成功的问题。
TA_lib库(whl轮子),直接pip install安装即可,下载即用,非常方便,各个python版本对应的都有。 使用方法: 1、下载下来解压; 2、确保有python环境,命令行进入终端,cd到whl存放的目录,直接输入pip install TA_lib-xxxx.whl就可以安装,等待安装成功,即可使用! 优点:无需C++环境编译,下载即用,方便
本压缩包资源说明,你现在往下拉可以看到压缩包内容目录 我是批量上传的基于SpringBoot+Vue的项目,所以描述都一样;有源码有数据库脚本,系统都是测试过可运行的,看文件名即可区分项目~ |Java|SpringBoot|Vue|前后端分离| 开发语言:Java 框架:SpringBoot,Vue JDK版本:JDK1.8 数据库:MySQL 5.7+(推荐5.7,8.0也可以) 数据库工具:Navicat 开发软件: idea/eclipse(推荐idea) Maven包:Maven3.3.9+ 系统环境:Windows/Mac
tornado-6.2b2.tar.gz
javawe论坛项目 原生技术
tornado-6.2b1-cp310-cp310-macosx_10_9_universal2.whl
随着物流行业的快速发展,货运管理变得愈发重要。为了提高货运效率,确保货物安全,我们开发了这款基于司机信用评价的货运管理系统。 该系统主要包含了货物信息管理、订单评价管理、货主管理等多个功能模块。在货物信息管理模块中,用户可以查看和管理货物的详细信息,包括货物名称、规格、装车状态、运输状态以及卸货状态等,方便用户随时掌握货物的动态。 订单评价管理模块是该系统的核心之一,它允许货主对司机的服务进行评价,系统会根据评价数据对司机进行信用评分。这一功能不仅有助于提升司机的服务质量,还能为货主提供更加可靠的货运选择。 此外,货主管理模块提供了货主信息的录入、修改和查询等功能,方便用户管理自己的货主资料。系统界面简洁明了,以蓝色为主色调,设计现代且专业,为用户提供了良好的使用体验。 通过该系统,用户可以轻松实现货物信息的查看和管理,对司机的服务进行评价,提高货运效率和服务质量。同时,系统也为司机提供了一个展示自我、提升信用的平台,有助于推动物流行业的健康发展。
毕业生交流学习平台 SSM毕业设计 附带论文 启动教程:https://www.bilibili.com/video/BV1GK1iYyE2B
基于java的广场舞团答辩PPT.pptx
基于java的基于SSM的校园音乐平台答辩PPT.pptx
Jira插件安装包
项目经过测试均可完美运行! 环境说明: 开发语言:java jdk:jdk1.8 数据库:mysql 5.7+ 数据库工具:Navicat11+ 管理工具:maven 开发工具:idea/eclipse
tornado-6.2b2-cp37-abi3-win_amd64.whl