开源ETL工具和商业ETL工具比较(译文)
http://hackfisher.info/blog/2011/07/open-source-etl-compare-commencial-etl-tool-translate/
因为我对开源ETL工具也不太了解,正好最近再做这方面的研究,发现了这篇文章概括的还蛮仔细,就翻译过来了,能对现有的开源ETL工具有个初步了解。因为文章好像是08年的,可能已经过时了,以为已经过去快3年了,世事发展变化很快。
——————————————
——————————————
开源ETL工具和商业ETL工具比较
作者:jonathanlevin
译者:Yangtsefisher
原文地址:http://www.jonathanlevin.co.uk/2008/03/open-source-etl-tools-vs-commerical-etl.html
发表日期:2008年
最近,公司要求我用一个开源ETL工具来代替商业的数据整合工具,Informatica PowerCente
r的案例。所以我尽我最大的努力,做了很多研究,并且假设我既没有用过开源工具,也没有用过商业工具。
我找到了很多 Pentaho Kettle 和 Talend之间比较的信息,这是我本来打算研究的两个开源工具。现在,我打算简短的比较一下它们的优劣。声明一下,这些比较是基于我在网上的研究,而非我使用这些工具的经验(事实上,我也没有用过)。
Pentaho Kettle vs Talend
Pentaho
Pentaho是一个商业开源的BI套件,有一个数据整合的产品叫做Kettle。
它创新的采用了元驱动的方法,并且拥有一个很强和很好用的GUI。
这个公司开始于2001年(2002左右Kettle被整合进去)。
它有一个13,500注册用户的强大社区。
它有一个独立的Java引擎来运行处理不同数据库和文件之间数据转换的作业和任务。
它可以调度任务(需要一个像cron的调度器)。
它可以运行部署在其他机器上“slave servers”的远程任务。
它拥有数据质量特征: 在它的GUI上,可以写自定义的SQL查询,JavaScript,和正则表达式。
Talend
Talend是一个开源的数据整合工具(不是BI套件)。
它使用代码生成的方法。有一个GUI,但是在Eclipse RC里面。
它开始于2006年10月。
它有一个比Pentaho小得多的社区,但是有两个金融公司支持。
它生成可以在你服务器上运行的Java和Perl代码。
它可以调度任务(需要一个像cron的调度器)。
数据质量特征:界面上可以写自定义的SQL查询和Java。
比较
- (就我的理解)
Pentaho比Talend更快(两倍也许)。
Pentaho的GUI比Talend的GUI更容易,所以可以花更少的时间学习。
印象
Pentaho的GUI更易用一些。
Talend更像是给那些已经用Java写程序的人,希望可以通过一个工具自动给他们生成代码,从而节省很多时间。
假设Pentaho 晋级下一轮...
Pentaho Kettle vs Informatica
Informatica
Informatica是一个非常优秀的数据整合商业套件。
成立于1993年。
它是分享市场的领导者(Gartner 数据来源)。
它有2600多个客户。其中有财富100强,道琼斯上市公司和政府部门。
公司的核心业务就是数据整合。
它用一个非常大的包,整合进企业的系统,清洗他们的数据,并且可以连接到相当多当前的和传统的系统。
它非常贵,需要对你的雇员进行培训后才能使用,甚至有时需要请咨询(听说Informatica的咨询顾问薪资很高)。
它非常的快,并且可以适应大规模的系统。它有一个采用了ELT方法的"下推优化
",使用数据库来做转化操作,比如Oracle仓库构建。
比较
Pentaho的Javascipt在写数据整合任务的时候非常强大。
Informatica有很多的企业级特性,比如数据库之间的负载均衡。
Pentaho的界面相较于Informatica来说需要的培训要少很多。
Penatho不需要像Informatica那样大的前期投入。
Informatica比Pentaho更快。Informatica有下推优化,但是如果对Pentaho做一些调整,并且有更多对数据库的了解,你可以改进Pentaho的速度。
你可以在许多不同的服务器上部署Pentaho(只要你愿意,免费的),把它当作一个个集群。
Informatic比Pentaho有好的多的监控工具。
印象
Infomatica真的是一个非常好的企业级ETL套件,但是非常大且昂贵。
如果你的系统足够小,我更愿意尝试Pentaho,并且有很多大公司使用Pentaho的案例(一个机场,一个医院)。
结论
我觉得matt casters
有一句话说的好:
开源软件的潮流正在慢慢冲走专有软件的空间。
如果你想补充(或更正)我在这里写的内容,就尽管做吧,因为我自己仍然在试图理解这些产品。
你的观点是有价值的。
谢谢阅读。
Published:
July
07
2011
分享到:
相关推荐
在使用这些开源ETL工具时,我们需要了解每种数据库驱动的配置方式,学习如何编写转换规则来清洗和转换数据,以及如何设置加载策略以确保高效的数据迁移。同时,理解配置文件的结构和用途,可以帮助我们优化工具的...
标题中的"PDI构建开源ETL解决方案"和"开源ETL工具-Pentaho Kettle使用入门"都指向了同一件事情——使用Pentaho Data Integration(PDI,也常被称为Kettle)来构建开源的企业级数据提取、转换和加载(ETL)解决方案。...
《Kettle解决方案:使用PDI构建开源ETL解决方案》是一份深入探讨数据集成技术的文档,主要关注开源工具PDI(Pentaho Data Integration)在ETL(提取、转换、加载)过程中的应用。ETL是数据仓库和大数据处理的核心...
解决方案:使用PDI构建开源ETL解决方案-460页.pdf
标题中的“解决方案:使用PDI构建开源ETL解决方案源码示例”暗示了这是一个关于如何利用Pentaho Data Integration(PDI),也被称为Kettle,来构建数据提取、转换和加载(ETL)流程的实践指南。这个压缩包可能包含了...
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案...
Kettle,全称为Pentaho Data Integration(PDI),是一款强大的开源ETL(Extract, Transform, Load)工具,广泛应用于数据整合、数据清洗和数据迁移等场景。Kettle由Spoon、Kitchen、Pan等多个组件组成,提供图形化...
Kettle是一款开源的ETL工具,由Pentaho公司开发,因其强大的数据转换能力和灵活的插件体系而广受赞誉。本项目是基于Kettle实现的Web版ETL工具,旨在提供一种更直观、易用的方式来执行数据处理任务,尤其适合需要进行...
阿里开源的DATAX是一款强大的数据同步...总结来说,DATAX是阿里开源的一款强大、灵活的ETL工具,具有丰富的数据源支持和高可用性,适用于各种数据迁移场景。其开源特性鼓励社区参与,促进了其功能的持续优化和扩展。
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,...
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,书中介绍了如何使用PDI来实现数据的剖析、清洗、校验、抽取、转换、加载等各类常见的ETL类工作。 除了ODS/DW...
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,...
总之,Kettle作为一款免费开源的ETL工具,以其强大的功能和友好的用户界面,在数据处理领域受到了广泛的认可和应用。无论是个人项目还是企业级的复杂数据集成需求,Kettle都能提供高效的解决方案。
**基本架构** 可分为两种主要类型:ETL架构和ELT架构。 - **ETL架构**:数据首先被抽取到一个中间层进行转换和清洗,然后再加载到目标数据仓库中。这种架构的优点包括可以减轻目标数据仓库的负担、实现复杂的数据...
"ETL工具箱 中文版"通常指的是提供一系列ETL功能的软件,旨在帮助用户更方便地执行这些任务,而且界面和文档为中文,更适合中国用户使用。 在数据仓库领域,ETL工具扮演着至关重要的角色。它们的主要功能包括: 1....
Kettle是一款强大的开源ETL工具,由Pentaho公司开发,其核心组件为 Spoon(设计工具)和 Pan(执行引擎)。Kettle以其灵活、高效和易于使用的特性在IT行业中备受青睐。 本压缩包包含的资源是"ETL工具Kettle用户手册...
### 开源ETL工具KETTLE的深入之作 #### 概述 本文将深入探讨开源ETL(Extract, Transform, Load)工具——Kettle(现称Pentaho Data Integration)。Pentaho Kettle Solutions是一本详细介绍如何使用Pentaho Data ...
Kettle是一款强大的开源ETL(Extract, Transform, Load)工具,由Pentaho公司开发并维护。它以其直观的图形化界面、灵活的数据处理能力和高性能而受到业界广泛欢迎。Kettle是用Java编写的,这使得它具有跨平台性,...
解决方案:使用PDI构建开源ETL解决方案.pdf 完整中文版,带目录,460页