`

转载:开源ETL工具和商业ETL工具比较(译文)

 
阅读更多

开源ETL工具和商业ETL工具比较(译文)

http://hackfisher.info/blog/2011/07/open-source-etl-compare-commencial-etl-tool-translate/

 

因为我对开源ETL工具也不太了解,正好最近再做这方面的研究,发现了这篇文章概括的还蛮仔细,就翻译过来了,能对现有的开源ETL工具有个初步了解。因为文章好像是08年的,可能已经过时了,以为已经过去快3年了,世事发展变化很快。 —————————————— ——————————————

开源ETL工具和商业ETL工具比较

作者:jonathanlevin 译者:Yangtsefisher 原文地址:http://www.jonathanlevin.co.uk/2008/03/open-source-etl-tools-vs-commerical-etl.html 发表日期:2008年 最近,公司要求我用一个开源ETL工具来代替商业的数据整合工具,Informatica PowerCente r的案例。所以我尽我最大的努力,做了很多研究,并且假设我既没有用过开源工具,也没有用过商业工具。 我找到了很多 Pentaho Kettle 和 Talend之间比较的信息,这是我本来打算研究的两个开源工具。现在,我打算简短的比较一下它们的优劣。声明一下,这些比较是基于我在网上的研究,而非我使用这些工具的经验(事实上,我也没有用过)。

Pentaho Kettle vs Talend

Pentaho Pentaho是一个商业开源的BI套件,有一个数据整合的产品叫做Kettle。 它创新的采用了元驱动的方法,并且拥有一个很强和很好用的GUI。 这个公司开始于2001年(2002左右Kettle被整合进去)。 它有一个13,500注册用户的强大社区。 它有一个独立的Java引擎来运行处理不同数据库和文件之间数据转换的作业和任务。 它可以调度任务(需要一个像cron的调度器)。 它可以运行部署在其他机器上“slave servers”的远程任务。 它拥有数据质量特征: 在它的GUI上,可以写自定义的SQL查询,JavaScript,和正则表达式。 Talend Talend是一个开源的数据整合工具(不是BI套件)。 它使用代码生成的方法。有一个GUI,但是在Eclipse RC里面。 它开始于2006年10月。 它有一个比Pentaho小得多的社区,但是有两个金融公司支持。 它生成可以在你服务器上运行的Java和Perl代码。 它可以调度任务(需要一个像cron的调度器)。 数据质量特征:界面上可以写自定义的SQL查询和Java。 比较 - (就我的理解) Pentaho比Talend更快(两倍也许)。 Pentaho的GUI比Talend的GUI更容易,所以可以花更少的时间学习。 印象 Pentaho的GUI更易用一些。 Talend更像是给那些已经用Java写程序的人,希望可以通过一个工具自动给他们生成代码,从而节省很多时间。 假设Pentaho 晋级下一轮...

Pentaho Kettle vs Informatica

Informatica Informatica是一个非常优秀的数据整合商业套件。 成立于1993年。 它是分享市场的领导者(Gartner 数据来源)。 它有2600多个客户。其中有财富100强,道琼斯上市公司和政府部门。 公司的核心业务就是数据整合。 它用一个非常大的包,整合进企业的系统,清洗他们的数据,并且可以连接到相当多当前的和传统的系统。 它非常贵,需要对你的雇员进行培训后才能使用,甚至有时需要请咨询(听说Informatica的咨询顾问薪资很高)。 它非常的快,并且可以适应大规模的系统。它有一个采用了ELT方法的"下推优化 ",使用数据库来做转化操作,比如Oracle仓库构建。 比较 Pentaho的Javascipt在写数据整合任务的时候非常强大。 Informatica有很多的企业级特性,比如数据库之间的负载均衡。 Pentaho的界面相较于Informatica来说需要的培训要少很多。 Penatho不需要像Informatica那样大的前期投入。 Informatica比Pentaho更快。Informatica有下推优化,但是如果对Pentaho做一些调整,并且有更多对数据库的了解,你可以改进Pentaho的速度。 你可以在许多不同的服务器上部署Pentaho(只要你愿意,免费的),把它当作一个个集群。 Informatic比Pentaho有好的多的监控工具。 印象 Infomatica真的是一个非常好的企业级ETL套件,但是非常大且昂贵。 如果你的系统足够小,我更愿意尝试Pentaho,并且有很多大公司使用Pentaho的案例(一个机场,一个医院)。 结论 我觉得matt casters 有一句话说的好: 开源软件的潮流正在慢慢冲走专有软件的空间。   如果你想补充(或更正)我在这里写的内容,就尽管做吧,因为我自己仍然在试图理解这些产品。 你的观点是有价值的。   谢谢阅读。  

Published: July 07 2011

分享到:
评论

相关推荐

    ETL工具,开源,使用需要配置

    在使用这些开源ETL工具时,我们需要了解每种数据库驱动的配置方式,学习如何编写转换规则来清洗和转换数据,以及如何设置加载策略以确保高效的数据迁移。同时,理解配置文件的结构和用途,可以帮助我们优化工具的...

    PDI构建开源ETL解决方案_.pdf、开源ETL工具-PentahoKettle使用入门.pdf

    标题中的"PDI构建开源ETL解决方案"和"开源ETL工具-Pentaho Kettle使用入门"都指向了同一件事情——使用Pentaho Data Integration(PDI,也常被称为Kettle)来构建开源的企业级数据提取、转换和加载(ETL)解决方案。...

    Kettle解决方案:使用PDI构建开源ETL解决方案

    《Kettle解决方案:使用PDI构建开源ETL解决方案》是一份深入探讨数据集成技术的文档,主要关注开源工具PDI(Pentaho Data Integration)在ETL(提取、转换、加载)过程中的应用。ETL是数据仓库和大数据处理的核心...

    解决方案:使用PDI构建开源ETL解决方案460页.pdf

    解决方案:使用PDI构建开源ETL解决方案-460页.pdf

    解决方案:使用PDI构建开源ETL解决方案源码示例

    标题中的“解决方案:使用PDI构建开源ETL解决方案源码示例”暗示了这是一个关于如何利用Pentaho Data Integration(PDI),也被称为Kettle,来构建数据提取、转换和加载(ETL)流程的实践指南。这个压缩包可能包含了...

    《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》part1

    《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案...

    开源ETL工具Kettle的相关文档

    Kettle,全称为Pentaho Data Integration(PDI),是一款强大的开源ETL(Extract, Transform, Load)工具,广泛应用于数据整合、数据清洗和数据迁移等场景。Kettle由Spoon、Kitchen、Pan等多个组件组成,提供图形化...

    ETL工具 ,基于Kettle实现的Web版ETL工具

    Kettle是一款开源的ETL工具,由Pentaho公司开发,因其强大的数据转换能力和灵活的插件体系而广受赞誉。本项目是基于Kettle实现的Web版ETL工具,旨在提供一种更直观、易用的方式来执行数据处理任务,尤其适合需要进行...

    阿里开源ETL工具DATAX

    阿里开源的DATAX是一款强大的数据同步...总结来说,DATAX是阿里开源的一款强大、灵活的ETL工具,具有丰富的数据源支持和高可用性,适用于各种数据迁移场景。其开源特性鼓励社区参与,促进了其功能的持续优化和扩展。

    Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案.part1.rar

    《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,...

    Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案.pdf

    《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,书中介绍了如何使用PDI来实现数据的剖析、清洗、校验、抽取、转换、加载等各类常见的ETL类工作。 除了ODS/DW...

    Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案.part2.rar

    《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,...

    kettle下载-一款免费开源ETL工具

    总之,Kettle作为一款免费开源的ETL工具,以其强大的功能和友好的用户界面,在数据处理领域受到了广泛的认可和应用。无论是个人项目还是企业级的复杂数据集成需求,Kettle都能提供高效的解决方案。

    ETL工具信息整理

    **基本架构** 可分为两种主要类型:ETL架构和ELT架构。 - **ETL架构**:数据首先被抽取到一个中间层进行转换和清洗,然后再加载到目标数据仓库中。这种架构的优点包括可以减轻目标数据仓库的负担、实现复杂的数据...

    etl工具箱 中文版

    "ETL工具箱 中文版"通常指的是提供一系列ETL功能的软件,旨在帮助用户更方便地执行这些任务,而且界面和文档为中文,更适合中国用户使用。 在数据仓库领域,ETL工具扮演着至关重要的角色。它们的主要功能包括: 1....

    ETL工具Kettle用户手册5.0,开源etl工具kettle,Java源码.zip

    Kettle是一款强大的开源ETL工具,由Pentaho公司开发,其核心组件为 Spoon(设计工具)和 Pan(执行引擎)。Kettle以其灵活、高效和易于使用的特性在IT行业中备受青睐。 本压缩包包含的资源是"ETL工具Kettle用户手册...

    开源ETL工具KETTLE的深入之作

    ### 开源ETL工具KETTLE的深入之作 #### 概述 本文将深入探讨开源ETL(Extract, Transform, Load)工具——Kettle(现称Pentaho Data Integration)。Pentaho Kettle Solutions是一本详细介绍如何使用Pentaho Data ...

    ETL工具Kettle用户手册5.0,开源etl工具kettle,Java

    Kettle是一款强大的开源ETL(Extract, Transform, Load)工具,由Pentaho公司开发并维护。它以其直观的图形化界面、灵活的数据处理能力和高性能而受到业界广泛欢迎。Kettle是用Java编写的,这使得它具有跨平台性,...

    解决方案:使用PDI构建开源ETL解决方案

    解决方案:使用PDI构建开源ETL解决方案.pdf 完整中文版,带目录,460页

Global site tag (gtag.js) - Google Analytics