论坛首页 Java企业应用论坛

开源的 ETL 框架——CloverETL

浏览 23020 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2004-02-12  
ETL 是一切数据仓库应用的基础。CloverETL 是一个基于 Java 的开源的 ETL 框架。核心的算法就是一个数据流网络。
http://cloveretl.berlios.de
附件是这个框架比较简单的设计思想。
   发表时间:2004-02-12  
好东西,看一下先
不知道性能如何?
0 请登录后投票
   发表时间:2004-02-13  
主要还是性能问题。

看这个模型,好像是通过不断的过滤,重组数据来得到结果。

没有看过具体资料, 可能是说错了。
0 请登录后投票
   发表时间:2004-02-13  
这个其实只是一个框架,真正的转换是在节点上做的,这些都得自己去实现。这个框架只是一个原型,真正的 ETL 比这个要复杂得多。
我们并没有用这个框架,只是用这种思想自己实现了一个用于多点数据同步的 Server。
0 请登录后投票
   发表时间:2004-04-15  
请问有没有图形化的ETL工具能自动导入数据啊?
0 请登录后投票
   发表时间:2004-04-15  
图形化的ETL工具有很多(大部分都是商业软件),在大部分的决策分析软件中都可以看到,至于自动导入数据,那就要看你对自动的定义了。
0 请登录后投票
   发表时间:2004-04-16  
ah_cai 写道
图形化的ETL工具有很多(大部分都是商业软件),在大部分的决策分析软件中都可以看到,至于自动导入数据,那就要看你对自动的定义了。


请问有FREE的吗?
0 请登录后投票
   发表时间:2004-08-19  
DB2提供图形化的ETL数据清理。。
0 请登录后投票
   发表时间:2005-01-24  
jlinux 写道
主要还是性能问题。

看这个模型,好像是通过不断的过滤,重组数据来得到结果。

没有看过具体资料, 可能是说错了。


过滤,重组数据不是引起性能问题的起因,他们是业务逻辑,在同一个进程内,能引起性能问题的也是业务代码,而不是这个框架。

目前我看到两个引起性能问题的地方:
1. Node的机制。他的每个Node都是一个单独的Thread,Node与Node之间通过Edge来通讯,Edge里主要是n个bytebuffer,用于储存数据。Node要向一个Edge写数据,首先要等Edge的write key,等到key以后,还要在n个Buffer伦询哪个buffer是空的,找到空的就往里写数据,没找到还得等。读也是相同的过程。如果一个Node能应多条Edge,那就更慢了,它也是轮询每个Edge,哪个edge blocked了,程序也blocked住了。
Node是作Transform的,属于计算密集形,没有IO上的瓶颈,因此,能于1-2个cpu的机器来说,引入多线程没有多大好处,相反,大量的同步及node间的data buffers轮询阻碍了程序的运行。

2.DataRecord的DataField的serialize中,它还要检查类的类型(instanceof去确定能不能进行某个操作,比如DateField的putInt能不能执行,这也是完全没有必要的。因为已经有metadata,而且是程序内部,因此完全没有必要检查,况且,它检查了也就是扔一个Exception,又有什么用呢。
因为有metadata,而且是
0 请登录后投票
   发表时间:2005-02-18  
对这个ETL工具我有过初步的研究。
但我觉得这个东西离实用的ETL还差得远。
我觉得ETL一个重要的问题就是如何增量抽取数据的问题。这是从数据仓库的需求引出的。一个数据仓库是用来对大量数据进行统计分析的,需要对原始数据进行某种规则的同步。不可能每次都清空,然后把所有数据都导入吧?对真正大量的数据(百万至千万级记录),显然是不可能的。

既然CloverETL没有这方面的考虑,那我目前还是持观望的态度。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics