锁定老帖子 主题:开源的 ETL 框架——CloverETL
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2004-02-12
声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2004-02-12
好东西,看一下先
不知道性能如何? |
|
返回顶楼 | |
发表时间:2004-02-13
主要还是性能问题。
看这个模型,好像是通过不断的过滤,重组数据来得到结果。 没有看过具体资料, 可能是说错了。 |
|
返回顶楼 | |
发表时间:2004-02-13
这个其实只是一个框架,真正的转换是在节点上做的,这些都得自己去实现。这个框架只是一个原型,真正的 ETL 比这个要复杂得多。
我们并没有用这个框架,只是用这种思想自己实现了一个用于多点数据同步的 Server。 |
|
返回顶楼 | |
发表时间:2004-04-15
请问有没有图形化的ETL工具能自动导入数据啊?
|
|
返回顶楼 | |
发表时间:2004-04-15
图形化的ETL工具有很多(大部分都是商业软件),在大部分的决策分析软件中都可以看到,至于自动导入数据,那就要看你对自动的定义了。
|
|
返回顶楼 | |
发表时间:2004-04-16
ah_cai 写道 图形化的ETL工具有很多(大部分都是商业软件),在大部分的决策分析软件中都可以看到,至于自动导入数据,那就要看你对自动的定义了。
请问有FREE的吗? |
|
返回顶楼 | |
发表时间:2004-08-19
DB2提供图形化的ETL数据清理。。
|
|
返回顶楼 | |
发表时间:2005-01-24
jlinux 写道 主要还是性能问题。
看这个模型,好像是通过不断的过滤,重组数据来得到结果。 没有看过具体资料, 可能是说错了。 过滤,重组数据不是引起性能问题的起因,他们是业务逻辑,在同一个进程内,能引起性能问题的也是业务代码,而不是这个框架。 目前我看到两个引起性能问题的地方: 1. Node的机制。他的每个Node都是一个单独的Thread,Node与Node之间通过Edge来通讯,Edge里主要是n个bytebuffer,用于储存数据。Node要向一个Edge写数据,首先要等Edge的write key,等到key以后,还要在n个Buffer伦询哪个buffer是空的,找到空的就往里写数据,没找到还得等。读也是相同的过程。如果一个Node能应多条Edge,那就更慢了,它也是轮询每个Edge,哪个edge blocked了,程序也blocked住了。 Node是作Transform的,属于计算密集形,没有IO上的瓶颈,因此,能于1-2个cpu的机器来说,引入多线程没有多大好处,相反,大量的同步及node间的data buffers轮询阻碍了程序的运行。 2.DataRecord的DataField的serialize中,它还要检查类的类型(instanceof去确定能不能进行某个操作,比如DateField的putInt能不能执行,这也是完全没有必要的。因为已经有metadata,而且是程序内部,因此完全没有必要检查,况且,它检查了也就是扔一个Exception,又有什么用呢。 因为有metadata,而且是 |
|
返回顶楼 | |
发表时间:2005-02-18
对这个ETL工具我有过初步的研究。
但我觉得这个东西离实用的ETL还差得远。 我觉得ETL一个重要的问题就是如何增量抽取数据的问题。这是从数据仓库的需求引出的。一个数据仓库是用来对大量数据进行统计分析的,需要对原始数据进行某种规则的同步。不可能每次都清空,然后把所有数据都导入吧?对真正大量的数据(百万至千万级记录),显然是不可能的。 既然CloverETL没有这方面的考虑,那我目前还是持观望的态度。 |
|
返回顶楼 | |