1 随数据库环境的不同可能会使用不同的工具,不过这一点并没有限制,大多工具都支持不同的数据环境。有时可以是几种工具并用,主辅结合; oracle下可选odi,GoldenGate;sqldeveloper亦可作为加载数据的工具; oracle warehouse则使用owb; ibm下可选vw(visual warehouse); mysql下可选kettle,GoldenGate; mssql下则使用独门的dts; 2 学习的话,可先熟悉kettle,GoldenGate。
追问
多谢大哥的回答,我还有一个疑问,项目用的都是mysql,现在有个数据抽取的功能要实现,因为没接触过ETL方面的东西,所以不知到哪个软件合适,那kettle如果在抽取数据的时候失败了(某种原因中断,可能抽了一部分数据),那对这次还没有抽取的数据,kettle的处理策略是怎样的呢?? kettle有没有定时抽取的机制??
追答
1 kettle是个轻量的工具,只是提供了实现功能的技术片段或基础组件,每个环节的策略需自己设计和组合各技术片段实现。换句话说,它并没有提供一个完整的策略供直接应用。 2 可以考虑以下方式: (1)使用源和目标表的时间戳对比,出错后按时间戳再开始即可; (2)每日的源数据生成一个平面数据文件,先插入到中间表(这个表每日一个,只保存当日操作的数据,这个处理期间可以进行初级汇总、验证等),再从这个中间表取数据加载到目标表(这个过程还可以完成再汇总等附加功能);出错可以设计为生成错误记录,回退则处理为当日中间表的记录在目标表中的对应删除,然后重新加载;
相关推荐
开源软件通常拥有活跃的社区支持,开发者可以通过源代码了解工具的工作原理,并可以根据需要进行改进。这种开放性提供了灵活性和可扩展性,使得ETL工具能更好地适应不同的业务场景。 在提供的压缩包文件中,我们...
作为开源软件,EplSite ETL具有以下优势: 1. **成本效益**:免费且无版权费用,节省企业软件投入。 2. **社区支持**:用户可以利用活跃的开发者社区解决问题,获取持续更新和改进。 3. **可扩展性**:开源代码允许...
Kettle是一款开源的ETL工具,由Pentaho公司开发,因其强大的数据转换能力和灵活的插件体系而广受赞誉。本项目是基于Kettle实现的Web版ETL工具,旨在提供一种更直观、易用的方式来执行数据处理任务,尤其适合需要进行...
1、可自动读取kettle开源ETL软件ktr设置文件中的SQL等配置信息; 2、SQL脚本代码的编辑更新功能,大大简化对ETL代码的管理与维护; 3、可独立于kettle开源ETL软件之外直接进行ETL,可作为kettle故障时的应急系统使用...
Kettle,全称为Pentaho Data Integration(简称PDI),是一款功能强大的开源ETL(Extract, Transform, Load)工具,由社区驱动并免费提供。它允许用户从各种数据源抽取数据,进行清洗、转换和加载到不同的目标系统,...
**ETL(Extract, Transform, Load)**是数据仓库领域中的关键过程,它涉及从不同源系统中抽取数据,对数据...在开源软件日益普及的今天,掌握PDI这样的工具对于数据处理和分析的专业人士来说,无疑是一项重要的技能。
Kettle最早是一个开源的ETL(Extract-Transform-Load的缩写)工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。后来Kettle重命名为Pentaho Data Integration 。 它由Java开发...
Jaspersoft ETL 是一款强大的开源数据集成工具,专门用于数据提取、转换和加载(ETL)过程。ETL 是数据分析领域中的核心组件,它负责从各种不同的源系统中抽取数据,然后清洗、转换为一致格式,最后加载到目标系统,...
文章首先指出了大数据分析中选用开源软件的优势,包括降低非技术风险和成本,并且有利于长期的技术发展。例如,IBM的DataStage和Informatica是两款商业ETL软件,而Kettle作为一款开源ETL工具,提供了灵活的组件构建...
数据整合框架; 可用于转换/映射/处理各种格式的数据(CSV,FIXLEN,XML,JSON,XBASE,COBOL,LOTUS等)。 连接到RDBMS / JMS / SOAP / LDAP / S3 / HTTP / FTP / ZIP / TAR。
开源软件与AWS云服务是现代信息技术领域的重要组成部分,它们共同推动了技术创新和行业发展。开源软件是指那些源代码开放、允许用户自由使用、修改和分发的软件。这种模式鼓励开发者之间的合作,促进了软件技术的...
### ETL概述 #### 1. ETL的基本概念 ETL是Extract(抽取)、Transform(转换)和Load(加载)三个英文单词首字母的缩写,它是一种将来自不同源的数据提取出来,经过清洗、转换、集成后统一加载到目标数据库的过程。...
移至sf.net/projects/cloveretl/ !!! CloverETL是一个Java ETL框架,可以转换结构化或非结构化数据。 作为独立应用程序工作,或作为功能的数据转换库嵌入在其他应用程序中。
开源软件意味着该工具的源代码是公开的,允许用户自由地查看、使用、修改和分发,这对于学习和定制ETL流程非常有帮助。开源软件社区通常活跃,开发者们可以相互交流,共同改进软件功能,确保其持续更新和优化。 在...
开始使用 Hadoop 和 NoSQL 以及免费的开源 ETL 和 ELT 软件,在任何地方进行大数据集成和转换。 只需拖放和配置预构建的组件,生成本机代码,然后部署到 Hadoop,即可轻松地将 EDW 卸载和摄取、加载和卸载数据到本地...
开源ETL工具kettle实战gbase8s数据迁移
- **开源ETL工具**:如Pentaho Kettle(现更名为Hitachi Vantara Pentaho Data Integration)、CloverETL 等。 这些工具各有特点,用户可以根据项目需求选择最适合的工具。 #### Kettle工具基本使用 **Kettle**...
1. **开放源代码**:作为开源软件,迁移机器ETL允许用户自由查看、修改和分发源代码,极大地促进了社区的协作和创新,同时也降低了企业的使用成本。 2. **Java基础**:利用Java语言的强大跨平台性,确保了ETL过程在...
4. **ETL工具**: 为了简化ETL流程,许多商业和开源工具应运而生,如Talend、Informatica、SSIS (SQL Server Integration Services) 等。这些工具提供图形化界面,帮助用户定义和执行ETL任务,提高工作效率,减少手动...
Kettle,又称Pentaho Data Integration (PDI),是一款强大的开源ETL(Extract, Transform, Load)工具。它提供了一整套图形化的工作流和数据转换解决方案,使得数据的抽取、清洗、转换和加载变得简单易行。在本手册...