(转载)原文地址:http://tarsean.iteye.com/blog/515720
Kettle简介:
Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。--摘自百度知道
应用中集成Kettle:
由于项目中使用,现在介绍最简单的集成方式,使用Spoon设计好transformation和job后,在java程序中执行transformation和job
执行transformation:代码很简单,创建Trans并执行就可以
public void executeTrans(String transFileName) throws KettleException{
EnvUtil.initEnviroment();
StepLoader.init();
TransMeta transMeta = new TransMeta(transFileName);
Trans trans = new Trans(transMeta );
trans.execute();
trans.waitUtilFinished()
}
执行job:
代码也很简单,创建job并执行就可以
public void executeJob(String jobFileName) throws KettleException{
EnvUtil.initEnviroment();
JobEntryLoader.init();
StepLoader.init();
LogWriter log = LogWriter.getInstance();
JobMeta jobMeta = new JobMeta(log,jobFileName,null);
Job job = new Job(jobMeta,log);
job.execute();
job.waitUtilFinished()
}
说明:
-
使用transformation时,可以通过Trans,获取其中的每个step,可以为Step添加一个StepListener,这样可以对Step中的数据进行相应的处理,例如如果要获取其中的数据。
-
同样的方式可以用于Job,以此来扩充Kettle,定制自己的业务逻辑
-
执行时可以选择带参数的重载版本,将参数传递到Kettle
分享到:
相关推荐
然而,在Java应用程序中集成Kettle,需要将相关的Jar包添加到项目的类路径中,以便能够调用其API来执行工作流或转换。 首先,要理解Java与Kettle的集成,我们需要知道Kettle的主要组件。Kettle由以下几部分组成: ...
《Kettle应用程序集成代码解析》 Kettle,又名Pentaho Data Integration(PDI),是一款强大的ETL(Extract, Transform, Load)工具,用于数据整合、清洗和加载。它以其直观的图形化界面和丰富的插件库,使得数据...
在java应用程序中集成kettle,需要在项目中引入执行kettle所需要的jar包,包括kettle对应的目录下找到的外部jar包。另外,将kettle目录下plugins目录拷贝到应用程序根目录下,这一点很重要,否则在用transformation...
这种集成方式常用于需要在Java应用程序中触发数据处理流程的场景,例如定时任务、Web服务、批处理系统等,使得数据处理更加灵活和可控。 9. **性能优化** 考虑到性能,可以通过并发执行转换、缓存数据、优化SQL...
标题 "如何将JAVA程序集成到KETTLE中" 提示了我们,这个主题主要讨论的是如何在数据处理工具Kettle(也称为Pentaho Data Integration,简称PDI)中利用Java代码进行扩展和功能增强。Kettle是一个开源的数据集成平台...
Java调用Kettle 5.3任务是一种在Java应用程序中集成Kettle(Pentaho Data Integration,也称为ETL工具)的方式,以便利用其强大的数据转换和加载功能。以下是对这个主题的详细解释: 1. **Kettle简介**:Kettle是一...
标题 "springboot整合kettle项目源码" 描述了一个基于Spring Boot框架的集成Kettle(Pentaho Data Integration,简称KDI)的工程实例。Kettle是一款强大的ETL(提取、转换、加载)工具,它允许开发者通过编写Java...
JAR文件在Java应用程序中是代码的打包形式,它包含了一组类文件和其他资源。在Kettle中,JAR文件通常包含了特定的功能扩展或插件,例如自定义的数据转换步骤、连接器或者特殊功能实现。这些JAR文件被添加到Kettle的...
- "4连接资源库的包"可能指的是Kettle中用于连接不同数据库的JDBC驱动,这些驱动是Kettle连接到各种数据库系统所必需的。Kettle支持多种数据库,如MySQL、Oracle、SQL Server等,因此,确保正确的JDBC驱动被添加到...
在SpringBoot应用中整合Kettle,首先需要理解SpringBoot的基础知识,包括其起步依赖、自动配置、Actuator监控、以及如何通过@SpringBootApplication注解启动一个Spring Boot应用。Kettle的集成则涉及到PDI的API和...
首先,`kettle集成应用之---java调用执行transformation和job.doc`文件详细介绍了如何通过Java API在应用程序中调用Kettle的转换(Transformation)和作业(Job)。转换是Kettle中的基本数据处理单元,由多个步骤...
2. 集成性:可以将Kettle作业无缝集成到现有的Java应用程序或服务中。 3. 自动化:便于自动化部署和执行,例如在持续集成/持续部署(CI/CD)流程中。 总结起来,这个压缩包提供的Java代码示例展示了如何使用Kettle...
1. **JDBC(Java Database Connectivity)**:JDBC是Java语言中用来规范客户端程序如何访问数据库的应用程序接口,为不同的数据库提供统一的调用方法。JDBC驱动是实现JDBC接口的具体类库,使得Java应用程序能够与...
在IT行业中,SpringMVC是一个广泛使用的Java web框架,它为构建高效、可维护的Web应用程序提供了强大的支持。本资源包“SpringMVC精品资源--将kettle集成值web应用中,不再需打开kettle窗口运行,采用springmv.zip”...
RabbitMQ 是一个流行的消息队列系统,用于应用程序之间的异步通信。 描述没有提供具体细节,但我们可以假设内容可能涵盖如何结合 Kettle 和 RabbitMQ 实现数据流的发布和订阅。这通常涉及以下几个关键知识点: 1. ...
首先,`mysql` JAR包是连接MySQL数据库所必需的,它包含了MySQL JDBC驱动程序,允许Kettle通过Java应用程序接口与MySQL服务器通信。在MySQL官网或者第三方库如Maven仓库可以找到对应的JDBC驱动程序。导入此JAR包后,...
总之,"Kettle Plugins.zip"为Java开发者提供了丰富的工具集,使得他们能够无缝集成Kettle的强大数据处理能力,以应对各种复杂的数据挑战。正确地利用这些插件,可以大大提高数据工程项目的效率和灵活性。
这种集成通常需要配置Spark连接参数,如Master URL、Spark版本、应用程序名称等。 3. **Spark作业设计**:在Kettle中,用户可以使用`Job Spark.kjb`这样的文件来定义Spark作业。作业中可能包含启动Spark Context、...
标题 "kettle 连接sqlserver 驱动" 涉及到的是在数据集成工具 Pentaho Data Integration(简称 Kettle 或 PDI)中,如何配置和使用 SQL Server 数据库的连接。Kettle 是一个强大的ETL(Extract, Transform, Load)...
这个驱动包允许Java应用程序(如Kettle)与ClickHouse服务器建立连接并执行SQL查询。 要让Kettle连接到ClickHouse,你需要遵循以下步骤: 1. **下载驱动**:首先,你需要从可靠的源下载ClickHouse的JDBC驱动。这...