Kettle的一些应用问题
摘要:本文主要介绍使用kettle设计一些ETL任务的时候可能遇到的跟kettle环境有关的一些问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案
1. Join
我得到A 数据流(不管是基于文件或数据库),A包含field1 , field2 , field3 字段,然后我还有一个B数据流,B包含field4 , field5 , field6 , 我现在想把它们 ‘加’ 起来, 应该怎么样做.
这是新手最容易犯错的一个地方,A数据流跟B数据流能够Join,肯定是它们包含join key ,join key 可以是一个字段也可以是多个字段。如果两个数据流没有join key ,那么它们就是在做笛卡尔积,一般很少会这样。比如你现在需要列出一个员工的姓名和他所在部门的姓名,如果这是在同一个数据库,************************
5 .事务型ETL
Kettle里面是没有所谓事务的概念的,每个步骤都是自己管理自己的连接的,在这个步骤开始的时候打开数据库连接,在结束的时候关闭数据库连接,一个步骤是肯定不会跨session的(数据库里面的session), 另外,由于kettle是并行执行的,所以不可能把一个数据库连接打×××××××××××××
7. kettle的性能
kettle本身的性能绝对是能够应对大型应用的,一般的基于平均行长100的一条记录,即使源数据库和目标数据库以及kettle都在同一台机器上(最常见的桌面工作模式,双核,1G内存),速度大概都可以到
尽量使用数据库连接池
尽量提高批处理的commit size
尽量使用缓存,缓存尽量大一些
Kettle 是Java 做的,尽量用大一点的内存参数启动Kettle.
可以使用sql 来做的一些操作尽量用sql
Group , merge , stream lookup ,split field 这些操作都是比较慢的,想办法避免他们.
插入大量数据的时***********************
10 . 字符集
原文地址在我的新blog : http:www.gemini5201314.net
分享到:
相关推荐
Kettle技术应用及常见问题处理,如:SAP接口调用、webservice接口调用、连接oracle12c等
kettle集成应用之java调用执行transformation和job kettle是一款功能强大的数据集成工具,可以在java应用程序中集成应用,实现调用资源库上和本地的transformation和job。下面是kettle集成应用的详细知识点: 一、...
将kettle集成值web应用中,不再需打开kettle窗口运行,并通过spring自动任务进行数据抽取,数据库采用数据源(jndi)的方式进行管理。配置简单方便。(之前需要kettle打开其运行环境,并配置数据库连接的相关信息)
### Kettle 常见问题解析 #### 一、使用Kettle从MySQL向Oracle中抽取数据的例子 在Kettle中实现从MySQL到Oracle的数据抽取,首先确保安装的是Kettle 4.1.0版本,并通过Spoon.bat启动Spoon客户端。 1. **创建转换*...
在“Kettle解决方案实例”中,我们可以通过提供的代码示例来深入理解Kettle的强大功能和实际应用。 首先,我们来看一下Kettle的核心概念。ETL是数据处理的三个关键步骤: 1. **提取(Extract)**:从数据库、文件、...
想,kettle 集成到自己的web应用中。只要把kjb文件扔到webApp中就能够自动执行该JOB。可以初步解决项目问题。 附件是初步成果,web目录结构下源码。lib因为上传大小限制就没有上传,可以看.classPath文件 其实都是...
kettle_使用中的一些常见问题.pdf Kettle_命令行使用.pdf kettle中文文档之output.pdf Kettle例子.pdf Kettle关于平面数据的导入.pdf Kettle初探.pdf Kettle命令行使用说明.pdf Kettle培训.ppt KETTLE基本...
同时,Kettle工具的性能也存在一些限制,例如大规模数据同步和转换时可能会出现性能问题。 8. 结论 Kettle工具是一个功能强大且灵活的ETL工具,能够满足各种数据同步和转换需求。通过本文的实践经验和实践,希望...
Kettle 简单应用 Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,可以在 Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把各种数据放到一个...
1. 解决表名替换问题:在 Kettle 中,解决表名替换问题是设置循环变量的关键步骤。Kettle 提供了设置变量的步骤,可以将查询出的表名作为变量,在 Kettle 内进行传递赋值。 2. 使用 Trans 脚本实现遍历查询出的表名...
### Kettle中调用RESTful接口时的SSL信任证书问题详解 #### 一、背景介绍 Kettle(也称为Pentaho Data Integration, PDI)是一款开源的数据集成工具,广泛应用于数据清洗、转换以及加载(ETL)等场景。在进行ETL...
### ETL开发工具Kettle中表输入问题解析 #### ETL与Kettle简介 - **ETL**: Extract(提取)、Transform(转换)、Load(加载)的缩写,是一种常用的数据处理流程,主要用于将数据从来源端经过抽取、转换、加载至...
《Kettle与达梦数据库的整合:深入理解kettle-core-8.1.0.0-365_kettle_kettle达梦8_》 Kettle,也被称为Pentaho Data Integration (PDI),是一款强大的数据集成工具,它提供了一种图形化的界面,让用户能够设计、...
3. **Library dependencies**:Kettle依赖于一些第三方库,如JDBC驱动、Apache Commons、Log4j等。这些也需要被包含在Java项目的类路径中。 4. **Swing和WebUI**:如果你的应用需要图形界面,那么可能还需要`kettle...
Kettle,又称Pentaho Data Integration(PDI),是一款强大的ETL(Extract, Transform, Load)工具,广泛应用于数据仓库和大数据处理项目中。它提供了图形化的界面,使得数据抽取、转换和加载过程变得直观易懂,非常...
7. **异常处理和日志记录**:确保Kettle的错误和日志信息能够正确地被Spring Boot的日志系统捕获和记录,以便于问题排查。 通过以上步骤,我们可以将Kettle的强大数据处理能力无缝融入到Spring Boot应用中,实现...
Pentaho Data Integration (PDI) 或称为 Kettle,是一款强大的开源 ETL (Extract, Transform, Load) 工具,广泛应用于数据集成领域。Kettle 以其高度可扩展性和灵活性而闻名,支持多种数据源和目标系统之间的数据...
《Kettle应用程序集成代码解析》 Kettle,又名Pentaho Data Integration(PDI),是一款强大的ETL(Extract, Transform, Load)工具,用于数据整合、清洗和加载。它以其直观的图形化界面和丰富的插件库,使得数据...
Kettle由Pentaho公司开发维护,其主要功能包括数据清洗、数据转换以及数据集成等,广泛应用于大数据处理领域。 #### 二、Kettle 9.0版本特点 Kettle 9.0作为最新版本之一,相对于之前的版本进行了大量的改进与优化...
综上所述,Kettle实战教程提供了对Kettle工具深入的介绍和操作指导,内容覆盖了Kettle的基础知识、安装配置、实际操作和高级应用。通过本教程,用户可以有效提高使用Kettle进行数据处理和运维自动化的能力。