`
jjjava
  • 浏览: 185257 次
  • 性别: Icon_minigender_1
  • 来自: wuhan
社区版块
存档分类
最新评论

Kettle的一些应用问题

阅读更多
Kettle的一些应用问题

摘要:本文主要介绍使用kettle设计一些ETL任务的时候可能遇到的跟kettle环境有关的一些问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案

1. Join

我得到A 数据流(不管是基于文件或数据库),A包含field1 , field2 , field3 字段,然后我还有一个B数据流,B包含field4 , field5 , field6 , 我现在想把它们 ‘加’ 起来, 应该怎么样做.

这是新手最容易犯错的一个地方,A数据流跟B数据流能够Join,肯定是它们包含join key ,join key 可以是一个字段也可以是多个字段。如果两个数据流没有join key ,那么它们就是在做笛卡尔积,一般很少会这样。比如你现在需要列出一个员工的姓名和他所在部门的姓名,如果这是在同一个数据库,************************



5 .事务型ETL

Kettle里面是没有所谓事务的概念的,每个步骤都是自己管理自己的连接的,在这个步骤开始的时候打开数据库连接,在结束的时候关闭数据库连接,一个步骤是肯定不会跨session的(数据库里面的session), 另外,由于kettle是并行执行的,所以不可能把一个数据库连接打×××××××××××××



7. kettle的性能

kettle本身的性能绝对是能够应对大型应用的,一般的基于平均行长100的一条记录,即使源数据库和目标数据库以及kettle都在同一台机器上(最常见的桌面工作模式,双核,1G内存),速度大概都可以到

尽量使用数据库连接池

尽量提高批处理的commit size

尽量使用缓存,缓存尽量大一些

Kettle 是Java 做的,尽量用大一点的内存参数启动Kettle.

可以使用sql 来做的一些操作尽量用sql

Group , merge , stream lookup ,split field 这些操作都是比较慢的,想办法避免他们.

插入大量数据的时***********************



10 . 字符集


原文地址在我的新blog : http:www.gemini5201314.net
分享到:
评论

相关推荐

    Kettle技术应用及常见问题处理

    Kettle技术应用及常见问题处理,如:SAP接口调用、webservice接口调用、连接oracle12c等

    kettle集成应用之---java调用执行transformation和job

    kettle集成应用之java调用执行transformation和job kettle是一款功能强大的数据集成工具,可以在java应用程序中集成应用,实现调用资源库上和本地的transformation和job。下面是kettle集成应用的详细知识点: 一、...

    web应用集成kettle

    将kettle集成值web应用中,不再需打开kettle窗口运行,并通过spring自动任务进行数据抽取,数据库采用数据源(jndi)的方式进行管理。配置简单方便。(之前需要kettle打开其运行环境,并配置数据库连接的相关信息)

    kettle 常见问题

    ### Kettle 常见问题解析 #### 一、使用Kettle从MySQL向Oracle中抽取数据的例子 在Kettle中实现从MySQL到Oracle的数据抽取,首先确保安装的是Kettle 4.1.0版本,并通过Spoon.bat启动Spoon客户端。 1. **创建转换*...

    Kettle解决方案实例

    在“Kettle解决方案实例”中,我们可以通过提供的代码示例来深入理解Kettle的强大功能和实际应用。 首先,我们来看一下Kettle的核心概念。ETL是数据处理的三个关键步骤: 1. **提取(Extract)**:从数据库、文件、...

    kettle 集成到自己的应用中_实例

    想,kettle 集成到自己的web应用中。只要把kjb文件扔到webApp中就能够自动执行该JOB。可以初步解决项目问题。 附件是初步成果,web目录结构下源码。lib因为上传大小限制就没有上传,可以看.classPath文件 其实都是...

    BI Kettle中文文档汇集

    kettle_使用中的一些常见问题.pdf Kettle_命令行使用.pdf kettle中文文档之output.pdf Kettle例子.pdf Kettle关于平面数据的导入.pdf Kettle初探.pdf Kettle命令行使用说明.pdf Kettle培训.ppt KETTLE基本...

    Kettle工具实例(个人应用总结)

    同时,Kettle工具的性能也存在一些限制,例如大规模数据同步和转换时可能会出现性能问题。 8. 结论 Kettle工具是一个功能强大且灵活的ETL工具,能够满足各种数据同步和转换需求。通过本文的实践经验和实践,希望...

    Kettle简单应用.pptx

    Kettle 简单应用 Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,可以在 Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把各种数据放到一个...

    kettle设置循环变量

    1. 解决表名替换问题:在 Kettle 中,解决表名替换问题是设置循环变量的关键步骤。Kettle 提供了设置变量的步骤,可以将查询出的表名作为变量,在 Kettle 内进行传递赋值。 2. 使用 Trans 脚本实现遍历查询出的表名...

    kettle中调用restful接口时的SSL信任证书问题

    ### Kettle中调用RESTful接口时的SSL信任证书问题详解 #### 一、背景介绍 Kettle(也称为Pentaho Data Integration, PDI)是一款开源的数据集成工具,广泛应用于数据清洗、转换以及加载(ETL)等场景。在进行ETL...

    ETL开发工具Kettle中表输入问题

    ### ETL开发工具Kettle中表输入问题解析 #### ETL与Kettle简介 - **ETL**: Extract(提取)、Transform(转换)、Load(加载)的缩写,是一种常用的数据处理流程,主要用于将数据从来源端经过抽取、转换、加载至...

    kettle-core-8.1.0.0-365_kettle_kettle达梦8_

    《Kettle与达梦数据库的整合:深入理解kettle-core-8.1.0.0-365_kettle_kettle达梦8_》 Kettle,也被称为Pentaho Data Integration (PDI),是一款强大的数据集成工具,它提供了一种图形化的界面,让用户能够设计、...

    java集成kettle所有jar包

    3. **Library dependencies**:Kettle依赖于一些第三方库,如JDBC驱动、Apache Commons、Log4j等。这些也需要被包含在Java项目的类路径中。 4. **Swing和WebUI**:如果你的应用需要图形界面,那么可能还需要`kettle...

    kettle使用问题处理汇总整理.rar

    Kettle,又称Pentaho Data Integration(PDI),是一款强大的ETL(Extract, Transform, Load)工具,广泛应用于数据仓库和大数据处理项目中。它提供了图形化的界面,使得数据抽取、转换和加载过程变得直观易懂,非常...

    springboot整合kettle项目源码

    7. **异常处理和日志记录**:确保Kettle的错误和日志信息能够正确地被Spring Boot的日志系统捕获和记录,以便于问题排查。 通过以上步骤,我们可以将Kettle的强大数据处理能力无缝融入到Spring Boot应用中,实现...

    kettle二次开发

    Pentaho Data Integration (PDI) 或称为 Kettle,是一款强大的开源 ETL (Extract, Transform, Load) 工具,广泛应用于数据集成领域。Kettle 以其高度可扩展性和灵活性而闻名,支持多种数据源和目标系统之间的数据...

    kettle应用程序集成代码

    《Kettle应用程序集成代码解析》 Kettle,又名Pentaho Data Integration(PDI),是一款强大的ETL(Extract, Transform, Load)工具,用于数据整合、清洗和加载。它以其直观的图形化界面和丰富的插件库,使得数据...

    kettle9.0百度网盘下载链接

    Kettle由Pentaho公司开发维护,其主要功能包括数据清洗、数据转换以及数据集成等,广泛应用于大数据处理领域。 #### 二、Kettle 9.0版本特点 Kettle 9.0作为最新版本之一,相对于之前的版本进行了大量的改进与优化...

    kettle连接ClickHouse驱动包

    总结起来,连接Kettle到ClickHouse需要一些额外的配置工作,但一旦设置好,就可以充分利用Kettle的ETL能力来管理和操作ClickHouse中的大数据。这个过程涉及到下载和配置ClickHouse JDBC驱动,以及在Kettle中创建和...

Global site tag (gtag.js) - Google Analytics