`
m635674608
  • 浏览: 5043647 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

kettle初探

 
阅读更多

   Kettle是Pentaho的一个组件,主要用于数据库间的数据迁移,到我用过的4.2版,还不支持noSQL,不知道4.4是不是支持了。

     Kettle自己有三个主要组件:Spoon,Kitchen,Pan。其中Spoon是一个图形化的界面,用于windows的时候,先设置环境变 量:pentaho_java_home,例如:C:\Program Files\Java\jdk1.7.0_25,其实就是你的java安装目录,1.6以上即可。windows下双击Spoon.bat就可以了,界面 如下:

      这里我建立了资源库,其实可以用文件形式存储,存储的结构都是xml,但是我还是觉得建立一个资源库比较好,以后看job等情况也比较简单,因为数据表的可读性比xml要好得多。建立资源库和文件资源库只需要把右上角的小加号点一下,就会出现如下如的界面:

      

      选择第一个就是建立数据库版的资源库,之后:

      

      之后:

      

      测试通过之后点击OK就回到最开始的界面,这时候选择test数据库连接,然后出入你的工程(我是这么叫的)ID和name,这里要记住,因为以后kitchen调度的时候要输入这个参数。

     

     在接下来弹出的框中都点“是”,然后会出现这个界面:

     

      这步会在你的用户下建立很多表,所以最好单独给资源库建立一个用户,当然这是在oracle下,mysql下和DB2下最好也采用同样的方式,把资源库和其他库分开。检查一下:

      

SQL> conn wings/wings@prism
已连接。
SQL> select count(1) from r_repository_log;

COUNT(1)
----------
0

SQL>

      表已经建好了。回到最开始的界面,选择test,点击确定,然后就会出现登录对话框,用户密码默认都是admin,以后可以自己改。

      接下来就可以开始用这个工具了。

      其实对于简单的数据库数据的抽取,基本只需要转换和作业这两种东西。下面就是建立一个转换的步骤:

      1 点击文件-->新建-->转换。

      2 在左侧的树状列表中选“主对象树”,新建DB连接。步骤和上面建资源库一样。一个目标库一个源库。

      3 在核心对象-->输入这个地方拖出一个表输入,在“输出”目录下拖出“表输出”,在“转换”处拖出一个字段选择来,如图:

      

       每一个对象都可以双击修改属性,下面以抽取world数据库的city表为例。

       双击表输入,选择数据库连接,选择源数据库,然后点击“获取SQL查询语句”,在弹出的对话框里进行选择即可,之后会变成这样:

      

      下面点击表输出:

       

       点击字段选择:

       

       这样,一个简单的抽取数据的转换就完成了。执行之,点击上面的绿色开始按钮。

       我也处在学习中,希望可以把我的经验分享给和我一样的入门者。

       下面是补充部分:

       在一个Job或者一个trans建立好之后,就可以建立定时任务了。如果是DS,那么DS客户端本身就支持schedule,但是Kettle因为没有服 务端和客户端的概念,因此只有使用linux的crontab,其实Job本身也支持定时,但是你必须保证图形界面一直开着,这样并不如crontab那 么好。在命令行里使用kettle很简单,Job用kitchen调度,trans用pan调度。

     下面是一个kitchen的调度命令:

     bash /home/kettle/data-integration/kitchen.sh /rep kettle_demo /user username /pass passwd /level Minimal /dir /dirname /job jobname

     rep那里写自己的资源库名称。

     trans和上面一样,略有不同:

     bash /home/kettle/data-integration/pan.sh /rep kettle_demo /user username /pass passwd /level Minimal /dir /dirname /trans transname

 

http://www.cnblogs.com/wingsless/p/3187436.html

分享到:
评论

相关推荐

    Kettle初探

    《Kettle初探:深入理解ETL工具的实践与应用》 **一、Kettle概述** Kettle,作为一款开源的ETL(Extract, Transform, Load)工具,以其高效的性能和广泛的兼容性著称。这款工具由纯Java编写,因此能够在多种操作...

    BI Kettle中文文档汇集

    Kettle初探.pdf Kettle命令行使用说明.pdf Kettle培训.ppt KETTLE基本知识培训.pptx kettle实现循环.pdf kettle常见问题FAQ.pdf kettle技术手册.pdf kettle接口抽取同步应用实例.pdf kettle文档.pdf ...

    Kettle学习资料分享,附大神用Kettle的一套流程完成对整个数据库迁移方法

    压缩包内的文件“kettle初探--内含配置信息.pdf”可能包含了Kettle的基本概念介绍,以及一些配置示例。对于初学者,这份资料将有助于理解Kettle的工作原理,如何配置数据源,设置转换和作业,以及如何调试和优化。...

    Kettle学习资料

    Kettle文档汇集,ELT平台操作手册-KETTLE,ETL工具Spoon 2.5.0用户手册,Kettle初探,KETTLE基本知识培训,Kettle命令行使用说明,Kettle的一些常见问题等文档

    kettle-core-8.1.0.0-365_kettle_kettle达梦8_

    《Kettle与达梦数据库的整合:深入理解kettle-core-8.1.0.0-365_kettle_kettle达梦8_》 Kettle,也被称为Pentaho Data Integration (PDI),是一款强大的数据集成工具,它提供了一种图形化的界面,让用户能够设计、...

    kettle设置循环变量

    kettle 设置循环变量 Kettle 是一个功能强大的数据集成工具,广泛应用于数据抽取、转换和加载(ETL)过程中。为了提高数据处理效率和灵活性,Kettle 提供了设置循环变量的功能,控制循环作业的执行。下面我们将详细...

    【kettle012】kettle访问FTP服务器文件并处理数据至PostgreSQL

    【Kettle012】Kettle访问FTP服务器文件并处理数据至PostgreSQL是关于使用Kettle(也称为Pentaho Data Integration,简称PDI)工具进行数据集成的一个具体实例。Kettle是一个开源的数据集成工具,它允许用户通过图形...

    kettle二次开发

    ### Kettle二次开发详解 #### 一、引言 Pentaho Data Integration (PDI) 或称为 Kettle,是一款强大的开源 ETL (Extract, Transform, Load) 工具,广泛应用于数据集成领域。Kettle 以其高度可扩展性和灵活性而闻名...

    java集成kettle所有jar包

    Java集成Kettle所有Jar包是一项常见的任务,尤其对于那些在数据处理、ETL(提取、转换、加载)项目中使用Kettle(也称为Pentaho Data Integration或PDI)的开发者来说。Kettle是一个强大的开源数据集成工具,它提供...

    kettle6与kettle7版本比较

    我自己编写的KETTLE6.1与KETTLE7.1版本之间的差距比较

    kettle实战教程.pdf

    标题:“kettle实战教程.pdf” 描述:“全网最详细的kettle教程” Kettle,也称为Pentaho Data Integration (PDI),是一款开源的ETL(抽取、转换、加载)工具,主要被用于数据仓库、数据迁移、数据转换等场景。本...

    springboot整合kettle项目源码

    标题 "springboot整合kettle项目源码" 描述了一个基于Spring Boot框架的集成Kettle(Pentaho Data Integration,简称KDI)的工程实例。Kettle是一款强大的ETL(提取、转换、加载)工具,它允许开发者通过编写Java...

    【kettle】10分钟搞定kettle源码部署

    ### Kettle源码部署知识点详解 #### 一、Kettle简介与价值 Kettle是一款知名的开源ETL(Extract-Transform-Load)工具,以其强大的功能和直观易用的图形界面著称。它允许用户轻松地从多种数据源抽取数据,进行必要...

    kettle rabbitmq 插件开发

    标题 "kettle rabbitmq 插件开发" 涉及的是如何在 Pentaho Kettle(也称为 Spoon)中创建和使用 RabbitMQ 插件。Kettle 是一个开源的数据集成工具,它允许用户进行数据抽取、转换和加载(ETL)操作。RabbitMQ 是一个...

    KETTLE中文官方文档

    Kettle中文官方文档 Kettle是一款功能强大的数据集成工具,提供了详细的中文官方文档,旨在帮助用户快速上手使用Kettle实现数据集成任务。本文档提供了资源库管理、菜单栏介绍、变量等多方面的知识点,帮助用户深入...

    kettle导入的lib包

    Kettle,全称为Pentaho Data Integration(PDI),是一款强大的ETL(Extract, Transform, Load)工具,用于数据抽取、转换和加载。在Kettle的工作中,lib库扮演着至关重要的角色,它包含了Kettle运行所需的各类依赖...

    kettle下载文件.zip

    Kettle,全称为Pentaho Data Integration(PDI),是一款强大的数据集成工具,它由社区驱动,为企业级ETL(Extract, Transform, Load)任务提供了全面解决方案。在本压缩包"Kettle下载文件.zip"中,您将找到与Kettle...

    Kettle API(HTML格式)

    Kettle API,全称为Pentaho Data Integration (Kettle) API,是Pentaho ETL(数据抽取、转换和加载)工具集的一部分。Pentaho Data Integration,简称PDI或Kettle,是一款开源的数据集成解决方案,它允许用户通过...

    kettle7.1.rar

    《Kettle 7.1:数据仓库与ETL的强大工具》 Kettle 7.1 是一款强大的数据集成工具,其全称为Pentaho Data Integration(PDI),由社区驱动的开源项目提供支持,主要用于数据仓库建设和ETL(Extract, Transform, Load...

    基于kettle carte服务开发的管理kettle任务的系统,可以管理每台kettle的信息,控制任务并发量

    【标题】:基于Kettle Carte服务的Kettle任务管理系统 在信息技术日益发达的今天,高效的数据处理和信息管理系统成为了企业提升竞争力的关键因素。本文将深入探讨如何利用Kettle(Pentaho Data Integration,简称...

Global site tag (gtag.js) - Google Analytics