`

kettle资源库、运行方式与日志

 
阅读更多

一、kettle资源库

资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。

        资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。

  1.ketle资源库元数据

  • 资源库
    资源库包括文件资源库、数据库资源库
    Kettle 4.0 以后资源库类型可以插件扩展
  • XML 文件
    .ktr 转换文件的XML的根节点必须是 <transformation>
.    kjb 作业XML的根节点是<job>

  2.kettle资源库类型

  数据库资源库
    • 把 Kettle 的元数据串行化到数据库中,如 R_TRANSFORMATION 表保
    存了Kettle 转换的名称、描述等属性。
    • 在Spoon 里创建和升级数据库资源库
  文件资源库:
    在文件的基础上的封装,实现了 org.pentaho.di.repository.Repository 接口。
    是Kettle 4.0 以后版本里增加的资源库类型
  不使用资源库
    直接保存为ktr 或 kjb 文件。

  3.资源库操作

    新建资源库:

    kettle7.0后新建方式略有不同,新建资源库在右上角->connect,

    详细新建图文步骤,参考:https://blog.csdn.net/m0_37979608/article/details/77096201

    使用默认的admin/admin即可登陆到资源库!

    如果使用中文进行了资源库命名,将会出现资源库无法新建的问题。解决方案,参考https://blog.csdn.net/liuwenbiao1203/article/details/77579436

    导入/导出资源库:

    导航栏->工具->导入/导出资源库,或者探索资源库进行指定目录的导出,导出为.xml文件即可!

    资源库管理:

    kettle新版管理也在右上角:

    

 

 

二,kettle运行方式

 

 

参数名列表:
/rep : 资源库名称
/user : 资源库用户名
/pass : 资源库密码
/trans : 要启动的转换名称
/dir : 目录(不要忘了前缀 /)
/file : 要启动的文件名(转换文件)
/level : 日志级别 (Error, Nothing, Minimal, Basic , Detailed, Debug, Rowlevel)
/logfile : 要写入的日志文件
/listdir : 列出资源库里的目录
/listtrans : 列出指定目录下的转换
/listrep : 列出可用资源库
/exprep : 将资源库里的所有对象导出到 XML 文件中
/norep : 不要将日志写到资源库中
/safemode : 安全模式下运行: 有额外的检查
/version : 显示转换的版本,校订和创建日期
/param : 设置参数,参数格式<NAME>=<VALUE>,例如-param:FOO=bar
/listparam: 列出转换里已经设置好的参数。
/maxloglines:内存中保存日志的最大日志行数
/maxlogtimeout:内存中保存日志的最长时间

Pan.sh 运行模式

 

/rep : 资源库名称
/user : 资源库用户名
/pass : 资源库密码
/job : 要启动的作业名称
/dir : 目录(不要忘了前缀 /)
/file : 要启动的文件名(转换文件)
/level : 日志级别 (Error, Nothing, Minimal, Basic , Detailed, Debug, Rowlevel)
/logfile : 要写入的日志文件
/listdir : 列出资源库里的目录
/listjobs : 列出指定目录下的作业
/listrep : 列出可用资源库
/exprep : 将资源库里的所有对象导出到 XML 文件中
/norep : 不要将日志写到资源库中
/safemode : 安全模式下运行: 有额外的检查
/version : 显示转换的版本,校订和创建日期
/param : 设置参数,参数格式<NAME>=<VALUE>,例如-param:FOO=bar
/listparam: 列出转换里已经设置好的参数
/export: 把作业依赖的所有资源导出到一个zip 文件里
/maxloglines:内存中保存日志的最大日志行数
/maxlogtimeout:内存中保存日志的最长时间

Kitchen.sh 运行模式

 

Error: 只记录错误信息
Nothing: 不记录任何信息,执行效率最高
Minimal: 记录最少的信息
Basic: 记录基本信息
Detailed: 记录详细信息
Debug: 记录调试信息
Rowlevel: 转换过程中的每一行都记录下来,日志最详
细,执行效率最低

日志级别

 

   命令格式:

/参数名:值
或
-参数名=值

  新建一个测试作业:

  

  执行作业示例:

 ./kitchen /rep:r1 /user:admin /pass:admin /job:j1 /dir:/ /logfile:F:/log3.txt

   // 更多示例,待补充

三、日志

  1.文件日志位置

    通过/logfile在命令行中运行Job时设置

    linux中通过管道符进行输出重定向

    默认的日志文件保存在 java.io.tmpdir 目录下,文件名类似spoon_xxx.log

    图形化界面也有日志输出窗口

  2.日志参数设置

    Spoon中通过工具->选项进行部分日志输出窗口设置

    kettle.properties中相关参数设置:

KETTLE_MAX_LOG_SIZE_IN_LINE 变量
KETTLE_MAX_LOG_TIMEOUT_IN_MINUTES变量

   3.数据库日志

     转换有4个日志表:

• 转换日志表
• 步骤日志表
• 性能日志表
• 日志通道日志表

    作业日志表:

• 作业日志表
• 作业项日志表
• 日志通道日志表

    转换的日志设置在:编辑->设置;选择日志(作业同理)

  选择数据库连接->如果数据库中没有这个表,则可以点击下面的SQL,再通过执行进行新建

  转换表配置如下:

  

  其他日志表类似

  监控表需要开启监控:

  

 

本文参考链接:https://www.cnblogs.com/jiangbei/p/8987403.html

 

 

 

分享到:
评论

相关推荐

    kettle转换、作业日志自动添加进资源库配置解决方案

    解决方案的思路是:首先,打开 Kettle 软件,连接到 Oracle 数据库,创建一个新的资源库,然后设置转换的属性,包括日志、步骤日志、运行日志、日志通道等。接着,设置作业的属性,包括作业日志、作业项日志、作业...

    KETTLE 资源库配置方法.pdf

    ### KETTLE资源库配置方法详解 #### 一、KETTLE资源库概述 KETTLE是一款开源的数据集成工具,它主要用于数据清洗、转换及加载等操作。KETTLE通过图形化界面提供了丰富的功能,使得数据处理变得更加简单高效。在...

    kettle资料库表结构说明

    39. **R_REPOSITORY_LOG**:资源库操作日志信息。 - **ID_REPOSITORY_LOG**:日志ID。 - **OPERATION**:操作类型。 - **DETAILS**:操作详情。 40. **R_PERMISSION**:权限表,定义用户或角色的权限。 - **ID_...

    kettle 使用总结(包含基本应用,定义变量,hadoop,集群,资源库)

    同时,Kettle 也可以与资源库集成,例如可以把制作的文件保存到资源库中,有以下两个好处:1. 在同一个资源库下,建立的数据库连接或 hadoop 配置可以共用。2. 连接 hadoop 的转换或作业只有在在资源库下,通过窗口...

    kettle7.0下实现数据库迁移

    - **性能优化**:调整Kettle的运行参数,如并发度和缓冲区大小,以提升迁移速度。 - **错误处理**:设置适当的错误处理策略,例如跳过错误行或记录错误日志。 总结,Kettle 7.0提供了强大且灵活的数据库迁移工具...

    开源kettle etl 资料库 er图

    9. **R_LOGLEVEL/R_LOG**:日志级别与日志管理,控制着系统运行时的记录等级和存储方式。 10. **R_NOTE/R_JOB_NOTE**:注释表,关联于数据转换或作业,提供额外的信息和说明。 11. **R_JOB_HOP**:类似R_TRANS_HOP...

    kettle资源包kettle资源包kettle资源包kettle资源包kettle资源包kettle资源包kettle资源包

    Kettle,全称为Pentaho Data Integration(PDI),是一款强大的开源数据集成工具,由社区驱动,主要...使用Kettle资源包,用户可以快速构建和部署自己的数据处理项目,提高工作效率,推动企业的数据分析和决策支持。

    kettle集成应用之---java调用执行transformation和job

    一、kettle资源库的配置 kettle中的Repository是存储元数据的多张数据表,在资源库模式下设计的transformation和job都会被存储在这些数据表中。为配置Repository,需要先配置Database Connection(数据库连接),...

    数据仓库 工具kettle

    资源库是Kettle用来存储转换和任务的地方,可以理解为Kettle的数据中心。在Spoon中可以通过“资源库”菜单来管理资源库,包括创建、连接资源库等操作。 ##### 1.5 资源库自动登录 为了方便用户使用,Kettle提供了...

    linux调用kettle所用到的自动化脚本 kettle_linux.sh

    kettle在linux状态下调用的脚本文件,自动化,一键运行,便于实施。

    springboot整合kettle项目源码

    7. **异常处理和日志记录**:确保Kettle的错误和日志信息能够正确地被Spring Boot的日志系统捕获和记录,以便于问题排查。 通过以上步骤,我们可以将Kettle的强大数据处理能力无缝融入到Spring Boot应用中,实现...

    kettle资源.zip

    4. **强大的调度和监控**:Kettle的作业(Job)功能可以安排和控制转换的执行,同时提供详尽的运行日志和监控功能。 5. **分布式处理能力**:Kettle支持在多服务器环境中并行执行,利用Pentaho Data Integration ...

    java调用kettle中的job与转换-源码

    Java调用Kettle中的Job与转换是数据集成过程中的常见需求,Kettle(Pentaho Data Integration,简称PDI)是一种强大的ETL工具,而Java则作为通用编程语言,能够灵活地与各种系统进行交互。在Java中调用Kettle的Job和...

    Kettle的Web端管理工具Kettle-Manager.zip

    本系统是基于数据库资源库设计的,暂时不考虑支持文件资源库。本系统还附带了一个kettle插件,类似kettle已有的自定义类控件(可以在转换中写java代码)。该控件的设计时为了避免每一个需求都去开发一个kettle控件,...

    kettle 常见问题

    - Kettle支持连接到资源库,用于管理和共享转换和Job文件。 - 通过设置资源库连接信息实现此功能。 6. **从资源库读取Trans** - 从资源库中加载转换文件。 - 加载后可直接执行或修改后再执行。 7. **从资源库...

    kettle 跑数异常重试

    在实际的数据处理工作中,由于各种原因,如网络问题、数据库连接错误、数据格式不匹配等,kettle的作业(Job)或转换(Transformation)可能会出现运行异常,导致执行中断。面对这种情况,我们可以通过配置kettle来...

    Kettle8.2入门PPT.rar

    4. **日志和监控**:Kettle提供详尽的日志记录和性能监控,便于调试和优化。 5. **数据预览和测试**:在设计过程中,可以实时预览数据,检查转换效果。 **五、学习资源** "Kettle8.2入门PPT"是初学者了解和学习...

    kettle 入门与提高

    5. 监控与日志:Kettle提供详细的日志记录和监控工具,通过日志查看器可以追踪转换和作业的执行状态,帮助定位和解决问题。 三、Kettle实践案例 - 数据迁移:从多个源系统抽取数据,经过清洗和转换,加载到新的...

Global site tag (gtag.js) - Google Analytics