1,Kettle跨平台使用。
例如:在AIX下(AIX是IBM商用UNIX操作系统,此处在LINUX/UNIX同样适用),运行Kettle的相关步骤如下:
1)进入到Kettle部署的路径
2)执行 chmod *.sh,将所有shell文件添加可执行权限
3)在Kettle路径下,如果要执行transformation,就运行./pan.sh -file=?.ktr -debug=debug -log=log.log
其中。-file说明你要运行的transformation文件所在的路径;-debug说明日志输出的级别;-log说明日志输出的路径
4)同理,对于job的执行,请将./pan.sh更换成./kitchen.sh,其他部分说明不变。
2,Kettle环境变量使用。
在transformation中,Core Objects-->Job-->Set Variables,可以设置环境变量,对于绝对路径和相对路径的转换很有帮助,Kettle的跨平台很大程度依靠它
3,其它功能的使用。
其它功能包括DB存储过程调用,流查询,值映射,聚合记录等,各位自行摸索
4,Kettle定时功能。
在Job下的start模块,有一个定时功能,可以每日,每周等方式进行定时,对于周期性的ETL,很有帮助。
a.使用资源库(repository)登录时,默认的用户名和密码是admin/admin。
b.当job是存放在资源库(一般资源库都使用数据库)中时,使用Kitchen.bat执行job时,需使用如下的命令行:
Kitchen.bat /rep kettle /user admin /pass admin /job job名
c.当job没有存放在资源库而存放在文件系统时,使用Kitchen.bat执行job时,需使用如下的命令行:
Kitchen.bat /norep /file user-transfer-job.kjb
d.可以使用命令行执行job后,就可以使用windows或linux的任务调度来定时执行任务了
e.如果出现异常语句,
Unexpected error during transformation metadata load
No repository defined!
请按上面的操作排除。
5,Kettle经验之日志。
Kettle对于日志的处理,存在一个BUG,看过上一篇的人或许已经看到了我的留言,Kettle对于日志处理有一个BUG,当日志多于49M(不是50M,也不是49M),Kettle就会自动停止,这一点我在源码里面也没有找到对应的设置和约束,原因还找不到,因为是日志没有写,所以原因也不好跟踪还不知道具体原因。
6,Kettle之效率提升。
Kettle作为一款ETL工具,肯定无法避免遇到效率问题,当很大的数据源输入的时候,就会遇到效率的问题。对此有几个解决办法:
1)数据库端创建索引。对需要进行查询的数据库端字段,创建索引,可以在很大程度上提升查询的效率,最多的时候,我不创建索引,一秒钟平均查询4条记录,创建索引之后,一秒钟查询1300条记录。
2)数据库查询和流查询注意使用环境。因为数据库查询为数据输入端输入一条记录,就对目标表进行一次查询,而流查询则是将目标表读取到内存中,数据输入端输入数据时,对内从进行查询,所以,当输入端为大数据量,而被查询表数据量较小(几百条记录),则可以使用流查询,毕竟将目标表读到内存中,查询的速度会有非常大的提升(内存的读写速度是硬盘的几百倍,再加上数据库自身条件的制约,速度影响会更大)。同理,对于目标表是大数据量,还是建议使用数据库查询,不然的话,一下子几百M的内存被干进去了,还是很恐怖的。
3)谨慎使用javascript脚本,因为javascript本身效率就不高,当你使用js的时候,就要考虑你每一条记录,就要执行一次js所需要的时间了。
4)数据库commit次数,一条记录和一百条记录commit对效率的影响肯定是不一样的。
5)表输入的sql语句的写法。有些人喜欢在表输入的时候,将所有关联都写进去,要么from N多个表,要么in来in去,这样,就要面对我在2)里面说道的问题,需要注意。
6)注意日志输出,例如选择数据库更新方式,而且日志级别是debug,那么后台就会拼命的输出日志,会在很大程度上影响速度,此处一定要注意。
7,常见的调试BUG。
Kettle提供了很多调试的解决办法,但是对于常见的调试BUG还是能避免就避免。
1)路径问题。我最常遇到的问题就是在windows下调试成功,但是部署到UNIX下出问题,忘记将windows下路径变成unix下,经常会出现问题。
2)输出端,数据库插入更新选择不对。输出端,提供了三种数据库输出的办法,数据库输出,插入/更新,更新,对于这三种,各有利弊,如果你知道数据库输出,完全是插入,如果有重复数据,则会报错;插入更新和更新,因为更新数据时,后台输出很多日志,会导致效率很低。
分享到:
相关推荐
**ETL学习之Kettle实用教程** Kettle,全称为Pentaho Data Integration,是一款强大的开源ETL(Extract, Transform, Load)工具,用于数据整合和数据迁移。它以其直观的图形化界面、灵活的数据处理能力和高效的数据...
《ETL工具KETTLE实例手册》不仅是一本技术指导书,更是一部实战教程,它通过一系列具体案例,引导读者逐步掌握Kettle的使用技巧,从数据抽取、清洗、转换到加载,每个环节都有详尽的解释和演示。对于希望在数据集成...
教材和参考资料应包括《ETL数据整合和处理(Kettle)》以及相关的在线文档、教程和案例,以帮助学生全面学习和掌握Kettle的高级转换功能。 总之,《ETL数据整合与处理(Kettle)》的高级转换部分是数据工程师的重要...
这种直观的界面使得Kettle对初学者友好,同时也为高级用户提供足够的灵活性和控制力。 Kettle的核心组件包括: 1. **Transformation**:这是Kettle中的主要工作单元,用于描述数据的转换过程。转换由一系列步骤...
此外,Kettle还具备高级特性,如值映射、分组、去重、字段拆分、行列转换、批量加载和分区表处理。 在作业(Job)方面,Kettle允许执行操作系统命令,如Ping、写日志、发送邮件等,甚至可以从POP服务器接收邮件,...
四、Kettle的高级应用 - 作业(Job):用于组织多个转换,形成更复杂的流程,例如上述案例中同步三个数据表到目标数据库。 - 资源库管理:通过数据库资源库,可以在多台机器间共享转换和作业,方便团队协作和部署。...
本压缩包包含的资源是"ETL工具Kettle用户手册5.0"和"开源etl工具kettle,Java源码",对于学习和深入理解Kettle有极大的帮助。首先,用户手册5.0提供了详尽的指导,涵盖了从入门到高级的各个层次,包括: 1. **安装与...
Kettle,全称为Pentaho Data Integration(PDI),是一种强大而灵活的ETL(Extract, Transform, Load)工具,用于数据集成和转换。它以其直观的图形用户界面、丰富的插件库以及对各种数据源的支持而闻名。在IT行业中...
总的来说,Kettle ETL工具文档是一个全面的资源,涵盖了从基础操作到高级开发的各个方面,对于数据工程师和分析师来说,是理解和掌握数据整合技术的重要参考资料。通过深入学习和实践,你可以利用Kettle的强大功能...
描述:“全网最详细的kettle教程” Kettle,也称为Pentaho Data Integration (PDI),是一款开源的ETL(抽取、转换、加载)工具,主要被用于数据仓库、数据迁移、数据转换等场景。本教程旨在为读者提供一个全面的、...
7. 在“高级”选项卡中,可以指定JDBC驱动的路径,如果Kettle没有自动找到刚刚添加的jar文件,可以在这里手动指定。 通过这种方式,Kettle就可以识别并使用这些数据库驱动,从而实现对Oracle和MySQL数据库的有效...
除了基本的转换操作,Kettle还支持一些高级功能,如节点连接(Hops),它可以在步骤之间创建逻辑连接,控制数据流的方向。转换的错误处理也是ETL过程中重要的环节,Kettle提供了多种方式来处理运行时出现的错误,...
"Kettle培训手册.pdf"和"Kettle使用培训文档.ppt"为初学者提供了详细的教程和案例,帮助快速上手。"ETL学习心得.txt"可能是作者的经验分享,对理解Kettle的实际应用可能有较大帮助。 总的来说,Kettle作为一款强大...
Kettle,又称Pentaho Data Integration(PDI),是一款强大的开源ETL(Extract, Transform, Load)工具,它采用Java编写,可在Windows、Linux、Unix等多种操作系统上运行。Kettle以其直观的图形化界面、丰富的数据...
通过阅读《ETL工具Kettle用户手册.pdf》,用户将能够掌握Kettle的基本操作、高级特性和最佳实践,从而有效地利用Kettle进行数据集成和ETL项目实施。手册中通常会包含详细的操作指南、示例和常见问题解答,帮助用户...