Kettle环境变量在ETL工程上的应用

vase

浏览: 423337 次
性别:
来自: 北京

最近访客更多访客>>

sonicer

jyzbcs

xklc

paladin1988

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

ETL之Kettle学习与实践

好久没更新博文，最近临近离职，事情少了，有空停下来总结总结这段时间的东西。今天先记录下Kettle环境变量的应用。

一个好的环境变量的使用，在业务变更或者环境变动后，只需要很少工作量的修改即可完成。我们把变量分成系统环境变量和业务变量，系统环境变量是指那些在ETL中指定的系统级资源配置，如数据库信息、日志文件路径等等，这些变量一旦设定，不会经常变动；业务变量指跟当前ETL执行处理的内容有关，如日期、产品ID等等，跟运行时有关。开始我们很容易的会想到将经常变动的设为业务变量，在运行时通过参数传入，而往往忽略那些不常变动的内容被写死，一旦遇到环境迁移或者像增加udf的自定义（这个可用在数据库连接高级设置中，在连接成功后先执行若干SQL，后边才执行业务SQL，会在后边做详细点的介绍），就需要做大量更新配置工作。

系统环境变量可设置到 $HOME/.kettle目录下的kettle.properties中，但是在多工程ETL服务器上这样的设置容易导致混淆，这时可以把每个工程中的系统变量提取到当前工程kettle配置的目录下，如我们有bi、dw、finance等多个工程，在每个工程目录下建common目录作为公共配置目录，再将数据库信息配置文件db.properties放到该目录下，并增加一个transformation来读取该配置文件，然后解析文件中的键值对，最后将这些键值对设置成系统变量，如下三个步骤：1. 读取文件内容，根据“=”进行K-V分隔；2. 保留key、value，去除其他有步骤1产生的字段；3.通过javascript将k-v设置成环境变量 (这里要感谢下Jayon同学贡献的transformation)