继续试用pentaho的DI(kettle)工具。
在发现处理oracle 的blob字段的能力特别优于Datastaev7版本之后,对这个工具越来越喜欢了,虽然有的时候还会出现OutOfMemeory
... ...
今天想记录一下这样一个需求:我的数据源端有一个组合字段,如slr(受理人),他可能是多个人的人员编码,在数据整合的过程中,不同地区的编码生成规则是一样的,在系统设计初期,并没有考虑到不同地区的数据集中问题,所以如果不处理的话,数据的准确性和唯一性出现了问题。在使用pentaho的DI时,也尝试了不同widget,如字段拆分、字符处理等组合,都没能实现想要的,所以想用一下java或javascript的脚本。无奈java无法获得input fields。所以javascript成了解决问题的功臣。
我这里的整合流程设计的非常简单,主要如下示意:
源表输入----> modified java script value------> 目标表插入(或更新)主要是javascript的远端字段选择,以及中间处理(对不同的需求,此处不重要),最后是处理结果的利用。
主要看代码及说明,查看截图附件:

- 大小: 61 KB

- 大小: 2 KB
分享到:
相关推荐
同时,可以通过【Scripting】功能中的【ModifiedJavaScriptValue】为不同类型的数据设置不同的值,例如,使用JavaScript脚本语句来修改custtype字段,为对公和对私客户分别设置不同的交易类型描述。 最后,可以使用...
在IT行业中,Pentaho Data Integration(通常简称为Kettle或PDI)是一个强大的ETL(提取、转换、加载)工具,它允许用户从各种数据源抽取数据,并进行复杂的转换,然后加载到目标系统中。在处理数据时,有时我们需要...
本文档旨在为用户提供一个从零开始的学习路径,涵盖安装、配置以及如何使用Pentaho Report 进行报表设计。 #### 二、安装与配置 ##### 2.1 安装Pentaho Report Designer 1. **下载**: 访问Pentaho官方网站下载最新...
默认情况下,该图像运行的容器中运行carte.sh的配置文件/pentaho-di/carte_config.xml默认设置可以使用环境变量或更改设置的容器,在端口8080上一个全权主节点监听通过提供自定义配置文件(请参阅下面的运行 Carte ...
Hive与Pentaho的集成允许用户通过Pentaho的数据集成工具(Kettle)进行ETL(提取、转换、加载)操作,然后在Hive上进行数据分析。 2. **aggdesigner-algo**: 这个标签暗示了这个jar包可能包含了一些聚合算法,可能...
Saiku 是 Pentaho 产品线中的一个OLAP(在线分析处理)工具,它允许用户对多维数据集进行交互式分析。用户可以自定义透视表,执行钻取、切片、切块等操作,以深入理解数据。Saiku 提供了直观的用户界面,使得非技术...
标题"《使用javascript访问kettle内部组件》示例代码"表明,我们将探讨如何使用JavaScript与Kettle进行交互,以控制和操作Kettle的数据转换和作业。这通常涉及到通过Web服务、API或者自定义插件的方式,实现...
在博客文章中(链接已给出),作者详细介绍了如何使用Pentaho Kettle进行数据处理,包括环境配置、工作流设计以及具体的操作步骤。这些内容可以帮助初学者快速上手,了解Pentaho Kettle的工作原理和功能。 1. **...
- **文本文件输出**:在处理文本数据时,可以使用“字符串替换”步骤对字段内容进行替换,以满足输出格式要求。 8. JavaScript 和 Java 脚本: - **JavaScript步骤**:允许用户编写自定义的JavaScript代码进行...
Kettle,也称为Pentaho Data Integration (PDI),是一款强大的ETL(Extract, Transform, Load)工具,用于处理各种数据集成任务。它允许用户通过图形化的界面设计、执行和调度数据转换流程,以实现数据的提取、清洗...
- **使用脚本语言**:Pentaho Reporting支持使用脚本语言如BeanShell (BSH) 和 JavaScript来编写表达式和函数,增加了灵活性。 - **实现报表元素**:可以自定义报表中的元素类型,如新的图形元素或特殊控件,从而...
- **Pentaho Report Designer**:用于创建和管理固定格式报表,支持多种数据源和复杂的报表布局,满足用户对实时数据可视化的需要。 - **Saiku**:是一个开源的OLAP(Online Analytical Processing)客户端,提供...
Pentaho是一款开源的企业级商业智能(BI)平台,它提供了数据集成、数据分析...通过这些文档,无论是初学者还是有经验的开发者,都能深入理解Pentaho的功能和使用方法,从而更好地利用Pentaho进行数据分析和决策支持。
在 8.3 版本中,可能新增或改进了一些数据转换步骤,如数据类型转换、字段过滤、聚合、JOIN 操作等。这些功能可以帮助用户处理数据质量问题,确保数据准确无误地加载到目标系统。 此外,Pentaho Kettle 还具有强大...
- 如何创建和管理数据源,以及如何使用Pentaho Data Integration(PDI)进行ETL操作。 - 如何设计和发布各种报表和仪表盘。 - 如何使用Pentaho Analysis进行OLAP分析。 - 如何利用Pentaho提供的数据挖掘工具进行预测...
在IT行业中,Kettle(Pentaho Data Integration,也称为Kettle或PDI)是一款强大的数据集成工具,它提供了一种图形化的界面来设计、执行和监控数据转换任务。本篇将详细介绍如何利用Kettle实现循环批量多表抽取并...
在Java中调用Kettle的jar包,我们通常会依赖Kettle的API,如`org.pentaho.di.core.KettleClientEnvironment`和`org.pentaho.di.job.Job`等。首先,需要初始化Kettle环境,这一步至关重要,因为它确保了与Kettle的...
Pentaho 4.8汉化是一个针对这款开源商业智能套件进行本地化的过程,以适应中文用户的需求。Pentaho提供了丰富的数据分析和报告功能,但默认界面为英文,对于中文用户来说可能存在理解上的困扰。以下是对Pentaho 4.8...