开源ETL工具Kettle简介
1.1. 什么是 kettle
Kettle 也叫 PDI,在2006年 Kettle 加入了开源的 BI 组织 Pentaho, 正式命名为PDI,英文全称为Pentaho Data Integeration。Kettle 是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员 MATT 在一个论坛里说的哪样:希望把各种数据放到一个壶里然后以一种指定的格式流出。
Spoon是一个图形用户界面,它允许你运行转换或者任务,其中转换是用Pan工具来运行,任务是用Kitchen来运行。Pan是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。Kitchen是一个可以运行利用XML或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。
1.2. Kettle的安装
要运行kettle工具必须安装Sun公司的JAVA运行环境,kettle 4.2.0需要运行java 1.6或者更高版本,Kettle的下载可以到http://kettle.pentaho.org/取得最新版本。kettle不需要安装,安装好java环境后,在操作系统环境变量path中配置jre路径,把kettle工具压缩包解压后可直接使用。
1.3. 运行Spoon
下面是在不同的平台上运行 Spoon所支持的脚本:
Spoon.bat:在windows 平台运行Spoon。
Spoon.sh: 在 Linux、Apple OSX、Solaris 平台运行 Spoon。
1.4. 资源库
资源库是用来保存转换任务的,用户通过图形界面创建的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。资源库有两种形式:
一、Kettle database repository,即保存在各种常见的数据库资源库类型,用户通过用户名/密码来访问资源库中的资源,默认的用户名/密码是admin/admin和guest/guest。
二、Kettle file repository,保存在服务器硬盘文件夹内的资源库类型,此类型的资源库无需用户进行登录,直接进行操作。
当然,资源库并不是必须的,如果没有资源库,用户还可以把转换任务保存在xml文件中。为了方便管理,建议用户建立并使用数据库类型资源库Kettle database repository。
温馨提示:
一、在删除资源库中单个内容时,不会提示“是否确定需要删除”,需要特别注意。
二、win7系统下,“Kettle file repository”类型资源库创建文件夹后,无法删除文件夹,不确定是Kettle工具本身的bug或者是在win7操作系统下的bug。
三、“Kettle database repository”类型资源库虽然有需要用户和密码进行登录,但目前还没有相应的权限控制。
相关推荐
Kettle是一款强大的开源ETL(Extract, Transform, Load)工具,由Pentaho公司开发并维护。它以其直观的图形化界面、灵活的数据处理能力和高性能而受到业界广泛欢迎。Kettle是用Java编写的,这使得它具有跨平台性,...
Kettle是一款强大的开源ETL工具,由Pentaho公司开发,其核心组件为 Spoon(设计工具)和 Pan(执行引擎)。Kettle以其灵活、高效和易于使用的特性在IT行业中备受青睐。 本压缩包包含的资源是"ETL工具Kettle用户手册...
开源ETL工具kettle实战gbase8s数据迁移
Kettle,全称为Pentaho Data Integration(PDI),是一款强大的开源ETL(Extract, Transform, Load)工具,广泛应用于数据整合、数据清洗和数据迁移等场景。Kettle由Spoon、Kitchen、Pan等多个组件组成,提供图形化...
开源ETL工具kettle系列之常见问题 本文主要介绍使用kettle设计一些ETL任务时的一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案。 知识点一:Join操作 在使用kettle设计...
### 开源ETL工具kettle系列之增量更新设计技巧 #### 概述 在数据集成领域,ETL(Extract, Transform, Load)是处理大量数据的关键步骤,而Kettle作为一款强大的开源ETL工具,提供了丰富的功能来支持数据的提取、...
- **简介**:Pentaho Kettle是一款强大的开源ETL工具,由Pentaho公司开发。它提供了一个图形化的用户界面,方便用户设计复杂的ETL作业和转换。 - **主要组件**: - **Spoon**:Pentaho Kettle的主要GUI工具,用于...
Kettle,又名Pentaho Data Integration(PDI),是由Pentaho公司开发的开源ETL工具,以其高度的灵活性、强大的数据处理能力和直观的图形化界面而闻名于世。 ### 一、Kettle基础知识 #### 1.1 Kettle架构 Kettle的...
【开源ETL工具kettle增量更新设计技巧】 ETL(Extract, Transform, Load)是数据仓库建设中的关键环节,用于从源头系统抽取数据、转换处理并加载到目标系统。Kettle是一款强大的开源ETL工具,提供了多种步骤来支持...
Kettle,又称为Pentaho Data Integration (PDI),是一个强大的开源ETL(Extract, Transform, Load)工具,专门用于从各种数据源抽取数据,进行转换处理,并加载到目标数据存储系统。它提供了直观的图形化工作台Spoon...
Kettle,全称为Pentaho Data Integration(简称PDI),是一款功能强大的开源ETL(Extract, Transform, Load)工具,由社区驱动并免费提供。它允许用户从各种数据源抽取数据,进行清洗、转换和加载到不同的目标系统,...
Web版Kettle工具通常会具备权限管理、日志记录、版本控制和调度等功能,以满足企业级应用的需求。权限管理确保了数据的安全性,日志记录则有助于跟踪和诊断问题。版本控制使得团队协作更加高效,用户可以保存、回滚...
KETTLE Kettle是一款国外开源的etl工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 这个ETL的开源项目的名称,很有意思,直译中文为“水壶”。按项目负责人Matt的说法:把...
Kettle,现在被称为Pentaho Data Integration (PDI),是一个强大的开源ETL工具。由Java编写,可以在Windows、Linux和Unix等多种操作系统上运行,以其高效稳定的数据抽取能力而闻名。Kettle无需安装,提供图形化的...
**ETL工具Kettle简介** Kettle,全称为Pentaho Data Integration,也被称为Kettle Spoon,是一款强大的、开源的企业级数据集成工具。它由Pentaho公司开发,旨在提供高效的数据抽取(Extract)、转换(Transform)和...