`
weitao1026
  • 浏览: 1047740 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
阅读更多

有人统计过,在整个数据分析过程里,收集、整理数据的工作大致占全部工作量的90%,建模过程不足10%,可见ETL是数据处理流程中一个非常重要的环节。ETL工程师,在数据仓库类职位中占有很大比例,而且薪水都不差。IT人一下子转型数据分析师可能跳跃度比较大难度高,先转型数据仓库/ETL工程师再择机往更高处走是合理选择之一。在ETL软件中,使用最多的是开源的Kettle,完全免费,功能和性能不弱于datastage这类商业ETL软件,使用Kettle和其它开源数据平台软件,例如Mysql集群,Hadoop集群等组合在一起,是性价比极高的架构选择。本课程系统讲解Kettle及其秘密。

课程介绍
ETL (Extract,Transformation,Load)工具是构建数据仓库、进行数据整合工作所必须使用的工具。目前市面有多种商业 ETL 工具,如Informatica,Datastage等。目前市场上开源且实用的 ETL 工具比较少,Kettle 就是这不多的开源 ETL 工具之一。 本课程将主要讲解开源 ETL 工具 Kettle 的基本使用和二次开发方法,并结合实际项目案例,讲解 Kettle 如何在实际中应用,以及应用中可能会出现的问题。针对目前大数据的应用情况,本课程也将结合大数据,讲述 Kettle 如何支持 Hadoop、HBase、MongoDB、MapReduce 等大数据技术。除了Kettle 的使用,在本课程的后几个课时,将讲述 Kettle 的二次开发: 包括 Kettle 代码阅读指导, Kettle API 的说明以及使用方法, Kettle 插件的开发方法。

课程内容
第一周:ETL 的概念,Kettle 的概念、功能、操作
第二周:Kettle 资源库、日志、运行方式
第三周:输入步骤(表输入、文本文件输入、XML 文件输入...)
第四周:输出步骤(表输出、更新、删除、文本文件输出、XML文件输出...)
第五周:转换步骤(过滤、字符串处理、拆分字段、计算器...)
第六周:转换步骤(字段选择、排序、增加校验列、去除重复记录...)
第七周:应用步骤、流程步骤(处理文件、执行程序、发送邮件、空操作、阻塞步骤、中止等...)
第八周:查询步骤、连接步骤(数据库查询、流查询、合并记录、记录集连接、笛卡尔...)
第九周:脚本步骤(Javascript,Java Class、正则表达式...)
第十周:作业项(拷贝、移动、ftp、sftp…)
第十一周:Kettle 的参数和变量、Kettle 集群
第十二周:Kettle 代码编译、代码结构、应用集成、各种配置文件
第十三周:插件开发 - 步骤、作业项
第十四周:作业设计技巧、错误处理、调试转换、循环和分支
第十五周:大数据插件(Hadoop 文件输入/输出,HBase输入/输出,MapReduce输入/输出,MongoDB输入/输出)

目标人群
1. ETL 工程师,Java 开发工程师,
2. 经常要做数据处理的 DBA
3. 有一定数据库基础 和 Java 基础的学生。

课程预期目标
1. 理解 Kettle 软件的基本功能。
2. 能使用 Kettle 完成基本的数据处理工作。
3. 了解 Kettle 软件的一些高级功能
4. 对有Java 开发经验的同学,对 Kettle 代码结构有一定了解,能开发一些 Java 的基本插件。

分享到:
评论

相关推荐

    Pentaho BI 套件

    Pentaho BI套件组成情况,里面分析了Pentaho各个组件的功能和使用情况。

    pentaho工具使用手册

    - **Pentaho BI Platform**:作为整个套件的基础,BI Platform 提供了一个统一的框架,用于数据集成、分析和报表制作。它包括数据访问、数据处理、元数据管理和用户访问控制等功能。 - **Pentaho Data Integration ...

    Pentaho 3.2 Data Integration Beginner's Guide

    标签"Pentaho Kettle"强调了这本书聚焦于Pentaho Kettle这一特定工具,而不仅仅是Pentaho套件的其他组件。 内容部分由于扫描识别问题,出现了断断续续的文字,但可以推测出书中可能包含了版权信息、出版社信息、...

    Pentaho Analytics for MongoDB(2014)随书代码

    Pentaho Data Integration(PDI,又称Kettle)是Pentaho套件的一部分,它提供了一种图形化的界面,使得数据工程师能够设计和执行复杂的数据转换任务,无论数据源是关系型数据库还是像MongoDB这样的NoSQL数据库。...

    pentaho_kettle_solutions

    Kettle(也就是Pentaho Data Integration)是Pentaho套件中处理ETL任务的组件,它是一个开源工具,提供了丰富的功能来完成ETL任务。 本书详细介绍了如何使用Kettle来构建BI(商务智能)解决方案,尤其是其中的OLAP...

    kettle管理员手册

    1. Pentaho套件和版本信息: 文档支持Pentaho Business Analytics Suite 5.0 GA和Pentaho Data Integration 5.0 GA版本,这表明手册内容与特定软件版本相关联。因此,管理员在使用手册时应注意自己的软件版本是否与...

    Pentaho-开放源码的商业智能平台-技术白皮书.pdf

    Pentaho 的 OPEN BI 套件是一个完整的商业智能解决方案,包括数据integration、报表生成、数据分析和数据 mining 等功能。该套件基于开放源码,提供了一个灵活、可扩展、易于使用的商业智能平台。 5. 开放源码技术 ...

    pentaho business analytics cookbook

    Pentaho的商业分析套件包括了以下几个关键组件: 1. 数据集成(Pentaho Data Integration,PDI):原名为Kettle,它是一个用于数据转换和数据集成的图形化工具。通过PDI,用户可以轻松地从各种不同的数据源中提取...

    kettle基础简介_J.ppt

    Kettle是Pentaho套件中的ETL工具,完全由Java编写,因此具备跨平台特性,可以在Windows、Linux、Unix等操作系统上运行,且无需安装,使用非常便捷。Kettle的设计理念来源于“水壶”,象征着将来自不同源头的数据汇集...

    PDI Kettle 最佳实践

    PDI Kettle是Pentaho套件中用于ETL的组件,广泛应用于数据整合、数据迁移和数据仓库建设。接下来将详细介绍文档提及的最佳实践知识。 首先,文档提到的服务器配置部分,强调了启用Spoon连接选项的重要性。Spoon是...

    Pentaho-8-Reporting-for-Java-Developers-master_Pentaho-8-Reporti

    Pentaho 8 是一个功能强大的开源套件,包含了数据集成、报表设计、数据分析等多个组件,为企业的数据处理提供全面的解决方案。在这个名为"Pentaho-8-Reporting-for-Java-Developers-master"的压缩包中,我们很显然会...

    Pentaho Reporting(2014)

    Pentaho Reporting是开源商业智能(BI)套件Pentaho的一部分,主要负责数据报表和分析的生成。2014年版本的Pentaho Reporting在当时是一个重要的里程碑,提供了丰富的功能和改进,使得用户能够更好地从大数据源中...

    pentaho4.8汉化总结

    Pentaho 4.8汉化是一个针对这款开源商业智能套件进行本地化的过程,以适应中文用户的需求。Pentaho提供了丰富的数据分析和报告功能,但默认界面为英文,对于中文用户来说可能存在理解上的困扰。以下是对Pentaho 4.8...

    Kettle5.x使用步骤带案例超详细版

    Kettle(又称Pentaho Data Integration,简称PDI)是一个开源的ETL(Extract, Transform, Load)工具,它是Pentaho套件中的一部分,用于数据抽取(Extract)、转换(Transform)和加载(Load)到目标数据库或数据...

Global site tag (gtag.js) - Google Analytics