pentaho套件

weitao1026

浏览: 1069262 次
性别:
来自: 上海

最近访客更多访客>>

vicento4

723499280

liuzidong

s1986q

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop/spark/Hbase/Hive/pig/Zookeeper/HAWQ/cloudera/Impala/Oozie

有人统计过，在整个数据分析过程里，收集、整理数据的工作大致占全部工作量的90%，建模过程不足10%，可见ETL是数据处理流程中一个非常重要的环节。ETL工程师，在数据仓库类职位中占有很大比例，而且薪水都不差。IT人一下子转型数据分析师可能跳跃度比较大难度高，先转型数据仓库/ETL工程师再择机往更高处走是合理选择之一。在ETL软件中，使用最多的是开源的Kettle，完全免费，功能和性能不弱于datastage这类商业ETL软件，使用Kettle和其它开源数据平台软件，例如Mysql集群，Hadoop集群等组合在一起，是性价比极高的架构选择。本课程系统讲解Kettle及其秘密。

课程介绍
ETL （Extract，Transformation,Load）工具是构建数据仓库、进行数据整合工作所必须使用的工具。目前市面有多种商业 ETL 工具，如Informatica，Datastage等。目前市场上开源且实用的 ETL 工具比较少，Kettle 就是这不多的开源 ETL 工具之一。本课程将主要讲解开源 ETL 工具 Kettle 的基本使用和二次开发方法，并结合实际项目案例，讲解 Kettle 如何在实际中应用，以及应用中可能会出现的问题。针对目前大数据的应用情况，本课程也将结合大数据，讲述 Kettle 如何支持 Hadoop、HBase、MongoDB、MapReduce 等大数据技术。除了Kettle 的使用，在本课程的后几个课时，将讲述 Kettle 的二次开发：包括 Kettle 代码阅读指导， Kettle API 的说明以及使用方法， Kettle 插件的开发方法。

课程内容
第一周：ETL 的概念，Kettle 的概念、功能、操作
第二周：Kettle 资源库、日志、运行方式
第三周：输入步骤（表输入、文本文件输入、XML 文件输入...）
第四周：输出步骤（表输出、更新、删除、文本文件输出、XML文件输出...）
第五周：转换步骤（过滤、字符串处理、拆分字段、计算器...）
第六周：转换步骤（字段选择、排序、增加校验列、去除重复记录...）
第七周：应用步骤、流程步骤（处理文件、执行程序、发送邮件、空操作、阻塞步骤、中止等...）
第八周：查询步骤、连接步骤（数据库查询、流查询、合并记录、记录集连接、笛卡尔...）
第九周：脚本步骤（Javascript，Java Class、正则表达式...）
第十周：作业项（拷贝、移动、ftp、sftp…）
第十一周：Kettle 的参数和变量、Kettle 集群
第十二周：Kettle 代码编译、代码结构、应用集成、各种配置文件
第十三周：插件开发 - 步骤、作业项
第十四周：作业设计技巧、错误处理、调试转换、循环和分支
第十五周：大数据插件（Hadoop 文件输入/输出，HBase输入/输出，MapReduce输入/输出，MongoDB输入/输出）

目标人群
1. ETL 工程师，Java 开发工程师，
2. 经常要做数据处理的 DBA
3. 有一定数据库基础和 Java 基础的学生。

课程预期目标
1. 理解 Kettle 软件的基本功能。
2. 能使用 Kettle 完成基本的数据处理工作。
3. 了解 Kettle 软件的一些高级功能
4. 对有Java 开发经验的同学，对 Kettle 代码结构有一定了解，能开发一些 Java 的基本插件。

分享到：

软件产品经理职责 | linux下文件夹的创建、复制、剪切、重命名 ...

2017-04-28 15:52
浏览 849
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

pentaho套件

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

pentaho套件

评论

发表评论

相关推荐

CDH与原生态hadoop之间的区别

Cloudera的CDH和Apache的Hadoop的区别

大数据、云计算系统高级架构师课程学习路线图

Oozie简介

清理ambari安装的hadoop集群

hawk大数据基础知识总结（2）

hawk大数据基础知识总结（1）

ambari是什么

数据仓库中的Inmon与Kimball架构之争

Hive的meta 数据支持以下三种存储方式

大数据要学习知识

Spark Streaming简介

Impala：新一代开源大数据分析引擎

Weka是什么

解密Apache HAWQ ——功能强大的SQL-on-Hadoop引擎

Kettle的使用

clouder manager端口7180没有打开为什么

Impala与Hive的比较

Cloudera Manager、CDH零基础入门、线路指导

DB、ETL、DW、OLAP、DM、BI关系结构图

最近访客更多访客>>