有人统计过,在整个数据分析过程里,收集、整理数据的工作大致占全部工作量的90%,建模过程不足10%,可见ETL是数据处理流程中一个非常重要的环节。ETL工程师,在数据仓库类职位中占有很大比例,而且薪水都不差。IT人一下子转型数据分析师可能跳跃度比较大难度高,先转型数据仓库/ETL工程师再择机往更高处走是合理选择之一。在ETL软件中,使用最多的是开源的Kettle,完全免费,功能和性能不弱于datastage这类商业ETL软件,使用Kettle和其它开源数据平台软件,例如Mysql集群,Hadoop集群等组合在一起,是性价比极高的架构选择。本课程系统讲解Kettle及其秘密。
课程介绍
ETL (Extract,Transformation,Load)工具是构建数据仓库、进行数据整合工作所必须使用的工具。目前市面有多种商业 ETL 工具,如Informatica,Datastage等。目前市场上开源且实用的 ETL 工具比较少,Kettle 就是这不多的开源 ETL 工具之一。 本课程将主要讲解开源 ETL 工具 Kettle 的基本使用和二次开发方法,并结合实际项目案例,讲解 Kettle 如何在实际中应用,以及应用中可能会出现的问题。针对目前大数据的应用情况,本课程也将结合大数据,讲述 Kettle 如何支持 Hadoop、HBase、MongoDB、MapReduce 等大数据技术。除了Kettle 的使用,在本课程的后几个课时,将讲述 Kettle 的二次开发: 包括 Kettle 代码阅读指导, Kettle API 的说明以及使用方法, Kettle 插件的开发方法。
课程内容
第一周:ETL 的概念,Kettle 的概念、功能、操作
第二周:Kettle 资源库、日志、运行方式
第三周:输入步骤(表输入、文本文件输入、XML 文件输入...)
第四周:输出步骤(表输出、更新、删除、文本文件输出、XML文件输出...)
第五周:转换步骤(过滤、字符串处理、拆分字段、计算器...)
第六周:转换步骤(字段选择、排序、增加校验列、去除重复记录...)
第七周:应用步骤、流程步骤(处理文件、执行程序、发送邮件、空操作、阻塞步骤、中止等...)
第八周:查询步骤、连接步骤(数据库查询、流查询、合并记录、记录集连接、笛卡尔...)
第九周:脚本步骤(Javascript,Java Class、正则表达式...)
第十周:作业项(拷贝、移动、ftp、sftp…)
第十一周:Kettle 的参数和变量、Kettle 集群
第十二周:Kettle 代码编译、代码结构、应用集成、各种配置文件
第十三周:插件开发 - 步骤、作业项
第十四周:作业设计技巧、错误处理、调试转换、循环和分支
第十五周:大数据插件(Hadoop 文件输入/输出,HBase输入/输出,MapReduce输入/输出,MongoDB输入/输出)
目标人群
1. ETL 工程师,Java 开发工程师,
2. 经常要做数据处理的 DBA
3. 有一定数据库基础 和 Java 基础的学生。
课程预期目标
1. 理解 Kettle 软件的基本功能。
2. 能使用 Kettle 完成基本的数据处理工作。
3. 了解 Kettle 软件的一些高级功能
4. 对有Java 开发经验的同学,对 Kettle 代码结构有一定了解,能开发一些 Java 的基本插件。
- 浏览: 1052922 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (1441)
- 软件思想&演讲 (9)
- 行业常识 (250)
- 时时疑问 (5)
- java/guava/python/php/ruby/R/scala/groovy (213)
- struct/spring/springmvc (37)
- mybatis/hibernate/JPA (10)
- mysql/oracle/sqlserver/db2/mongdb/redis/neo4j/GreenPlum/Teradata/hsqldb/Derby/sakila (268)
- js/jquery/jqueryUi/jqueryEaseyUI/extjs/angulrJs/react/es6/grunt/zepto/raphael (81)
- ZMQ/RabbitMQ/ActiveMQ/JMS/kafka (17)
- lucene/solr/nuth/elasticsearch/MG4J (167)
- html/css/ionic/nodejs/bootstrap (19)
- Linux/shell/centos (56)
- cvs/svn/git/sourceTree/gradle/ant/maven/mantis/docker/Kubernetes (26)
- sonatype nexus (1)
- tomcat/jetty/netty/jboss (9)
- 工具 (17)
- ETL/SPASS/MATLAB/RapidMiner/weka/kettle/DataX/Kylin (11)
- hadoop/spark/Hbase/Hive/pig/Zookeeper/HAWQ/cloudera/Impala/Oozie (190)
- ios/swift/android (9)
- 机器学习&算法&大数据 (18)
- Mesos是Apache下的开源分布式资源管理框架 (1)
- echarts/d3/highCharts/tableau (1)
- 行业技能图谱 (1)
- 大数据可视化 (2)
- tornado/ansible/twisted (2)
- Nagios/Cacti/Zabbix (0)
- eclipse/intellijIDEA/webstorm (5)
- cvs/svn/git/sourceTree/gradle/jira/bitbucket (4)
- jsp/jsf/flex/ZKoss (0)
- 测试技术 (2)
- splunk/flunm (2)
- 高并发/大数据量 (1)
- freemarker/vector/thymeleaf (1)
- docker/Kubernetes (2)
- dubbo/ESB/dubboX/wso2 (2)
最新评论
发表评论
-
CDH与原生态hadoop之间的区别
2017-07-26 12:45 995需要认识的几个问题 ------------------- ... -
Cloudera的CDH和Apache的Hadoop的区别
2017-07-26 12:49 577目前而言,不收费的Hadoop版本主要有三个(均是国外厂商) ... -
大数据、云计算系统高级架构师课程学习路线图
2017-07-24 17:10 599大数据、云计算系统高级架构师课程学习路线图 大数据 ... -
Oozie简介
2017-07-24 12:17 1067在Hadoop中执行的任务有时候需要把多个Map/Reduc ... -
清理ambari安装的hadoop集群
2017-07-24 11:29 928本文针对redhat或者centos 对于测试集群,如果通 ... -
hawk大数据基础知识总结(2)
2017-05-13 15:13 514hawk 英[hɔ:k] 美[hɔk] n. 鹰; 霍克; ... -
hawk大数据基础知识总结(1)
2017-05-13 14:41 797一、大数据概述 1.1大 ... -
ambari是什么
2017-05-11 19:52 649Apache Ambari是一种基于Web的工具,支持Apa ... -
数据仓库中的Inmon与Kimball架构之争
2017-05-11 13:40 697对于数据仓库体系结构的最佳问题,始终存在许多不同的看法,甚至 ... -
Hive的meta 数据支持以下三种存储方式
2017-05-04 13:48 904测试环境下Hive总出问题 ... -
大数据要学习知识
2017-05-02 17:18 49301 技术层面 1.紧贴 ... -
Spark Streaming简介
2017-05-02 16:28 7481.1 概述 Spark Streaming 是Spark ... -
Impala:新一代开源大数据分析引擎
2017-04-22 10:48 730大数据处理是云计算中非常重要的问题,自Google公司提出M ... -
Weka是什么
2017-04-10 13:17 1073Weka的全名是怀卡托智 ... -
解密Apache HAWQ ——功能强大的SQL-on-Hadoop引擎
2017-04-10 12:04 841一、HAWQ基本介绍 HAWQ ... -
Kettle的使用
2017-04-06 12:11 600Kettle是一款国外开源 ... -
clouder manager端口7180没有打开为什么
2017-03-27 10:56 1186修改 clouder-manager.repo新建内容我们需要 ... -
Impala与Hive的比较
2017-03-19 13:09 7891. Impala架构 Impala是Clo ... -
Cloudera Manager、CDH零基础入门、线路指导
2017-03-19 12:53 1268问题导读:1.什么是cloudera CM 、CDH?2.C ... -
DB、ETL、DW、OLAP、DM、BI关系结构图
2017-03-17 10:10 732DB、ETL、DW、OLAP、DM、BI关系结构图 ...
相关推荐
Pentaho BI套件组成情况,里面分析了Pentaho各个组件的功能和使用情况。
- **Pentaho BI Platform**:作为整个套件的基础,BI Platform 提供了一个统一的框架,用于数据集成、分析和报表制作。它包括数据访问、数据处理、元数据管理和用户访问控制等功能。 - **Pentaho Data Integration ...
标签"Pentaho Kettle"强调了这本书聚焦于Pentaho Kettle这一特定工具,而不仅仅是Pentaho套件的其他组件。 内容部分由于扫描识别问题,出现了断断续续的文字,但可以推测出书中可能包含了版权信息、出版社信息、...
Pentaho Data Integration(PDI,又称Kettle)是Pentaho套件的一部分,它提供了一种图形化的界面,使得数据工程师能够设计和执行复杂的数据转换任务,无论数据源是关系型数据库还是像MongoDB这样的NoSQL数据库。...
Kettle(也就是Pentaho Data Integration)是Pentaho套件中处理ETL任务的组件,它是一个开源工具,提供了丰富的功能来完成ETL任务。 本书详细介绍了如何使用Kettle来构建BI(商务智能)解决方案,尤其是其中的OLAP...
### Pentaho BI套件的架构与使用权威指南 #### 一、商业智能(BI)概述 **1.1 BI发展动向及趋势** - **1.1.1 从察觉已实施BI项目的问题启程** - 在商业智能领域,企业通常会面临各种挑战,比如数据质量不佳、...
1. Pentaho套件和版本信息: 文档支持Pentaho Business Analytics Suite 5.0 GA和Pentaho Data Integration 5.0 GA版本,这表明手册内容与特定软件版本相关联。因此,管理员在使用手册时应注意自己的软件版本是否与...
Pentaho 的 OPEN BI 套件是一个完整的商业智能解决方案,包括数据integration、报表生成、数据分析和数据 mining 等功能。该套件基于开放源码,提供了一个灵活、可扩展、易于使用的商业智能平台。 5. 开放源码技术 ...
Pentaho的商业分析套件包括了以下几个关键组件: 1. 数据集成(Pentaho Data Integration,PDI):原名为Kettle,它是一个用于数据转换和数据集成的图形化工具。通过PDI,用户可以轻松地从各种不同的数据源中提取...
Kettle是Pentaho套件中的ETL工具,完全由Java编写,因此具备跨平台特性,可以在Windows、Linux、Unix等操作系统上运行,且无需安装,使用非常便捷。Kettle的设计理念来源于“水壶”,象征着将来自不同源头的数据汇集...
PDI Kettle是Pentaho套件中用于ETL的组件,广泛应用于数据整合、数据迁移和数据仓库建设。接下来将详细介绍文档提及的最佳实践知识。 首先,文档提到的服务器配置部分,强调了启用Spoon连接选项的重要性。Spoon是...
Pentaho 8 是一个功能强大的开源套件,包含了数据集成、报表设计、数据分析等多个组件,为企业的数据处理提供全面的解决方案。在这个名为"Pentaho-8-Reporting-for-Java-Developers-master"的压缩包中,我们很显然会...
Pentaho Reporting是开源商业智能(BI)套件Pentaho的一部分,主要负责数据报表和分析的生成。2014年版本的Pentaho Reporting在当时是一个重要的里程碑,提供了丰富的功能和改进,使得用户能够更好地从大数据源中...
Pentaho 4.8汉化是一个针对这款开源商业智能套件进行本地化的过程,以适应中文用户的需求。Pentaho提供了丰富的数据分析和报告功能,但默认界面为英文,对于中文用户来说可能存在理解上的困扰。以下是对Pentaho 4.8...
Kettle(又称Pentaho Data Integration,简称PDI)是一个开源的ETL(Extract, Transform, Load)工具,它是Pentaho套件中的一部分,用于数据抽取(Extract)、转换(Transform)和加载(Load)到目标数据库或数据...