基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\MapReduce\数据挖掘\项目实战)
课程分类:Hadoop
适合人群:高级
课时数量:81课时
用到技术:基于协同过滤的推荐系统、基于HBase的爬虫调度库
涉及项目:银行人民币查询系统、HBase编程实践及案例分析
咨询qq:1840215592
课程内容简介
本课程基于《基于Greenplum Hadoop分布式平台的大数据解决方案》Hadoop部分的基础课程来进行扩展延伸,主要内容分为以下四部分:
一、对Hadoop最新的2.0系列版本和YARN进行介绍,掌握最前沿的Hadoop技术框架。
二、针对MapReduce和HBase的高阶应用做深入的讲解和实战演练。
三、讲解之前基础篇中未涉及的Hadoop子项目,包括Cassandra、Sqoop、Avatar、Mahout、Avro、Flume等
四、Hadoop与R结合应用、Hadoop源代码导读基础及最后的综合实战
适合对象:
1、要求具有一定的Linux和Java基础
2、要求具有一定SQL语言基础
3、学习完《基于Greenplum Hadoop分布式平台的大数据解决方案》Hadoop部分的基础课程
课程大纲
Hadoop高阶应用课程(81课时)
Hadoop 2.0(6课时)
Hadoop 2.0产生背景
Hadoop 2.0基本构成
HDFS 2.0
MapReduce 2.0
Hadoop 2.0安装配置
集群测试
YARN资源管理系统(4课时)
YARN产生背景
YARN基本设计思想
YARN基本架构
YARN工作流程
YARN通信协议
YARN容错
YARN资源调度机制
YARN支持的计算框架(Storm,Tez,Spark)(11课时)
以YARN为核心的生态系统
Storm基本概念
Storm流式计算框架
基于YARN的Storm架构
YARN-Storm部署
Storm On YARN服务
Apache Tez介绍
Tez特点
Tez数据处理引擎
DAGAppMaster实现
Tez优化机制
Tez应用场景
Tez部署
什么是Spark
Spark生态系统
Spark的核心--RDD和Lineage
RDD的存储、容错机制、内部设计及数据模型
Spark调度框架
Spark的分布式部署方式
基于Mesos的Spark模式
基于YARN的Spark模式
Spark的独立模式部署
Spark的YARN模式部署
MapReduce多语言编程(5课时)
MapReduce编程接口
Java编程接口实例解析
Hadoop Streaming实现方式
Hadoop Streaming编程实战(C++,PHP,PYTHON)
Hadoop Streaming原理剖析
Hadoop Pipes的编程实例
Hadoop Pipes的原理剖析
MapReduce高阶实现(14课时)
复杂的MapReduce应用
K-means聚类、贝叶斯分类等
工作流编程实例及原理剖析
JobControl、ChainMapper/ChainReducer
Hadoop工作流引擎
常用MapReduce优化技巧
配置多个reducer
设置Stream的处理格式
控制分片的大小
避免分片
输入格式:文本输入、多种类型输入
输出控制:多个输出、延迟输出
实战:数据分区
MapReduce高级特性
计数器、内置计数器
实例:用户自定义计数器
MapReduce部分排序的实现
实例:MapReduce全排序
Terasort算法分析
实例:MapReduce实现二次排序
连接、Map端连接的实现
实例:Reduce端连接
连接类型、连接策略介绍
重分区连接框架的实现
复制连接框架的实现
实例:半连接
全局作业参数/数据文件传递
HBase编程实践及案例分析(10课时)
HBase基础精讲
HBase Java编程实例
HBase多语言编程
Thrift安装、服务配置
HBase C++编程实例
HBase Python编程实例
HBase MapReduce编程基础
实战:HBase MapReduce编程
Hbase案例:OpenTSDB的实现
基于HBase的爬虫调度库
基于HBase的爬虫索引库
银行人民币查询系统
Sqoop(6课时)
Sqoop产生背景、基本
Sqoop1和Sqoop2架构及特点
Sqoop1安装配置(版本1.4.4)
Sqoop导入介绍
实战:从mysql导入数据到HDFS
实战:从mysql导入数据到Hive
Sqoop导出介绍
实战:将Hive数据导出到Mysql
Sqoop与Hbase结合
Sqoop作业操作
Sqoop作业安全配置
Sqoop2安装配置(版本1.99.3)
Sqoop2使用综合实战
Flume日志收集系统(7课时)
Flume概念和特点
Flume OG架构、组成、特点、容错机制设计
日志收集系统综合比较
Flume NG架构、核心概念
Flume OG的安装
Flume OG的配置(Web端、Flume shell)
Flume NG的安装配置、测试
Flume NG模块配置(Source、Channel、Sink)
Flume NG配置实战分析
Avro数据序列化系统(1课时)
Avro介绍
Avro特性、主要作用
RPC使用Avro
Avro与其他序列化系统的区别
Mahout数据挖掘工具(10课时)
数据挖掘概念、系统组成
数据挖掘常用方法及算法(回归分析、分类、聚类等)
数据挖掘分析工具
Mahout支持的算法
Mahout起源和特点
Mahout安装、配置及测试
实战:Mahout K-means聚类分析
Mahout实现Canopy算法
Mahout实现分类算法
实战:Mahout逻辑回归分类预测
实战:Mahout朴素贝叶斯分类
推荐系统的概念及分类
协同过滤推荐算法概念、分类及应用
实战:实现基于Mahout的电影推荐系统
Hadoop综合实战-文本挖掘项目(7课时)
文本挖掘的概念及应用场景
项目背景
项目流程
中文分词技术
庖丁分词器的使用
MapReduce并行分词程序的设计与实现
Pig划分数据集
Mahout构建朴素贝叶斯文本分类器
模型应用-计算用户偏好类别
相关推荐
《Python+Spark 2.0+Hadoop机器学习与大数据》是一本深入探讨大数据处理与机器学习技术结合的著作。作者林大贵以其丰富的经验,详细介绍了如何利用Python、Spark 2.0以及Hadoop这一组合来构建高效的数据分析解决方案...
涉及到了Hadoop2.0、Hbase、Sqoop、Flume、Hive、Zookeeper的具体环境搭建
毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+...
实战Hadoop 2.0:从云计算到大数据(第二版)
Hadoop 2.0是Apache Hadoop的一个重大升级版本,它引入了YARN(Yet Another Resource Negotiator)作为其核心组件之一,以解决Hadoop 1.x版本中MapReduce框架存在的诸多限制,如扩展性差、资源利用率低以及对多种...
大数据Hadoop视频教程大数据Hadoop视频教程大数据Hadoop视频教程
Hadoop是大数据技术中最重要的框架之一,是学习大数据必备的第一课,在Hadoop平台之上,可以更容易地开发和运行其他处理大规模数据的框架。尚硅谷Hadoop视频教程再次重磅升级!以企业实际生产环境为背景,增加了更...
hadoop 2.0 详细安装手册。hadoop 2.0 详细安装手册。
大数据处理--hadoop2.0核心架构技术,主要介绍了大数据面临的挑战,而hadoop正是解决这些挑战的重要技术,接着分别介绍了hadoop1.0和hadoop2.0的区别,进而重点讲到hadoop2.0 YARN,详细分析MapReduce及HDFS架构。
《Python+Spark2.0+Hadoop机器学习与大数据实战》是一本深入探讨大数据处理和机器学习技术的书籍。在本书的练习部分,作者通过实际案例帮助读者掌握Python、Spark 2.0以及Hadoop的核心概念和技术。这些技术是当前大...
Hadoop 2.0 YARN,全称Yet Another Resource Negotiator,是Apache Hadoop生态系统中的一个核心组件,它在Hadoop 1.0 MapReduce的基础上进行了重大改进,旨在解决资源管理和调度的问题,以提高分布式计算的效率和...
在大数据领域,Hadoop 2.0 是一个关键的分布式计算框架,它为海量数据处理提供了强大支持。本文将深入探讨Hadoop 2.0的主要组件、架构、以及其相较于Hadoop 1.0的改进。 一、Hadoop 2.0概述 Hadoop 2.0是Apache软件...
《Hadoop权威指南》是大数据领域的一本经典著作,它深入浅出地介绍了Hadoop这一开源框架,如何处理和分析海量数据。这本书的第4版不仅进行了修订,还增加了新的内容,使其更适合当前大数据环境的需求。 Hadoop是...
Hadoop 2.0作为该框架的一个重要版本,引入了YARN(Yet Another Resource Negotiator)作为资源管理平台,提供了更好的资源管理和任务调度能力。本文档提供了Hadoop 2.0在Linux系统上安装部署的详细步骤和方法。 一...
### Hadoop 2.0:从YARN到下一代大数据处理平台 #### 1. Hadoop 2.0:新时代的大数据处理平台 Hadoop 2.0是Apache Hadoop的一个重要版本,它标志着Hadoop从单一的MapReduce计算框架转变为一个更加通用、可扩展和...
在本文中,李晓蕾作者对基于Hadoop技术的交通视频大数据监控方案进行了深入的研究。针对海量交通视频数据监控和分析问题,本研究提出了异常检测算法的设计方案,并实现了交通数据的实时更新和异常分析。在此基础上,...
【高分毕设源码】基于Hadoop、Spark的大数据金融信贷风险控系统设计和实现 【高分毕设源码】基于Hadoop、Spark的大数据金融信贷风险控系统设计和实现 【高分毕设源码】基于Hadoop、Spark的大数据金融信贷风险控系统...
【实战Hadoop 2.0】是一套深入学习Hadoop生态系统的PPT文档,涵盖了Hadoop分布式文件系统(HDFS)、资源调度器YARN、数据分析工具Spark、Ambari管理平台等多个关键组件。以下是这些核心知识点的详细解析: 1. **...
本章节我们将深入探讨Hadoop2.0的新特性,包括YARN资源管理框架和Hadoop的高可用(HA)模式。 ### 1. Hadoop2.0的改进 #### (1) 从Hadoop1.0到Hadoop2.0 Hadoop1.0由MapReduce和HDFS两大部分组成,但在高可用性和...
【Hadoop大数据教学视频100集】是一套全面深入的教程,旨在帮助学习者掌握Hadoop生态系统的核心技术和应用。这套教程涵盖了从基础到高级的Hadoop知识,包括Hadoop的分布式文件系统(HDFS)和MapReduce计算框架。通过...