课程表来处: http://java.itcast.cn/java/course/hadoop.shtml
学习hadoop只要照着这张课程表学习就行了(具说是7天的课程)
一、Hadoop入门,了解什么是hadoop | 1、 Hadoop产生背景 2、 Hadoop在大数据、云计算中的位置和关系 3、 国内外Hadoop应用案例介绍 4、 国内Hadoop的就业情况分析及课程大纲介绍 5、 分布式系统概述 6、 Hadoop生态圈以及各组成部分的简介 7、 Hadoop核心MapReduce例子说明 |
二、分布式文件系统HDFS,是数据库管理员的基础课程 | 1、 分布式文件系统DFS简介 2、 HDFS的系统组成介绍 3、 HDFS的组成部分详解 4、 副本存放策略及路由规则 5、 NameNode Federation 6、 命令行接口 7、 Java接口 8、 客户端与HDFS的数据流讲解 9、 HDFS的可用性(HA) |
三、初级MapReduce,成为Hadoop开发人员的基础课程 |
1、 如何理解map、reduce计算模型 2、 剖析伪分布式下MapReduce作业的执行过程 3、 Yarn模型 4、 序列化 5、 MapReduce的类型与格式 6、 MapReduce开发环境搭建 7、 MapReduce应用开发 8、 更多示例讲解,熟悉MapReduce算法原理 |
四、高级MapReduce,高级Hadoop开发人员的关键课程 |
1、 使用压缩分隔减少输入规模 2、 利用Combiner减少中间数据 3、 编写Partitioner优化负载均衡 4、 如何自定义排序规则 5、 如何自定义分组规则 6、 MapReduce优化 7、 编程实战 |
五、Hadoop集群与管理,是数据库管理员的高级课程 | 1、 Hadoop集群的搭建 2、 Hadoop集群的监控 3、 Hadoop集群的管理 4、集群下运行MapReduce程序 |
六、ZooKeeper基础知识,构建分布式系统的基础框架 | 1、ZooKeeper体现结构 2、ZooKeeper集群的安装 3、操作ZooKeeper |
七、HBase基础知识,面向列的实时分布式数据库 | 1、 HBase定义 2、 HBase与RDBMS的对比 3、 数据模型 4、 系统架构 5、HBase上的MapReduce 6、表的设计 |
八、HBase集群及其管理 | 1、集群的搭建过程讲解 2、集群的监控 3、集群的管理 |
九、HBase客户端 | 1、 HBase Shell以及演示 2、Java客户端以及代码演示 |
十、Pig基础知识,进行hadoop计算的另一种框架 | 1、 Pig概述 2、 安装Pig 3、 使用Pig完成手机流量统计业务 |
十一、Hive,使用sql进行计算的hadoop框架 | 1、 数据仓库基础知识 2、 Hive定义 3、 Hive体系结构简介 4、 Hive集群 5、 客户端简介 6、 HiveQL定义 7、 HiveQL与SQL的比较 8、 数据类型 9、表与表分区概念 10、表的操作与CLI客户端演示 11、数据导入与CLI客户端演示 12、查询数据与CLI客户端演示 13、数据的连接与CLI客户端演示 14、用户自定义函数(UDF)的开发与演示 |
十二、Sqoop,hadoop与rdbms进行数据转换的框架 | 1、配置Sqoop 2、使用Sqoop把数据从mysql导入到HDFS中 3、使用Sqoop把数据从HDFS导出到mysql中 |
十三、论坛日志分析项目 |
该项目的数据来自于某网站论坛的日志,该项目是为本课程量身定做的,非常适合我们hadoop课程学习。 有的同学觉得应该介绍更多项目,其实做过几个项目后,就会发现项目的思路是相同的,只是业务不同而已。 大家写过这个项目后,就对hadoop的各个框架在项目中是如何使用的,有个比较清晰的认识,对hadoop与javaEE结合有个比较清晰的认识了。 |
相关推荐
【分布式云计算】与【Hadoop】是现代大数据处理的...这样的课程设计有助于学生理解Hadoop生态系统的实际应用,以及如何在实际项目中结合不同的数据库技术进行数据管理。同时,也强调了配置管理和数据访问策略的重要性。
本次课程设计的目标是构建一个基于Hadoop的商品推荐系统,旨在利用大数据处理技术提高推荐的精准性和效率。Hadoop作为一个分布式计算框架,能够处理海量数据,非常适合用于商品推荐这种需要处理大规模用户行为数据的...
- Hive提供了一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。在此项目中,创建Hive数据库,将MapReduce处理后的数据导入,便于后续分析。 - MySQL作为关系型数据库,...
### 清华大学Hadoop课程实验概览 #### 一、课程背景与目标 **标题与描述解读:** 清华大学开设的Hadoop课程实验,是其大数据处理专业实践课程的一部分,旨在提升计算机科学与技术系本科生的实践技能,特别是对于大...
02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和伪分布式安装.avi 06-hadoop版本选择和伪分布式安装2.avi 07-hdfs&mapreduce;测试.avi 08-hdfs的...
在本Hadoop课程设计中,我们将探讨如何使用Java编程语言和MapReduce框架来实现一个贝叶斯文本分类器。这个项目旨在让学生理解大数据处理的基本原理,以及如何利用Hadoop生态系统来解决实际问题,特别是文本分类任务...
### Hadoop基础知识教学课程知识点概览 #### 一、Hadoop概述 1. **Hadoop的概念**: - Hadoop是一种能够对大量数据进行分布式处理的软件框架。 - 它设计用于运行在由商用硬件组成的大型集群上,也可以部署在...
此外,需要安装配置 MySQL,根据提供的 SQL 脚本创建数据库和表。 * 运行 HadoopApplication 本地测试程序:根据注释说明,按步骤运行。首先是预处理,从 raw 中读取 xls 文件,按照 csv 格式写入 input 中。使用 ...
根据提供的《Hadoop 数据分析平台》课程毕业测试题的相关信息,我们可以提炼出一系列与Hadoop相关的知识点,这些知识点不仅能够帮助学生更好地理解Hadoop的工作原理和技术细节,还能够加深他们对大数据处理技术的...
2. Hive:一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,适合做离线分析。 3. Pig:Pig Latin是一种高级脚本语言,简化了在Hadoop上进行大数据分析的过程。 4. ...
(1)熟悉Hadoop开发包 (2)编写MepReduce程序 (3)调试和运行MepReduce程序 (4)完成上课老师演示的内容 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 二、实验内容 1.单词计数实验...
【Hadoop大数据云计算课程】是深入学习大数据处理和云计算技术的...通过学习这个完整的Hadoop课程,学员将能够独立完成大数据处理的各个阶段,从数据存储、数据管理到数据分析,从而在大数据领域具备全面的实战能力。
freq_item数据库中多个表为不同置信度、支持度阈值时的数据结果,任选其一即可 注意更改java web项目中数据库用户名等,本项目连接username:user1,password:1 进入test目录,启动java web项目 mvn tomcat:7 run ...
在为期三天的“Hadoop培训讲义”课程中,学员将深入学习大数据处理的核心技术,主要涵盖以下几个关键知识点: 1. 大数据概述:大数据不仅仅是数据的量大,更是涉及数据的多样性、速度和价值密度。它改变了我们处理...
根据提供的文件信息,以下是有关Hadoop入门进阶课程中Hive介绍和安装部署的知识点: 1. Hive介绍: - Hive是Facebook开发的数据仓库工具,运行于Hadoop集群之上。 - 提供类SQL的HQL(Hive Query Language)查询...
3. Hive:Hive是一个数据仓库工具,可将结构化的数据文件映射为一张数据库表,并提供SQL(HiveQL)查询接口。Hive将SQL语句转化为MapReduce任务运行在Hadoop上,适合离线批处理分析。 【安装与配置】 学习Hadoop...
Hive是Facebook为Hadoop设计的数据仓库工具,它将Hadoop上的原始结构化数据转化为易于查询的表,支持与SQL高度相似的语言HiveQL。Hive的目标是让非Java程序员,尤其是熟悉SQL的分析师,能够轻松处理大量数据。Hive...