网盘地址:http://pan.baidu.com/s/1eQErqAu 密码:6alg
备用地址(腾讯微云):http://url.cn/53O882d 密码:2ZrfyQ
课程大纲
第一章:架构方面优化策略(5讲)
Hadoop的主要性能瓶颈是IO负载,降IO负载是优化的重头戏。
本章大纲:
作业架构优化手段大探底
多个降IO负载的策略和场景
分表、源表归纳
合理设计表分区、动态分区
压缩、分布式缓存
第二章:Hive Sql语法层面和Properties参数层面优化(4讲)
语法优化手段归纳
Map数和Reduce数的决定和控制及案例分析
数据倾斜的避免和解决办法
执行计划剖析,从执行计划上找倾斜根本
Properties参数
高效Join、MapJoin、SEMI JOIN
减少Job 合并MR
Mapreduce中间参数
第三章:Impala熟悉和使用(1讲)
Impala是Cloudera 公司推出仿Hive的一个产品,目前已经有稳定的发行版本。
理论上性能比Hive好,但目前版本功能和扩展性上远不能替代Hive。
未来该产品或会有一定影响力。
特点:同Hive一样是类sql产品
公用Hive的元数据库
第一讲:Hive体系结构及Hive作业形式
第二讲:Hive优化策略大探底及架构优化案例一
第三讲:架构优化案例二之降IO负载策略I
第四讲:架构优化案例二之降IO负载策略II
第五讲:架构优化案例二之降IO负载策略III—压缩和分布式缓存
第六讲:Hive语法、参数层面优化一
第七讲:Hive语法、参数层面优化二
第八讲:Hive语法、参数层面优化三
第九讲:Hive语法、参数层面优化四
第十讲:10.Impala熟悉和使用
2、课程环境:
Cloudera Hadoop 4 (Hadoop 2.0)
Hive-0.90
3、所需技术基础:
Hadoop基础、Hive基础、Linux基础,其他不限制(不分Java和.Net方向,皆适合)。
分享到:
相关推荐
Hive视频教程详解及实战视频教程,课程由浅入深,介绍了Hive基本架构及环境部署,带领大家认识数据仓库Hive的优势及Hive具体使用。并通过企业实际需求分析,讲解HiveQL中的DDL和DML的使用,以及常见的性能优化方案。
Hive的架构优化是课程的重点,包括降低IO负载、表分区、动态分区、压缩和分布式缓存等技术,以提升Hive的性能。 针对HQL的优化,课程将深入探讨具体的策略和方法,包括Map和Reduce的优化、数据倾斜问题的解决,以及...
本章首先介绍了数据仓库的概念、Hive的基本特征、与其他组件之间的关系、与传统数据库的区别以及它在企业中的具体应用;接着详细介绍了Hive的系统架构,包括基本组成模块、工作原理和几种外部访问方式,描述了Hive的...
在本课程中,你将学习到,Hive架构原理、安装配置、hiveserver2、数据类型、数据定义、数据操作、查询、自定义UDF函数、窗口函数、压缩和存储、企业级调优、以及结合谷粒影音项目需求,把整个Hive的核心知识点贯穿...
(2) 使用WebMagic爬虫技术爬取B站视频数据信息,将采集到的数据导入kafka中,使用Flume框架技术从kafka采集数据到Hdfs并将数据导入到Hive中,然后使用Hue操作Hive进行离线数据分析,最后利用sqoop导入mysql,整个...
手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程简介 从零开始讲解大数据分布式计算的发展及Impala的应用场景,对比Hive、MapReduce、Spark等类似框架讲解内存式计算...
本课程基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。 不管是零基础的大数据技术爱好者...
手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程简介 从零开始讲解大数据业务及数据采集和迁移需求,以案例驱动的方式讲解基于Sqoop构建高性能的分布式数据迁移和...
2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。...
手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程简介 从零开始讲解大数据调度系统构成,集成大数据计算任务构建大数据工作流,基于Azkaban构建实现企业级自动化任务...
手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程简介 从零开始讲解大数据调度系统构成,集成大数据计算任务构建大数据工作流,基于Oozie构建实现企业级自动化任务...
1.02_02_01_03 Sqoop 使用要点(核心)及企业版本讲解.mp4 1.02_02_01_04 使用CDH 5.3.6版本快速搭建Hadoop 2.x和Hive伪分布式环境 网页.mp4 1.02_02_01_05 Sqoop 1安装及基本使用讲解 网页.mp4 1.02_02_01_06 使用...
课程的核心是通过案例教学,帮助学员掌握Hadoop这一强大的分布式大数据处理框架,适用于互联网企业、金融机构、政府组织及云计算服务企业的数据处理需求。 Hadoop是一个针对大数据高并发问题设计的软件框架,它允许...
课程由经验丰富的讲师迪伦主讲,旨在帮助学员掌握大数据解决方案的核心技术,包括MapReduce、HDFS、Hive、Sqoop等,并通过96个课时的深度学习,使学员能够熟练运用Greenplum Hadoop大数据分析平台。 Hadoop作为...
手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程简介 从实际企业需求角度出发,引入Hue的实际开发应用场景,基于Hue构建统一化的大数据集中式开发管理平台,并基于...
标题中的“大纲及下载地址.doc”表明这是一份关于大数据研发架构的学习资料包的大纲,可能包含具体的课程列表和下载链接。描述详细列举了涵盖的各个主题,从基础的Linux到高级的分布式计算引擎和数据中台建设,全面...
- **Hadoop生态系统**:深度剖析Hadoop的整体架构和技术组件,如HBase、Hive、Pig、ZooKeeper、Chukwa等,并结合实际案例进行实战演练。 - **云计算基础**:介绍云计算的基本概念和技术框架,探讨Hadoop在云计算环境...
1. **大数据基础**:首先,课程可能会介绍大数据的基本概念,包括大数据的“四V”特征(Volume、Velocity、Variety、Value),以及大数据架构的主要组成部分,如Hadoop、Spark、Hive等。 2. **数据采集与预处理**:...
4. **行业发展**: 课程不仅关注技术本身,还帮助学员了解行业发展趋势和技术架构,拓宽职业视野。 综上所述,本课程旨在通过实战案例的学习,让学员全面掌握Hadoop和Greenplum的核心技术和应用方法,为将来在大数据...