快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)
分享网盘下载——https://pan.baidu.com/s/1mkqrTs0 密码: y5hg
https://pan.baidu.com/s/1c3V93wO 密码: isbr
Spark进入2.0时代,引入了很多优秀特性,性能上有较大提升,API更易用。在“编程统一”方面非常惊艳,实现了离线计算和流计算API的统一,实现了Spark sql和Hive Sql操作API的统一。真正做到了“更简单、更快速、更智能”!
课程适用于Spark零基础或有一些基础的初级学员,帮助学员从基础开始快速占领技术制高点。
学习本课程不需要具备Spark 1.x的基础,因为课程里会覆盖仍保留可用的Spark 1.x的内容。需要Scala基础,课程中用Scala编程语言。
本课程从基础开始,紧抓重点、言简意赅、深入浅出的讲解Spark 2.0,旨在学员能快速上手并灵活掌握。
课程以实操为主,提供完整详细的源码,供学员学习或应用到项目中。课程的课件也很详细,在学员不方便看视频的时候直接看课件并结合源码,同样可以达到很好的学习效果,并能大幅节省学习时间。
课程中编程语言采用当前较有前景的Scala,Hadoop采用Cloudera Hadoop的5.7.1版本,Kafka的0.10版本.
课程中对RDD操作、SQL、Streaming开发有非常深入系统的讲解,且围绕企业需求场景逐级展开和深化。
课程里不涉及当今企业里还比较少用的数据挖掘算法包MLlib和图计算模块部分。
目录——
01 Spark架构体系,应用场景
02 Spark 2.0新特性一览
03 把Spark-examples导入到IntelliJ IDEA
04 Cloudera Manager安装
05 CDH5.7.1 集群安装
06 CDH5.7.1 集群安装-续
07 Spark 2.0集群部署和测试
08 RDD详解和创建RDD方式
09 RDD操作之Transform
10 RDD的Action操作和持久化persist()
11 Pair RDD操作
12 Pair RDD常用函数详解
13.Join和cogroup
14 添加Hive服务及设置Mysql元数据库
15 [项目案例]网站流量UV和PV的统计
16 [项目案例]会话二跳率的统计
17 Spark Sql基础练习
18 SparkSesion语法练习
19 [项目案例]使用SparkSesion进行流量分析
20 [项目案例]SparkSesion操作Hive
21 Idea里打包部署,作业结果验证
22 Spark Cli命令spark-sql的使用
23 spark-sql支持传参数的封装
24 spark-sql支持传参数的封装-续
25 UDF开发和运用
26 Spark读写Json、parquet文件
27 优化篇-控制数据分区和分布
28 Spark Streaming架构和概念
29 DStream的两种类型,API介绍
30 Kafka架构体系和概念
31 Kafka集群搭建和测试
32 Streaming读Kafka开发WordCount案例
33 使用updateStateByKey完善案例
34 按天计算地区销售额
35 时间窗口
36 去重类计算案例,以计算UV为例
37 [流计算项目]需求说明和架构设计
38 [流计算项目]HBase DAO类开发和测试
39 [流计算项目]Spark和Servlet代码详解
40 [流计算项目]Highcharts代码详解,项目运行
Spark2全面精讲
分享百度网盘地址:https://pan.baidu.com/s/1hrHL4Le 密码: mais
分享到:
相关推荐
#### 1.2 Spark 2.0新特性 Spark 2.0是Spark的一个重要版本,相比之前的版本,它引入了多项重要的改进和新特性: - **结构化流处理**:Spark 2.0新增了对结构化流处理的支持,使得处理实时数据流变得更加简单。 - **...
### Spark 2.0 新特性详解 #### 一、核心改进与新特性 **1.1 Spark Core & Spark SQL** **1.1.1 API 改进** - **DataFrame与Dataset统一**: DataFrame现在被视为Dataset[Row]的一个类型别名,这使得用户能够更加...
- **Spark 2.0**引入了多个新特性,包括更简洁的API、优化的执行计划生成器(Catalyst)、改进的DataFrame API以及对SQL的支持增强等。 - **语言支持**:Spark 2.0支持Scala、Java、Python和R等多种编程语言,使得...
Spark3.2.2是Apache Spark的一个重要版本,它提供了许多新特性和性能优化,而适配CDH6.3.2则意味着该版本的Spark已经经过了与Cloudera Data Hub (CDH) 6.3.2的兼容性验证。CDH是一个流行的Hadoop发行版,包含了...
《Apache Spark 2.0 性能提升:深入探索 Flame Graphs》 Apache Spark 是一个分布式计算框架,因其高效的数据处理能力而广受业界青睐。Spark 2.0 的发布,带来了许多性能上的显著改进,这使得大数据处理更加迅速且...
通过这个完整的视频教程,你不仅可以掌握Scala和Spark的基础知识,还能了解到如何在实际项目中应用这些技术,提升你在大数据领域的专业技能。记得结合配套资料进行学习,不断实践,将理论知识转化为实际操作能力,...
Get to know the fundamentals of Spark 2.0 and the Spark programming model using Scala and Python Know how to use Spark SQL and DataFrames using Scala and Python Get an introduction to Spark ...
Spark Scala开发依赖包是针对Apache Spark项目在Scala编程语言环境下进行开发所必需的软件组件集合。Spark是一个快速、通用且可扩展的大数据处理框架,它提供了丰富的API,其中包括使用Scala编写的API,使得开发者...
该指南涵盖了从基础概念到高级技术的广泛话题,适用于想要在Spark 2.0版本上使用Java进行开发的用户。 文档首先介绍了Spark应用的基本架构。每一个Spark应用程序都由一个驱动程序(driver program)组成,它负责...
Scala是一种强大的多范式编程语言,它融合了面向对象和函数式编程的特性,被广泛应用于大数据处理、分布式计算和Web开发等领域。Spark是基于Scala构建的大数据处理框架,其高性能和易用性使得Scala在大数据领域备受...
Scala是Apache Spark的主要编程语言,它为Spark提供了强大的面向对象编程模型,使得处理大规模数据变得更加高效和便捷。Spark作为一个分布式计算框架,包含了四个主要模块:Spark Core、Spark SQL、Spark Streaming...
该项目是基于机器学习、Spark 2.0 和 MongoDB 技术构建的一个协同过滤推荐系统,旨在为用户提供个性化推荐。在当今大数据时代,推荐系统已成为许多在线服务的核心,如电商、流媒体平台等,它们能够根据用户的历史...
本设计源码提供了一个基于Scala的Spark学习项目。项目包含95个文件,主要使用Scala和Java编程语言。...该学习项目适合用于学习和实践Scala和Java技术,以及开发基于Spark的数据处理和分析相关的项目。
内容概要:由于cdh6.3.2的spark版本为2.4.0,并且spark-sql被阉割,现基于cdh6.3.2,scala2.12.0,java1.8,maven3.6.3,,对spark-3.2.2源码进行编译 应用:该资源可用于cdh6.3.2集群配置spark客户端,用于spark-sql
本项目是基于Scala语言开发的Apache Spark学习与实践源码,共包含53个文件。其中,Scala源代码文件21个,文本文件7个,XML文件5个,Markdown文档5个,JSON配置文件3个,Avro Schema文件2个,CSV数据文件2个,...
本文将深入探讨使用Scala语言在Spark平台上实现ARIMA(自回归积分滑动平均模型)和Holt-Winters三次指数平滑法进行时间序列预测的知识点。 一、ARIMA模型 ARIMA(Autoregressive Integrated Moving Average)模型是...