SPARK 2.4.0 学习笔记分享
- 【本站点正在持续更新中......2019-01-09......】
- 微博: https://weibo.com/thinktothings
- 微信服务号: opensourceteam
- SPARK 2.4.0 学习笔记分享(bilibili整套视频): https://www.bilibili.com/video/av38193405/
更多资源
- SPARK 1.6.0-cdh5.15.0 源码分析: https://github.com/opensourceteams/spark-scala-maven
Spark2.4.0源码分析时序图
前置条件
- Hadoop版本: hadoop-2.9.2
- Spark版本: spark-2.4.0-bin-hadoop2.7
- Hive版本: apache-hive-3.1.1-bin
- JDK.1.8.0_191
- scala2.11.12
Spark 环境配置
大数据开发工具介绍
Spark 2.4.0 standalone 模式安装
- Spark 2.4.0 standalone 模式安装(详细说明文档): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/standaloneInstall.md
Spark 2.4.0 编程指南
快速入门(Quick Start)
- a quick introduction to the Spark API; start here!
- 快速介绍Spark API;从这里开始
Spark 2.4.0 编程指南--快速入门
- Spark 2.4.0 编程指南--快速入门(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/quick-start.md
- Spark 2.4.0 编程指南--快速入门(bilibili视频) : https://www.bilibili.com/video/av38193405/?p=2
<iframe width="800" height="500" src="//player.bilibili.com/player.html?aid=38193405&cid=67137841&page=2" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"> </iframe>
Spark SQL, Datasets, and DataFrames
- processing structured data with relational queries (newer API than RDDs)
- 使用关系查询处理结构化数据(比RDD更新的API)
Spark 2.4.0编程指南--spark sql入门
- Spark 2.4.0编程指南--spark dataSet action(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/spark-sql-dataSet-action.md
- Spark 2.4.0编程指南--spark dataSet action(bilibili视频) : https://www.bilibili.com/video/av38193405/?p=3
<iframe width="800" height="500" src="//player.bilibili.com/player.html?aid=38193405&cid=67137841&page=3" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"> </iframe>
Spark 2.4.0编程指南--Spark SQL UDF和UDAF
- Spark 2.4.0编程指南--Spark SQL UDF和UDAF(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/spark-sql-UDF-UDAF.md
Spark 2.4.0 集成Hive 2.3.4
- Spark 2.4.0 集成Hive 2.3.4(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/SparkAndHive.md
Spark 2.4.0编程指南--Spark DataSources
- Spark 2.4.0编程指南--Spark DataSources(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/spark-data-source.md
Spark 2.4.0 源码分析(建设中)
Spark2.4.0 Dataset head 源码分析
- Spark2.4.0 Dataset head 源码分析(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/Dataset-head.md
<iframe width="800" height="500" src="//player.bilibili.com/player.html?aid=38193405&cid=68636905&page=6" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"> </iframe> <iframe width="800" height="500" src="//player.bilibili.com/player.html?aid=38193405&cid=68636905&page=7" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"> </iframe>
Spark2.4.0 SparkEnv 源码分析
- Spark2.4.0 SparkEnv 源码分析(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/SparkEnv.md
Spark2.4.0 SparkContext 源码分析
- Spark2.4.0 SparkContext 源码分析(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/SparkContext.md
Spark2.4.0 SparkSession 源码分析
- Spark2.4.0 SparkSession 源码分析(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/SparkSession.md
Spark2.4.0 QueryExecution 源码分析
-
LogicalPlan => analyzed => optimizedPlan => sparkPlan => executedPlan
-
Spark2.4.0 QueryExecution(LogicalPlan) 源码分析(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/QueryExecution-LogicalPlan.md
-
Spark2.4.0 QueryExecution(OptimizedPlan) 源码分析(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/QueryExecution-OptimizedPlan.md
-
Spark2.4.0 QueryExecution(SparkPlan) 源码分析(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/QueryExecution-SparkPlan.md
-
Spark2.4.0 QueryExecution(ExecutedPlan) 源码分析(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/QueryExecution-ExecutedPlan.md
Spark2.4.0 Spark2.4.0源码分析之 Dataset.count
- Spark2.4.0 Spark2.4.0源码分析之 Dataset.count FinalRDD构建(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/Dataset-count-rdd-build.md
- Spark2.4.0源码分析之Dataset.count 作业提交源码分析(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/Dataset-count-job-handler.md
Spark2.4.0 WorldCount 源码分析
- Spark2.4.0源码分析之WorldCount FinalRdd构建(一)(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/worldCount/Dataset-WorldCount-FinalRDD-build.md
- Spark2.4.0源码分析之WorldCount 触发作业提交(二)(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/worldCount/Dataset-WorldCount-trigger-job-submit.md
- Spark2.4.0源码分析之WorldCount 事件循环处理器(三)(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/worldCount/DAGSchedulerEventProcessLoop.md
- Spark2.4.0源码分析之WorldCount Stage划分(DAGScheduler)(四)(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/worldCount/Dataset-WorldCount-FinalStage.md
- Spark2.4.0源码分析之WorldCount Stage提交顺序(DAGScheduler)(五)(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/worldCount/Dataset-WorldCount-stage-submit-order.md
- Spark2.4.0源码分析之WorldCount Stage提交(DAGScheduler)(六)(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/worldCount/Dataset-WorldCount-stage-submit.md
- Spark2.4.0源码分析之WorldCount 任务调度器(七)(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/worldCount/Dataset-WorldCount-TaskScheduler.md
- Spark2.4.0源码分析之WorldCount ShuffleMapTask处理(八)(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/worldCount/n_08_Dataset-WorldCount-ShuffleMapTask.md
- Spark2.4.0源码分析之WorldCount 默认shuffling并行度为200(九)(文档说明): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/sql/dataset/worldCount/n_09_Dataset-WorldCount-numPatitions.md
相关推荐
Spark是Apache软件基金会下的一个开源...通过对Spark-2.4.0源码的阅读和研究,开发者可以了解到分布式系统设计、内存管理、任务调度、数据并行处理等多方面的知识,这对于提升大数据处理技术的专业水平有着极大的帮助。
主要模块如DAGScheduler、Executor、RDD以及DataFrame/Dataset API等,都可以通过源码分析来掌握其实现细节。 1. DAGScheduler:负责将任务转化为Stage,并进行任务调度。 2. Executor:执行计算任务,存储中间结果...
8. **Spark Shell**:交互式的数据分析环境,允许用户快速地尝试和测试Spark功能。 9. **YARN集成**:与Hadoop2.6的兼容意味着Spark可以运行在YARN之上,利用YARN的资源管理和调度功能。 在解压`spark-2.4.7-bin-...
同时,源码分析也有助于优化应用程序,例如,通过定制化MapReduce的Partitioner、InputFormat和OutputFormat,可以实现更高效的数据处理流程。 总结,Hadoop 2.4.0源码不仅提供了学习分布式系统设计的宝贵机会,也...
使用这些JAR文件,开发者可以在Spark集群上编写Python或Scala代码,利用Mongo-Connector将MongoDB作为数据源,进行大规模的数据分析和处理。例如,你可以用pyspark读取MongoDB中的数据集,进行清洗、转换、聚合等...
Hadoop的生态系统还包括许多其他项目,如Hive(数据仓库工具)、Pig(数据分析工具)、HBase(分布式NoSQL数据库)和Spark(快速通用的大数据处理引擎)。这些项目共同构建了一个强大的大数据处理平台,使得开发者...
- Spark 2.4.0 -------- 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! <项目介绍> 1、该资源内项目...
实验环境搭建在Linux操作系统上,采用Hadoop 3.1.3、JDK 1.8和Spark 2.4.0版本。 ### 实验环境配置 1. **操作系统**:推荐使用Ubuntu 16.04或18.04,因其稳定性和对开源软件的良好支持。 2. **Hadoop**:Hadoop ...
java8集合源码Holden Karau、Andy Konwinski、Patrick Wendell 和 Matei Zaharia 合着的《 Learning Spark 》一书摘要 星火SQL 火花流 MLlib 图X 用于运行pyspark export SPARK_HOME=/usr/local/Cellar/apache-spark...
其中,YARN(Yet Another Resource Negotiator)是这个版本的一个关键变化,它将资源管理和作业调度功能从MapReduce中分离出来,形成了一个独立的资源管理器,使得Hadoop可以支持更多的计算框架,如Spark和Tez。...
标签中提到的“zookeeper”是Apache的一个开源项目,它提供了一个分布式的,开放源码的分布式应用程序协调服务,是集群中的分布式数据存储和命名服务,为分布式应用提供一致性服务。nuc-data-tool很可能使用...
"spark-graphx-twitter-master"目录下包含了项目源码,通过配置SBT的build.sbt文件,可以设定Spark和相关库的版本,以及编译和打包指令。 2. **数据预处理**:在Spark中,我们首先需要将原始的JSON数据转换成Spark...
通过分析和学习Hadoop 2.4的源码,开发者不仅可以了解大数据处理的核心技术,还能根据实际需求调整Hadoop的行为,或者为Hadoop贡献新的功能。此外,对于想要深入研究大数据生态系统的开发者来说,理解Hadoop的工作...
1. **Spark**:Hudi 默认使用的 Spark 版本为 2.4.4,而在 CDH 6.x 中,Spark 版本为 2.4.0。升级 Spark 版本到 2.4.4 可以解决 API 不兼容的问题。此外,Hudi 中的 DataSourceUtils 和 PartitionUtils 函数需要相应...
4. **流式处理**:Spark、Flink等新一代大数据处理框架,进一步优化了实时数据处理,使得Hadoop更适合于实时分析场景。 五、Hadoop与大数据的关系 Hadoop是大数据处理的重要工具,它提供了一种经济高效的方式处理...
CDH是业界广泛采用的企业级Hadoop发行版,它不仅集成了Hadoop的核心组件,还包含了其他的开源大数据项目,如Hive、Pig、Spark、Impala等,提供了一整套大数据处理和分析解决方案。CDH 5.16.2是CDH系列的一个重要更新...