【Spark三十五】Standalone集群+Client部署模式下用户提交任务的执行流程

bit1129

浏览: 1069560 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Spark

通过spark-sumbit提交Standalone集群+Clientr部署模式下的程序的流程

spark-submit提交程序

SparkSubmit相应提交程序请求
由于是standalone集群+部署模式(deployMode)是client的方式，因此逻辑执行到在SparkSubmit的main方法里通过反射构造应用的class的main函数
程序执行到程序的main函数中
创建SparkContext对象

1. 创建private[spark] var (schedulerBackend, taskScheduler) = SparkContext.createTaskScheduler(this, master)

2. 创建 dagScheduler = new DAGScheduler(this)

在createTaskScheduler方法中，创建SparkDeploySchedulerBackend对象，SparkDeploySchedulerBackend继承自SparkDeploySchedulerBackend
在SparkContext的构造方法中，调用TaskScheduler的start方法，在start方法内部调用SparkDeploySchedulerBackend的start方法
在SparkDeploySchedulerBackend的start方法中，构造AppClient对象，并调用AppClient的start方法
在AppClient中，执行preStart方法以调用registerWithMaster()方法，将Driver注册给Master。注册的动作实际上是AppClient给Master发送RegisterApplication消息，
在Master的RegisterApplication消息处理中，调用Master的schedule方法(注意资源调度策略)
在Master的schedule方法中调用launchExecutor方法
在Master的launchExecutor方法中，给Worker发送LaunchExecutor消息
在Workder的LaunchExecutor消息处理器中，创建ExecutorRunner对象，而ExecutorRunner则通过反射的方式创建一个Java进程，这个进程就是启动一个CoarseGrainedExecutorBackend进程
CoarseGrainedExecutorBackend是一个Actor，首先运行它的preStart方法，在它的preStart方法中，给Driver发送RegisterExecutor消息
此处的Driver是在CoarseGrainedSchedulerBackend中定义的，当它收到RegisterExecutor时，调用CoarseGrainedSchedulerBackend的makeOffers方法
在makeOffers中，调用launchTasks方法启动任务
在launchTasks中，循环提交所有的Task(这本来是一个TaskSet任务集),每次循环给CoarseGrainedExecutorBackend发送LaunchTask消息
CoarseGrainedExecutorBackend处理LaunchTask时，调用Executor的launchTask方法
在Executor的launchTask方法中，提交给Executor中的线程池执行

可见，standalone+client的方式，相对于standalone+cluster的方式，省略了如下三个步骤

ClientActor给Master发送RequestSubmitDriver消息
Master给Worker发送LaunchDriver的消息
Worker创建并启动Driver进程

如下图所示，第二步动作是在AppClient的preStart的registerWithMaster()方法中给Master发送的RegisterApplication消息。所以，Driver实际上并未向Master注册，而是发送了RegisterApplication消息。

查看图片附件

分享到：

【Spark三十六】Spark On Yarn之yarn-cli ... | 【Spark三十四】Standalone集群+Cluster部 ...

2015-01-31 13:14
浏览 2217
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Spark三十五】Standalone集群+Client部署模式下用户提交任务的执行流程

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Spark三十五】Standalone集群+Client部署模式下用户提交任务的执行流程

评论

发表评论

相关推荐

【Spark109】Windows上运行spark-shell

【Spark108】Spark SQL动态代码生成四

【Spark107】Spark SQL动态代码生成三

【Spark106】Spark SQL动态代码生成二

【Spark105】Spark SQL动态代码生成一

【Spark105】Spark任务调度

【Spark104】Spark源代码构建打包

【Spark103】Task not serializable

【Spark102】Spark存储模块BlockManager剖析

【Spark101】Scala Promise/Future在Spark中的应用

【Spark100】Spark Streaming Checkpoint的一个坑

【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析

【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析

【Spark九十七】RDD API之aggregateByKey

【Spark九十六】RDD API之combineByKey

【Spark九十五】Spark Shell操作Spark SQL

【Spark九十四】spark-sql工具的使用

【Spark九十三】Spark读写Sequence File

【Spark九十二】Spark SQL操作Parquet格式的数据

【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题

最近访客更多访客>>