`

spark 不同执行方式的运行期分析

 
阅读更多

结论  我还是学学  

yarn-server     单个作业

yarn-clinet 的吧     交互

 

 

之前的mr 模型  

1\ client 会执行inputformat 的getsplit ,write 成文件,然后提交job 包含资源(jar ,conf,..)

2\ yarn 的RM 接手,分配AM

3\ AM 接受,找RM 要资源 找NODENAMAGER 要 container 搞起。。。。。

 

spark 1.1 版本中    都是怎么样的

 

submit -->分析rdd -> 生成DAG--》 master 上运行--》调度资源运行

 

  ./bin/spark-submit 干了啥

这里master slave 是怎么协调的....................................

 

 

local

 本地模式 使用N个线程

 

standalone

 Standalone Deploy模式,需要部署Spark到相关节点

 

Mesos:// Mesos模式,需要部署SparkMesos到相关节点

 

yarn-serviver  SparkContext和任务都运行在Yarn集群中

 

 

yarn-client  SparkConext运行在本地,task运行在Yarn集群中

 

大致工作流程

总体上来说,这些运行模式都基于一个相似的工作流程,SparkContext作为调度的总入口,在初始化过程中会分别创建DAGScheduler作业调度和TaskScheduler任务调度两极调度模块

 

作业调度模块是基于Stage的高层调度模块,它为每个Spark Job计算具有依赖关系的多个Stage任务阶段(通常根据Shuffle来划分Stage),然后将每个Stage划分为具体的一组任务(通常会考虑数据的本地性等)以Task Sets的形式提交给底层的任务调度模块来具体执行

 

任务调度模块负责具体启动任务,监控和汇报任务运行情况

 

不同运行模式的主要区别就在于他们各自实现了自己特定的任务调度模块,用来实际执行计算任务

 

 

 

 

Local本地模式使用 LocalBackend 配合TaskSchedulerImpl

 

LocalBackend 响应SchedulerreceiveOffers请求,根据可用CPU Core的设定值[N]直接生成WorkerOffer资源返回给Scheduler,并通过Executor类在线程池中依次启动和运行Scheduler返回的任务列表

 

 

Spark Standalone Deploy

 

Standalone模式使用SparkDeploySchedulerBackend配合TaskSchedulerImpl ,而SparkDeploySchedulerBackend本身拓展自CoarseGrainedSchedulerBackend

 

 

 

 

CoarseGrainedSchedulerBackend是一个基于Akka Actor实现的粗粒度的资源调度类,在整个SparkJob运行期间,CoarseGrainedSchedulerBackend会监听并持有注册给它的Executor资源(相对于细粒度的调度,Executor基于每个任务的生命周期创建和销毁),并且在接受Executor注册,状态更新,响应Scheduler请求等各种时刻,根据现有Executor资源发起任务调度流程

 

Executor本身通过各种途径启动,在Spark Standalone模式中,SparkDeploySchedulerBackend通过Client类向Spark Master 发送请求在独立部署的Spark集群中启动CoarseGrainedExecutorBackend,根据所需的CPU资源Core的数量,一个或多个CoarseGrainedExecutorBackendSpark Worker节点上启动并注册给CoarseGrainedSchedulerBackendDriverActor

 

完成所需Actor的启动之后,之后的任务调度就在CoarseGrainedSchedulerBackendCoarseGrainedExecutorBackendActor之间直接完成

 

 

Local-cluster

 

伪分布模式基于Standalone模式实现,实际就是在SparkContext初始化的过程中现在本地启动一个单机的伪分布Spark集群,之后的流程与Standalone模式相同

 

Mesos

 

Mesos模式根据调度的颗粒度,分别使用CoarseMesosSchedulerBackendMesosSchedulerBackend配合TaskSchedulerImpl

 

粗粒度的CoarseMesosSchedulerBackend拓展自CoarseGrainedSchedulerBackend,相对于父类额外做的工作就是实现了MScheduler接口,注册到Mesos资源调度的框架中,用于接收Mesos的资源分配,在得到资源后通过Mesos框架远程启动CoarseGrainedExecutorBackend,之后的任务交互过程和Spark standalone模式一样,由DriverActorExecutor Actor直接完成

 

细粒度的MesosSchedulerBackend不使用CoarseMesosSchedulerBackend的基于Actor的调度模式,因此直接继承自SchedulerBackend,同样实现了MScheduler接口,注册到Mesos资源调度的框架中,用于接收Mesos的资源分配。不同的是在接收资源后,MesosSchedulerBackend启动的是基于Task任务的远程Executor,通过在远程执行 ./sbin/spark-executor命令来启动MesosExecutorBackend,在MesosExecutorBackend中直接launch对应的Task

 

Yarn-standalone

 

Yarn-Standalone模式相对其它模式有些特殊,需要由外部程序辅助启动APP。用户的应用程序通过org.apache.spark.deploy.yarn.Client启动

 

Client通过Yarn Client APIHadoop集群上启动一个Spark ApplicationMasterSpark ApplicationMaster首先注册自己为一个YarnApplication Master,之后启动用户程序,SparkContext在用户程序中初始化时,使用CoarseGrainedSchedulerBackend配合YarnClusterScheduler,YarnClusterScheduler只是对TaskSchedulerImpl 的一个简单包装,增加对Executor的等待逻辑等。

 

然后根据Client传递过来的参数,SparkApplicationMaster通过Yarn RM/NM的接口在集群中启动若干个Container用于运行CoarseGrainedExecutorBackendCoarseGrainedSchedulerBackend注册。之后的任务调度流程同上述其它Cluster模式

 

Yarn-client

 

Yarn-client模式中,SparkContext运行在本地,该模式适用于应用APP本身需要在本地进行交互的场合,比如Spark ShellShark

 

Yarn-client模式下,SparkContext在初始化过程中启动YarnClientSchedulerBackend(同样拓展自CoarseGrainedSchedulerBackend),该Backend进一步调用org.apache.spark.deploy.yarn.Client在远程启动一个WorkerLauncher作为SparkApplication Master,相比Yarn-standalone模式,WorkerLauncher不再负责用户程序的启动(已经在客户端本地启动),而只是启动Container运行CoarseGrainedExecutorBackend与客户端本地的Driver进行通讯,后续任务调度流程相同

 

概括

 

总体而言,各种运行模式就是通过各种手段启动匹配的SchedulerBackendExecutorBackend。除了Local模式和细粒度的Mesos模式,其它模式最终都是通过基于AkkaCoarseGrainedSchedulerBackendCoarseGrainedExecutorBackend完成任务调度

 

 

 

  

Spark internal - 多样化的运行模式 (下)

分类: 00.Cloud 1720人阅读 评论(0) 收藏 举报

作者:刘旭晖 Raymond 转载请注明出处

Email:colorant at 163.com

BLOG:http://blog.csdn.net/colorant/

 

 

上一篇中介绍了Spark的各种运行模式的基本流程和相关实现,这里主要分析一下各种运行模式中涉及到的一些细节问题的流程和实现

 

Spark的各种运行模式虽然启动方式,运行位置,调度手段有所不同,但它们所要完成的任务基本都是一致的,就是在合适的位置安全可靠的根据用户的配置和Job的需要管理和运行Task,这里粗略的列举一下在运行调度过程中各种需要考虑的问题

 

  • 环境变量的传递
  • Jar包和各种依赖文件的分发
  • Task的管理和序列化等
  • 用户参数配置
  • 用户及权限控制

 

 

环境变量的传递

 

Spark的运行参数有很大一部分是通过环境变量来设置的,例如Executor的内存设置,Library路径等等。Local模式当然不存在环境变量的传递问题,在Cluster模式下,就需要将环境变量传递到远端JVM环境中去

 

SparkContext在初始化过程中 需要传递给Executor的环境变量,会在executorEnvs变量中(HashMap)中收集起来

 

而具体如何将这些变量设置到Executor的环境中,取决于ExecutorLaunch方式

 

Spark Standalone模式中,这些变量被封装在org.apache.spark.deploy.Command中,交给AppClient启动远程ExecutorCommand经由Spark Master通过Actor再次转发给合适的WorkerWorker通过ExecutorRunner构建Java.lang.Process运行ExecutorBackend,环境变量在ExecutorRunner中传递给java.lang.ProcessBuilder.environment完成整个传递过程

 

Mesos相关模式中,这些环境变量被设置到org.apache.mesos.Protos.Environment中,在通过MesosLaunch Task时交给Mesos完成分发工作

 

yarn-standalone模式中,这些环境变量首先要通过Yarn Client 设置到Spark AM的运行环境中,基本就是Client类运行环境中以SPARK开头的环境变量全部设置到ContainerLaunchContext中,AM通过WorkerRunnable进一步将它们设置到运行Executor所用的ContainerLaunchContext

 

Yarn-client模式与yarn-standalone模式大致相同,虽然SparkContext运行在本地,executor所需的环境变量还是通过ContainerLaunchContextAM中转发给Executor

 

可以注意到,在Yarn相关模式中,并没有使用到SparkContext收集的executorEnvs,主要是因为Yarn Standalone模式下Sparkcontext本身就是在远程运行的,因此在Yarn Client中单独实现了相关代码

 

Jar包和各种依赖文件的分发

 

Spark程序的运行依赖大致分两类一是Spark runtime及其依赖,二是应用程序自身的额外依赖

 

对于Local模式而言,不存在Jar包分发的问题

 

对于第一类依赖

 

Spark Standalone模式中,整个环境随Spark部署到各个节点中,因此也不存在runtime Jar包分发的问题

 

Mesos相关模式下,Mesos本身需要部署到各个节点,SparkRuntime可以和Standalone模式一样部署到各个节点中,也可以上传到Mesos可以读取的地方比如HDFS上,然后通过配置spark.executor.uri通知Mesos相关的SchedulerBackend,它们会将该URL传递给MesosMesosLaunch任务时会从指定位置获取相关文件

 

Spark 应用程序所额外依赖的文件,在上述模式中可以通过参数将URL传递给SparkContext,对于本地文件SparkContext将启动一个HttpServer用于其它节点读取相关文件,其它如HDFS和外部HTTP等地址上的文件则原封不动,然后这些额外依赖文件的URLTaskSetmanager中和Task本身一起被序列化后发送给ExecutorExecutor再反序列化得到URL并传递给ExecutorURLClassLoader使用

 

Yarn相关模式中,Runtime和程序运行所依赖的文件首先通过HDFS Client API上传到Job.sparkStaging目录下,然后将对应的文件和URL映射关系通过containerLaunchContext.setLocalResources函数通知YarnYarnNodeManagerLaunch container的时候会从指定URL处下载相关文件作为运行环境的一部分。上面的步骤对于Spark AM来说是充分的,而对于需要进一步分发到Executor的运行环境中的文件来说,AM还需要在创建ExecutorContainer的时候同样调用setLocalResources函数,AM是如何获得对应的文件和URL列表的呢,其实就是SparkYarn Client将这些文件的相关属性如URL,时间戳,尺寸等信息打包成字符串,通过特定的环境变量(SPARK_YARN_CACHE_XXX )传递给AMAM再把它们从环境变量中还原成所需文件列表

 

 

Task管理和序列化

 

Task的运行要解决的问题不外乎就是如何以正确的顺序,有效地管理和分派任务,如何将Task及运行所需相关数据有效地发送到远端,以及收集运行结果

 

Task的派发源起于DAGScheduler调用TaskScheduler.submitTasks将一个Stage相关的一组Task一起提交调度。

 

TaskSchedulerImpl中,这一组Task被交给一个新的TaskSetManager实例进行管理,所有的TaskSetManager经由SchedulableBuilder根据特定的调度策略进行排序,在TaskSchedulerImplresourceOffers函数中,当前被选择的TaskSetManagerResourceOffer函数被调用并返回包含了序列化任务数据的TaskDescription,最后这些TaskDescription再由SchedulerBackend派发到ExecutorBackend去执行

 

系列化的过程中,上一节中所述App依赖文件相关属性URL等通过DataOutPutStream写出,而Task本身通过可配置的Serializer来序列化,当前可配制的Serializer包括如JavaSerializer KryoSerializer

 

Task的运行结果在Executor端被序列化并发送回SchedulerBackend,由于受到Akka Frame Size尺寸的限制,如果运行结果数据过大,结果会存储到BlockManager中,这时候发送到SchedulerBackend的是对应数据的BlockIDTaskScheduler最终会调用TaskResultGetter在线程池中以异步的方式读取结果,TaskSetManager再根据运行结果更新任务状态(比如失败重试等)并汇报给DAGScheduler

 

 

用户参数配置

 

Spark的用户参数配置途径很多,除了环境变量以外,可以通过Spark.conf文件设置,也可以通过修改系统属性设置 "spark.*"

 

而这些配置参数的使用环境也很多样化,有些在Sparkcontext本地使用(除了yarn-standalone模式),有些需要分发到Cluster集群中去

 

SparkContext中解析和使用,比如spark.masterspark.app.names, spark.jars等等,通常用于配置SparkContext运行参数,创建Executor启动环境等

 

发送给Executor的参数又分两部分

 

一部分在ExecutorBackend初始化过程中需要使用的系统变量,会通过SparkContext在初始化过程中读取并设置到环境变量中去,在通过前面所述的方式,使用对应的底层资源调度系统设置到运行容器的环境变量中

 

另一部分在Executor中才使用的以"spark.*"开头的参数,则通过ExecutorBackendSchedulerBackend的注册过程,在注册确认函数中传递给ExecutorBackend再在Executor的初始化过程中设置到SparkConf

 

总体看来,这些参数配置的方式和分发途径有些不太统一,稍显混乱,大概还有改进的余地

 

用户及权限控制

 

SparkTaskExecutor中运行时,使用hadoopUerGroupInfomation.doAs 函数将整个Task的运行环境包装起来以特定的sparkUser的身份运行。这样做的目的主要是使得Sparktask在与Hadoop交互时,使用特定的用户而不是Executor启动时所用的用户身份,这有利于在集群中区分Spark Cluster的运行用户和实际使用集群的APP用户身份,以及HDFS等权限控制

 

用户名在Executor中通过SPARK_USER环境变量获取

 

对于Local模式来说,SPARK_USER环境变量就是当前JVM环境下设定的值,当然对Local模式来说实际上也是不需要doAs的,Executor中如果SPARK_USER变量未设定或者与当前用户名一致,会跳过doAs直接执行task launch相关函数

 

传递用户身份的问题容易解决,比较麻烦的是身份的认证,例如将Spark运行在通过Kerberos管理权限的Hadoop集群中,这需要完成客户端的身份认证,Security 相关秘钥或Token的获取,分发,更新,失效等工作,在保证效率的同时,还要确保整个过程的安全性,目前的Spark代码对这一方面还没有完善的实现方案,但是有一些提案和Patch正在进行中。

 

 

 

Spark On Mesos模式。这是很多公司采用的模式,官方推荐这种模式(当然,原因之一是血缘关系)。正是由于Spark开发之初就考虑到支持Mesos,因此,目前而言,Spark运行在Mesos上会比运行在YARN上更加灵活,更加自然。目前在Spark On Mesos环境中,用户可选择两种调度模式之一运行自己的应用程序(可参考Andrew Xia的“Mesos Scheduling Mode on Spark”):

 

1)   粗粒度模式(Coarse-grained Mode):每个应用程序的运行环境由一个Dirver和若干个Executor组成,其中,每个Executor占用若干资源,内部可运行多个Task(对应多少个“slot”)。应用程序的各个任务正式运行之前,需要将运行环境中的资源全部申请好,且运行过程中要一直占用这些资源,即使不用,最后程序运行结束后,回收这些资源。举个例子,比如你提交应用程序时,指定使用5个executor运行你的应用程序,每个executor占用5GB内存和5个CPU,每个executor内部设置了5个slot,则Mesos需要先为executor分配资源并启动它们,之后开始调度任务。另外,在程序运行过程中,mesos的master和slave并不知道executor内部各个task的运行情况,executor直接将任务状态通过内部的通信机制汇报给Driver,从一定程度上可以认为,每个应用程序利用mesos搭建了一个虚拟集群自己使用。

 

2)   细粒度模式(Fine-grained Mode):鉴于粗粒度模式会造成大量资源浪费,Spark On Mesos还提供了另外一种调度模式:细粒度模式,这种模式类似于现在的云计算,思想是按需分配。与粗粒度模式一样,应用程序启动时,先会启动executor,但每个executor占用资源仅仅是自己运行所需的资源,不需要考虑将来要运行的任务,之后,mesos会为每个executor动态分配资源,每分配一些,便可以运行一个新任务,单个Task运行完之后可以马上释放对应的资源。每个Task会汇报状态给Mesos slave和Mesos Master,便于更加细粒度管理和容错,这种调度模式类似于MapReduce调度模式,每个Task完全独立,优点是便于资源控制和隔离,但缺点也很明显,短作业运行延迟大。

 

 

 

 

 

分享到:
评论

相关推荐

    Apache Spark源码走读之3 -- Task运行期之函数调用关系分析

    ### Apache Spark源码走读之3 -- Task运行期之函数调用关系分析 #### 概述 Apache Spark作为一款高效的大数据处理框架,在其内部有着复杂的任务调度与执行机制。本文将深入探讨Spark中Task执行期间的具体流程以及...

    深入理解Spark 核心思想与源码分析

    很多IDE本身带有调试的功能,每当你阅读源码,陷入重围时,调试能让我们更加理解运行期的系统。如果没有调试功能,不敢想象阅读源码的困难。本章的主要目的是帮助读者构建源码学习环境,主要包括以下内容:在windows...

    【讲义-第10期Spark公益大讲堂】Spark on Yarn-.pdf

    这种方式使得Spark能够更好地利用Hadoop集群中的资源,提高资源利用率和任务执行效率。 ### 二、Yarn架构本质与自定义开发 #### Yarn架构本质 YARN (Yet Another Resource Negotiator) 是Hadoop 2.0之后引入的一个...

    Spark训练营第一期问题汇总1

    在Spark训练营第一期的问题汇总中,我们聚焦于Spark的核心特性和使用,特别是与数据处理相关的部分。以下是对几个关键问题的详细解答: 1. **Spark读取MySQL等外部数据源的默认分区数**: 当使用DataFrameReader....

    基于Hadoop的美团外卖数据分析.zip

    通过对订单数据的分析,可以了解订单量的时空分布,高峰期和低谷期,以及用户喜好。 2. **用户行为数据**:如浏览记录、搜索关键词、评价内容等。这些数据有助于理解用户行为模式,进行个性化推荐,提升用户体验。 ...

    基于spark的酒店管理系统论文.doc

    例如,通过分析历史数据,系统可以预测高峰期的预订需求,提前做好房间调配。 系统的开发流程主要包括需求分析、系统设计、数据库设计、编码实现和系统测试。需求分析阶段,对现有的酒店管理系统进行了调研,明确了...

    开源的SQL on Hadoop工具比较

    Spark SQL是Spark框架中用于处理结构化数据的模块,它提供了一个高效、容错的处理方式,并且原生支持Hive,可以运行现有的HiveSQL语句。Spark SQL的主要优势在于其性能,对于很多数据处理任务,Spark SQL比Hive快10...

    大数据三期azakaban2.5的几个安装包

    Azkaban是其中一种流行的工作流调度工具,它为Hadoop和其他大数据项目提供了一种简单的方式来定义和执行工作流程。本篇将详细讲解Azkaban2.5版本的安装包内容及其在大数据三期学习中的重要性。 首先,我们来了解...

    腾讯数据库的AI技术实践:CDBTUne.zip

    2. **大数据处理**:在处理海量数据库运行数据时,CDBTune利用大数据处理技术,如Hadoop和Spark,进行高效的数据清洗、整合和分析。 3. **规则库与经验模型**:除了AI算法,CDBTune还结合专家经验和行业最佳实践,...

    Hadoop开发者第一期入门专刊

    - **Hadoop计算平台**:主要侧重于提供分布式计算的能力,支持各种数据处理框架(如MapReduce、Spark等),适用于需要进行大规模数据处理和分析的场景。 - **Hadoop数据仓库**:基于Hadoop构建的一种数据仓库解决...

    《Hadoop开发者》第三期

    - **Apache Spark**:一个快速通用的大规模数据处理引擎,可在Hadoop之上运行。 - **Apache Hive**:提供了一种SQL-like语言(HiveQL),使得用户可以在Hadoop中轻松进行数据查询和管理。 - **Apache Pig**:一个...

    细细品味架构_第1期(实时计算在点评)

    实时计算是一种数据处理方式,它能在数据产生的瞬间或者非常短的时间内,完成数据的收集、处理、分析,并将结果反馈给用户或系统。实时计算在不同领域有不同的应用,例如在点评网站的应用场景中,涉及到用户行为追踪...

    大数据之传智大数据3期不加密

    - **执行计划生成**:深入理解Spark如何优化数据处理流程。 - **任务调度机制**:掌握任务在集群中的调度逻辑。 #### 机器学习 - **算法原理**:学习常见的机器学习算法,如分类、回归等。 - **特征工程**:数据...

    hadoop开发者第三期

    MapReduce中的多文件输出机制提供了灵活的方式,根据不同的条件将输出分割成多个文件。 #### 多文件输出的关键组件 1. **FileOutputCommitter**:这是负责管理输出文件的类,它可以决定何时提交输出结果,以及如何...

    年产3000吨真素脱皮夹心辣椒的可行性研究报告.zip

    这可能涉及网络爬虫技术,从公开资源获取相关信息,或者使用大数据分析平台,如Hadoop或Spark,进行更复杂的数据挖掘。 其次,生产流程分析需要IT支持来优化和自动化。例如,可能需要设计和实施一套MES(制造执行...

    hadoop开发者 前4期

    - 伪分布式模式:在单台机器上模拟分布式环境,所有Hadoop组件都运行在同一台机器的不同Java进程中。 - 完全分布式模式:在多台机器上部署,适用于大规模生产环境。 4. **Hadoop编程模型**: - **MapReduce编程*...

    大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第14期副刊_Hive性能优化_V1.0 共19页.pdf

    - 其他配置调整:例如,合理设置Map和Reduce任务的数量,根据集群资源调整内存分配,以及优化执行计划(如Tez或Spark)。 在实际操作中,应结合集群环境、数据特性以及查询需求进行综合优化,充分利用Hive提供的...

Global site tag (gtag.js) - Google Analytics