`

spark-学习笔记--18 spark1.3 worker解析

 
阅读更多

spark1.3  worker解析

 



 

 

Driver:

DriverRunner 创建Driver工作目录、 将用户jar包下载到工作目录中 

             使用 ProcessBuilder 启动进程

                 对Driver的退出状态进行处理

DriverRunner 向他所属的worker 和 actor 发送一个 DriverStateChanged事件 

worker 将DriverStateChanged事件 发送给 master   ,master会进行状态改变处理

    将Driver从本地缓存移除

    将Driver的内存和 cpu释放

 

 

executor:

    创建executor的本地工作目录

    创建executorRunner

    创建一个线程:

   重定向输出流 stdout  stderr

   启动executor进程

   拿到进程返回的状态

   想 executorRunner线程所属的 worker actor发送 executorChanged消息

 

worker 接受到 executorChanged 向master发送 executorChanged消息  ,  master进行状态改变处理

   

    把executorRunner加入本地缓存

启动 executorRunner

 

加上 executorRunner要使用的资源

 

 

  • 大小: 30.9 KB
分享到:
评论

相关推荐

    spark笔记整理文档

    《Spark技术深度解析》 Spark,作为大数据处理领域的重要框架,以其高效、易用和弹性伸缩等特性,被广泛应用于大规模数据处理、实时计算、机器学习和图形处理等多个场景。本篇笔记将深入探讨Spark的核心概念、架构...

    spark学习笔记

    ### Spark学习笔记 #### Apache Spark简介 Apache Spark是一款专为大规模数据处理而设计的高性能、通用的计算引擎。它的核心特点在于提供了强大的内存计算能力,从而显著提升了数据处理的速度。Spark最初采用Scala...

    Spark 学习之路,包含 Spark Core,Spark SQL,Spark Streaming,Spark mllib 学

    Spark 学习之路,包含 Spark Core,Spark SQL,Spark Streaming,Spark mllib 学习笔记 * [spark core学习笔记及代码 * [spark sql学习笔记及代码 * [spark streaming学习笔记及代码 Spark 消息通信 ### Spark ...

    spark学习笔记,完成于2022年04月13日

    - **资源调度**:Sparksubmit向Master申请资源,Master根据资源池分配Executor给Worker节点。 总结:Spark是一个强大的大数据处理框架,具备内存计算、易用性、弹性、多模式支持和高可用性等优势。理解Spark的安装...

    spark源码阅读笔记

    本文将深入探讨Spark的核心组件和工作原理,通过源码阅读笔记来解析Spark的内部机制。 首先,Spark的核心架构由Master、Worker和Driver三部分组成。Master节点在Spark集群中起到协调者的作用,它管理所有的Worker...

    Spark学习笔记三

    本篇笔记主要探讨Spark中的共享变量、RDD持久化、checkpoint机制、运行模式以及任务调度等相关知识点。 1. **共享变量** - **累加器(Accumulator)**:累加器是一种只能增加不能减少的共享变量,常用于统计任务中...

    Spark学习笔记

    ### Spark学习笔记 #### Spark概览 ##### 1. Spark简介 - **定义**:Apache Spark是一种快速且通用的大规模数据处理系统,旨在为大规模数据处理提供高效的支持。 - **起源**:Spark最初由美国加州大学伯克利分校的...

    spark笔记.zip

    Driver负责解析并分解作业,Executor在Worker节点上执行任务,而Cluster Manager负责资源分配。 2. RDD概念与操作:RDD是Spark的基础数据结构,不可变且分区。基本操作包括创建、转换和动作。转换如map、filter、...

    spark-standalone-cluster-on-docker:通过在Docker上使用JupyterLab接口构建自己的集群,学习Scala,Python(PySpark)和R(SparkR)中的Apache Spark

    这个方法对于开发者、数据科学家和学习者来说,提供了一个灵活的实验环境,无需在本地安装复杂的软件栈,而是利用容器化技术快速启动和管理Spark集群。 首先,Apache Spark是一个分布式计算框架,它设计用于大规模...

    spark:spark学习笔记

    【Spark:Spark学习笔记】 Spark,作为大数据处理领域的重要框架,以其高效、易用和弹性伸缩性赢得了广泛赞誉。本笔记将从基础概念出发,深入探讨Spark的核心特性,包括RDD(Resilient Distributed Datasets)、...

    spark_code_basic

    "spark_learn_bf_basic.docx"可能是基础学习笔记或教程,内容可能涵盖上述理论知识的详细解释和示例代码。"spark_learn_bf_littleProject.docx"则可能包含实际的小项目,如日志分析、Word Count等,通过实践加深对...

    delta-worker:对于XanMartadelta工人

    在压缩包文件“delta-worker-master”中,很可能包含了Delta Worker 的源代码、配置文件、示例脚本或文档,供用户了解、部署或定制针对XanMart的Delta Worker 实现。要深入了解这个项目,你可以解压文件,查看README...

    使用Apache Spark来处理一个简单的文本数据集

    对于更复杂的文本分析,如词性标注、命名实体识别或情感分析,我们可以利用Spark的MLlib库,它提供了机器学习算法和工具。 在实际应用中,我们还需要考虑数据的分区和并行化。Spark通过分区来优化数据处理,合理...

    火花

    Spark的核心特性在于其快速、通用以及能够支持多种工作负载,包括批处理、交互式查询(例如通过Spark SQL)、实时流处理和机器学习。在大数据领域,Spark以其高效的内存计算模型和易用性而备受赞誉,相较于Hadoop ...

    airflow笔记资料

    通过深入学习和实践Airflow,不仅可以构建高效稳定的数据处理工作流,还能提升整个团队的协作效率和项目管理能力。这份Airflow笔记资料应涵盖了从基础到进阶的全方面内容,帮助你快速掌握这一强大的工具。

    商务数据分析与应用——基于R(第2版)数据文件和程序代码.zip

    7. **大数据处理**:如果数据量大,可以学习如何使用data.table或dplyr等包进行高效的数据操作,以及如何利用SparkR进行分布式计算。 8. **编程与自动化**:编写R脚本,实现数据分析流程的自动化,提高工作效率。 ...

    2020Java面试题整理

    本资源“2020Java面试题整理”针对的是那些寻求20k以上薪资水平职位的Java开发者,涵盖了多个关键领域的核心知识点,包括Redis、Netty、MySQL、Kafka、并发编程、Spring框架、Dubbo以及思维导图学习笔记。...

Global site tag (gtag.js) - Google Analytics