spark1.3 worker解析
Driver:
DriverRunner 创建Driver工作目录、 将用户jar包下载到工作目录中
使用 ProcessBuilder 启动进程
对Driver的退出状态进行处理
DriverRunner 向他所属的worker 和 actor 发送一个 DriverStateChanged事件
worker 将DriverStateChanged事件 发送给 master ,master会进行状态改变处理
将Driver从本地缓存移除
将Driver的内存和 cpu释放
executor:
创建executor的本地工作目录
创建executorRunner
创建一个线程:
重定向输出流 stdout stderr
启动executor进程
拿到进程返回的状态
想 executorRunner线程所属的 worker actor发送 executorChanged消息
worker 接受到 executorChanged 向master发送 executorChanged消息 , master进行状态改变处理
把executorRunner加入本地缓存
启动 executorRunner
加上 executorRunner要使用的资源
相关推荐
《Spark技术深度解析》 Spark,作为大数据处理领域的重要框架,以其高效、易用和弹性伸缩等特性,被广泛应用于大规模数据处理、实时计算、机器学习和图形处理等多个场景。本篇笔记将深入探讨Spark的核心概念、架构...
### Spark学习笔记 #### Apache Spark简介 Apache Spark是一款专为大规模数据处理而设计的高性能、通用的计算引擎。它的核心特点在于提供了强大的内存计算能力,从而显著提升了数据处理的速度。Spark最初采用Scala...
Spark 学习之路,包含 Spark Core,Spark SQL,Spark Streaming,Spark mllib 学习笔记 * [spark core学习笔记及代码 * [spark sql学习笔记及代码 * [spark streaming学习笔记及代码 Spark 消息通信 ### Spark ...
- **资源调度**:Sparksubmit向Master申请资源,Master根据资源池分配Executor给Worker节点。 总结:Spark是一个强大的大数据处理框架,具备内存计算、易用性、弹性、多模式支持和高可用性等优势。理解Spark的安装...
本文将深入探讨Spark的核心组件和工作原理,通过源码阅读笔记来解析Spark的内部机制。 首先,Spark的核心架构由Master、Worker和Driver三部分组成。Master节点在Spark集群中起到协调者的作用,它管理所有的Worker...
本篇笔记主要探讨Spark中的共享变量、RDD持久化、checkpoint机制、运行模式以及任务调度等相关知识点。 1. **共享变量** - **累加器(Accumulator)**:累加器是一种只能增加不能减少的共享变量,常用于统计任务中...
### Spark学习笔记 #### Spark概览 ##### 1. Spark简介 - **定义**:Apache Spark是一种快速且通用的大规模数据处理系统,旨在为大规模数据处理提供高效的支持。 - **起源**:Spark最初由美国加州大学伯克利分校的...
Driver负责解析并分解作业,Executor在Worker节点上执行任务,而Cluster Manager负责资源分配。 2. RDD概念与操作:RDD是Spark的基础数据结构,不可变且分区。基本操作包括创建、转换和动作。转换如map、filter、...
这个方法对于开发者、数据科学家和学习者来说,提供了一个灵活的实验环境,无需在本地安装复杂的软件栈,而是利用容器化技术快速启动和管理Spark集群。 首先,Apache Spark是一个分布式计算框架,它设计用于大规模...
【Spark:Spark学习笔记】 Spark,作为大数据处理领域的重要框架,以其高效、易用和弹性伸缩性赢得了广泛赞誉。本笔记将从基础概念出发,深入探讨Spark的核心特性,包括RDD(Resilient Distributed Datasets)、...
"spark_learn_bf_basic.docx"可能是基础学习笔记或教程,内容可能涵盖上述理论知识的详细解释和示例代码。"spark_learn_bf_littleProject.docx"则可能包含实际的小项目,如日志分析、Word Count等,通过实践加深对...
在压缩包文件“delta-worker-master”中,很可能包含了Delta Worker 的源代码、配置文件、示例脚本或文档,供用户了解、部署或定制针对XanMart的Delta Worker 实现。要深入了解这个项目,你可以解压文件,查看README...
对于更复杂的文本分析,如词性标注、命名实体识别或情感分析,我们可以利用Spark的MLlib库,它提供了机器学习算法和工具。 在实际应用中,我们还需要考虑数据的分区和并行化。Spark通过分区来优化数据处理,合理...
Spark的核心特性在于其快速、通用以及能够支持多种工作负载,包括批处理、交互式查询(例如通过Spark SQL)、实时流处理和机器学习。在大数据领域,Spark以其高效的内存计算模型和易用性而备受赞誉,相较于Hadoop ...
通过深入学习和实践Airflow,不仅可以构建高效稳定的数据处理工作流,还能提升整个团队的协作效率和项目管理能力。这份Airflow笔记资料应涵盖了从基础到进阶的全方面内容,帮助你快速掌握这一强大的工具。
本资源“2020Java面试题整理”针对的是那些寻求20k以上薪资水平职位的Java开发者,涵盖了多个关键领域的核心知识点,包括Redis、Netty、MySQL、Kafka、并发编程、Spring框架、Dubbo以及思维导图学习笔记。...