Executor
1、反序列化 task 交给 executor 执行
2、org.apache.spark.executor.Executor 的方法:
def launchTask(context: ExecutorBackend,taskId: Long,attemptNumber: Int,taskName: String, serializedTask: ByteBuffer): Unit = { val tr = new TaskRunner(context, taskId = taskId, attemptNumber = attemptNumber, taskName,serializedTask) runningTasks.put(taskId, tr) threadPool.execute(tr) }
executor launchTask 方法对每一个 task创建一个 TaskRunner
TaskRunner extends Runnable:
class TaskRunner(execBackend: ExecutorBackend,val taskId: Long, val attemptNumber: Int,taskName: String, serializedTask: ByteBuffer) extends Runnable { ...}
其实就是将task 封装到线程任务(TaskRunner) 放入线程池执行
3、 图:
相关推荐
"Spark学习.md"很可能是一个Markdown格式的学习笔记或教程,Markdown是一种轻量级的文本格式语言,通常用于编写技术文档。这个文件可能涵盖了Spark的基础概念,比如RDD(弹性分布式数据集)、DataFrame、DataSet,...
本篇笔记将深入探讨Spark的核心概念、架构设计以及实际应用,旨在帮助读者全面理解并掌握Spark。 1. Spark概述: Spark最初由加州大学伯克利分校AMPLab开发,其设计理念是提供一个快速、通用且可扩展的大数据处理...
Spark 学习笔记 Spark 是一个基于内存的分布式计算框架,它提供了高效、灵活、可扩展的数据处理解决方案。Spark 的核心组件是 Resilient Distributed Dataset (RDD),它是一个弹性的分布式数据集合,提供了高效的...
- **提交方式**:使用`spark-submit`命令提交应用程序,可以指定内存大小`--executor-memory`和核数`--total-executor-cores`。 - **进程解析**:提交任务会产生Driver和Executor进程,Driver负责任务调度,...
### Spark学习笔记 #### Apache Spark简介 Apache Spark是一款专为大规模数据处理而设计的高性能、通用的计算引擎。它的核心特点在于提供了强大的内存计算能力,从而显著提升了数据处理的速度。Spark最初采用Scala...
submit --master "spark://192.168.146.38:7077" --conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xss8172k" --name "My APP13" --driver-memory 4g --executor-memory 4G --...
《Spark源码学习笔记》是针对大数据处理框架Spark进行深入研究的资料,主要涵盖了Spark的核心设计理念、架构原理以及源码解析。本笔记旨在帮助读者理解Spark如何高效地处理大规模数据,提升数据分析和处理的能力。 ...
5. Spark MLlib:Spark的机器学习库,包含各种常见的机器学习算法,如分类、回归、聚类、协同过滤等,以及模型选择和评估工具。 6. Spark与Hive的集成:Spark可以作为Hive的执行引擎,提升Hive查询的性能。通过配置...
Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效的计算模型和易用性而闻名。...通过对Spark源码的深入学习,开发者可以更好地掌握大数据处理的底层机制,提升在大规模数据环境中的编程能力。
Broadcast【Spark源码分析】Job提交执行过程详解黑斑羚impala集群搭建任务&资源调度相关Airflow 实战总结HadoopYarn架构实现解析Yarn-Federation源码串读Hadoop&Yarn Rpc源码剖析MR任务在Hadoop子系统中状态流转...
尚硅谷的Spark资料笔记代码提供了一个深入学习和理解Spark的宝贵资源库,涵盖理论知识、实践案例以及代码示例。 一、Spark核心概念 Spark的核心在于其弹性分布式数据集(Resilient Distributed Datasets,简称RDD)...
学习笔记包含的内容可能涵盖了Spark的基本概念、核心组件、数据处理流程以及实际应用案例等多个方面。以下是对这些知识点的详细说明: 1. **Spark概述**:Spark是基于内存计算的大数据处理框架,它提供了一种快速、...
《Spark大数据商业实战三部曲》...总的来说,《Spark大数据商业实战三部曲》的源码和资料集合,为学习和掌握Spark提供了丰富的实践素材,无论是初学者还是有经验的开发者,都能从中受益,提升大数据处理和分析的能力。
【Spark:Spark学习笔记】 Spark,作为大数据处理领域的重要框架,以其高效、易用和弹性伸缩性赢得了广泛赞誉。本笔记将从基础概念出发,深入探讨Spark的核心特性,包括RDD(Resilient Distributed Datasets)、...
Sparknote是针对Spark的学习笔记,通常会涵盖Spark的基本概念、核心组件以及实际应用案例。在Sparknote-master这个压缩包中,很可能是包含了一系列关于Spark的教程文档或者代码示例。 一、Spark概述 Spark最初由...
RDD的Action算子触发job的提交,提交到Spark的Job生成RDD DAG,由DAGScheduler转换为Stage DAG,每个Stage中产生相应的Task集合,TaskScheduler将任务分发到Executor执行。每个任务对应的数据块,使用用户定义的函数...
8. **性能优化**:包括减少shuffle操作、优化数据分区、合理设置executor内存和核心数、使用broadcast变量和cache等方法,都可以有效提升Spark作业的运行效率。 9. **Spark Streaming**:Spark 2.1.1中的流处理支持...
"spark_learn_bf_basic.docx"可能是基础学习笔记或教程,内容可能涵盖上述理论知识的详细解释和示例代码。"spark_learn_bf_littleProject.docx"则可能包含实际的小项目,如日志分析、Word Count等,通过实践加深对...