`

spark-学习笔记--15 master注册机制

 
阅读更多

master注册机制

 


 

 

 

1、worker注册

            1.1  worker启动之后向master注册

            1.2  master将状态为dead的worker过滤掉、将状态为unknown 的worker清理掉旧的worker信息 替换为新的worker信息

            1.3  master把worker加入内存缓存中

            1.4  master使用持久化引擎 将worker信息进行持久化

            1.5  调用 Schedule() 方法

 

 

2、Driver注册

 

           2.1  使用spark-submit 提交application时 会向 master注册driver

           2.2  master将Driver信息放入缓存

           2.3  加入等待调度队列

           2.4 使用持久化引擎将 Driver信息持久化

           2.5 调用Schedule()  进行调度

 

3、application的注册

    

          3.1  执行SparkContext初始化时  会将 application信息注册到 master

          3.2  master将 application 信息放入缓存

          3.3  将application加入等待调度的application队列

          3.4  持久化引擎持久化application信息

          3.5  调用Schedule()  进行调度

 

 

  • 大小: 186.9 KB
分享到:
评论

相关推荐

    spark 笔记、学习笔记、资料

    Spark是大数据处理领域的一款高效、通用的计算框架,它提供了并行数据处理的能力,尤其适合大规模数据的实时处理。在Spark 2.1.0版本中,它支持Java 7及更高版本,尤其是利用Java 8的lambda表达式简化函数编写。 ...

    spark笔记整理文档

    本篇笔记将深入探讨Spark的核心概念、架构设计以及实际应用,旨在帮助读者全面理解并掌握Spark。 1. Spark概述: Spark最初由加州大学伯克利分校AMPLab开发,其设计理念是提供一个快速、通用且可扩展的大数据处理...

    Spark SQL学习笔记

    ### Spark SQL 学习笔记知识点总结 #### 一、Spark SQL 概述 - **定义**:Spark SQL 是 Apache Spark 的一个模块,用于处理结构化数据。它提供了 DataFrame 和 Dataset API,以及支持 SQL 查询的能力。这些特性...

    Spark 学习之路,包含 Spark Core,Spark SQL,Spark Streaming,Spark mllib 学

    Spark 学习之路,包含 Spark Core,Spark SQL,Spark Streaming,Spark mllib 学习笔记 * [spark core学习笔记及代码 * [spark sql学习笔记及代码 * [spark streaming学习笔记及代码 Spark 消息通信 ### Spark ...

    Spark大数据处理学习笔记

    "Spark大数据处理学习笔记" 本篇笔记主要涵盖了 Spark 大数据处理的学习笔记,包括了 Spark Standalone 集群的搭建、RDD 的创建和算子、RDD 的分区、RDD 典型案例、IDEA 开发词频统计项目等方面的知识点。 一、...

    spark学习笔记,完成于2022年04月13日

    - **多模式支持**:Spark 支持批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)和机器学习(MLlib)等多种数据处理模式。 - **高可用性**:通过配置高可用模式,Spark 可以确保集群的稳定性和任务...

    vagrant-spark-zeppelin:Vagrant,Apache Spark和Apache Zeppelin VM,带有用于学习Spark的笔记本

    【标题】"vagrant-spark-zeppelin" 提供了一个集成环境,用于学习和探索Apache Spark和Apache Zeppelin。这个项目利用Vagrant技术创建了一个虚拟机(VM),在这个虚拟环境中预装了Apache Spark和Apache Zeppelin,...

    spark源码阅读笔记

    Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效的计算模型和易用性而闻名。...通过对Spark源码的深入学习,开发者可以更好地掌握大数据处理的底层机制,提升在大规模数据环境中的编程能力。

    spark笔记.zip

    1. Spark架构:Spark采用Master-Worker模式,Master节点管理任务调度,Worker节点运行任务。Spark的核心组件包括Driver、Executor和Cluster Manager。Driver负责解析并分解作业,Executor在Worker节点上执行任务,而...

    Spark笔记1

    根据“Spark笔记1”的描述,要在Hadoop集群上运行Spark任务,首先需要确保Spark能够正确识别到Hadoop集群。这通常涉及到一些环境变量的设置,例如: - `YARN_HOME`: 指定Hadoop的安装路径。 - `YARN_CONF_DIR`: 指定...

    zeppelin-spark-notebook:Docker compose和一些笔记本可通过Spark沙箱快速启动并运行

    在这里,你可以创建新的笔记,选择Spark Interpreter,编写Spark SQL或者Pyspark代码,进行数据探索和分析。 需要注意的是,这个环境是沙箱式的,适合学习和小规模的实验,而非生产环境。在生产环境中,你可能需要...

    spark-notebook-demo:演示如何使用Spark笔记本

    Spark 提供了丰富的库用于数据处理,包括 MLlib(机器学习库)和 Spark SQL。例如,我们可以使用 MLlib 实现简单的分类任务: ```scala import org.apache.spark.ml.classification.LogisticRegression import org....

    spark-jupyter-docker:轻松设置带有PySpark集群的Jupyter Notebook游乐场

    1个Spark Master 2火花工人 1个Jupyter笔记本./data已安装到容器中的/ spark / data 然后,您可以通过以下命令获取令牌来访问笔记本。 $ docker-compose logs spark-jupyter 现在,您可以通过 访问笔记本。

    spark-standalone-cluster-on-docker:通过在Docker上使用JupyterLab接口构建自己的集群,学习Scala,Python(PySpark)和R(SparkR)中的Apache Spark

    Spark的核心特点是其弹性分布式数据集(Resilient Distributed Dataset, RDD),它支持并行操作和容错机制。 Docker则是一种流行的容器化技术,允许我们将应用程序及其依赖项打包到轻量级容器中,从而实现跨平台的...

    注意力机制t-JavaWeb-m开发笔记

    例如,Heart-First-JavaWeb-master- (8).zip这个压缩包可能包含了一个使用注意力机制的实际JavaWeb项目,项目可能涵盖了上述的一些应用场景。开发者可以通过阅读源代码、理解算法实现和系统架构,进一步学习如何在...

    spark-scala-tutorial:Apache Spark的免费教程

    本教程“spark-scala-tutorial-master”将涵盖这些基础以及更多进阶主题,例如 Spark SQL、Spark Streaming、MLlib(机器学习库)和 GraphX。通过实践,你将掌握如何在 Scala 中有效地使用 Spark 进行大数据处理,为...

    spark:spark学习笔记

    【Spark:Spark学习笔记】 Spark,作为大数据处理领域的重要框架,以其高效、易用和弹性伸缩性赢得了广泛赞誉。本笔记将从基础概念出发,深入探讨Spark的核心特性,包括RDD(Resilient Distributed Datasets)、...

    spark大数据商业实战三部曲源码及资料.zip

    本压缩包中的“code-of-spark-big-data-business-trilogy-master”可能包含: - 源码示例:对应书中各章节的实战代码,便于读者动手实践。 - 数据集:用于演示的样例数据,帮助理解应用场景。 - 文档:可能包括技术...

Global site tag (gtag.js) - Google Analytics