`
功夫小当家
  • 浏览: 186426 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

spark - 核心概念

阅读更多

(1)名词解释:

概念

解释
Application

用户基于spark构建的应用程序,在集群上运行时,包含一个driver和多个executor

Driver 

Driver program 一个进程,执行Application的main方法,并创建SparkContext
Cluster program

1个额外的服务,用来申请集群的资源(standlone manager,Messos,yarn),

通过--master参数动态指定

Deploy mode

辨别driver进程启动在哪里?
(1)cluster:driver启动在集群上

  • yarn模式:NodeManager的上
  • standlone模式:worker上
(2)client:在集群外启动,在程序提交的本地启动
Worker node 

进群上任何可以运行application代码的节点

  • standlone模式:worker节点
  • yarn模式:Nodemanager中的container
Executor 在worker节点上启动的一个进程,它能够运行tasks(1个executor可运行多个task),存储数据;每个application有自己的独立的executor,不同的application之间的executor是独立的
Task 作业发到executor上执行的一个工作单元
Job 1个spark action就是一个spark job,1个job由多个task组成
Stage

每个job被划分为多个tasks的集合,这个集合就叫stage,stage之间互相依赖(类似于MapReduce中的map 和 reduce阶段)

 

(2)对应关系:

1个job = n个stages = n个tasks = 1个action

 

(3)总结:

  • 1个application由1个driver进程+多个executor进程组成
  • driver是一个进程,运行main方法,并创建SparkConext
  • executor也是一个进程用来处理tasks,存储数据,每个application的有自己的executors
  • task是发送到executor上的一个最小的工作单元
  • 1个job对应1个action,1个job会产生多个stage,1个stage对应多个task,提交的时候是以stage为单位根据satge id从后往前进行提交,就是把stage中所有的tasks发送到executor上去执行
  • 如果是standlone模式,executor运行在worker上,如果是yarn模式,executor运行在nodemanager的container上,提交时可以通过 --master 和 --deploy-mode 指定运行模式和以及使用客户端还是集群
  •   spark applications是一组独立的进程的集合,通过运行在driver中的sparkconext协调,跨spark应用程序之间数据数不共享的,除非使用第三方存储系统(hdfs,s3,alluxio等)
分享到:
评论

相关推荐

    spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar

    1. Spark核心概念: - RDD(弹性分布式数据集):Spark的基础数据结构,是不可变、分区的数据集合,可以在集群中并行操作。 - DataFrame:Spark SQL引入的数据模型,它是基于表和列的抽象,提供了更高级别的抽象和...

    spark-3.1.2-bin-hadoop3.2.tgz

    **Spark核心概念** 1. **DAG(有向无环图)调度**:Spark基于DAG的工作流设计,使得任务被拆分为多个阶段,提高执行效率。 2. **Resilient Distributed Datasets (RDD)**:RDD是Spark的基本数据结构,它是不可变、...

    spark-1.6.0-bin-hadoop2.6.tgz

    Spark的核心设计是基于分布式内存计算模型,它引入了Resilient Distributed Datasets (RDDs)的概念,这是一种可分区的、只读的数据集,可以在集群中的多个节点上并行操作。RDDs支持两种主要操作:转换...

    spark--bin-hadoop3-without-hive.tgz

    Spark Core是其核心,提供了弹性分布式数据集(RDD)的概念,这是一种容错的、可并行操作的数据结构。此外,Spark还包含了多个模块,如Spark SQL用于结构化数据处理,Spark Streaming用于实时流处理,MLlib用于机器...

    spark-3.1.2-bin-hadoop2.7.tgz

    Spark Streaming提供了微批处理的概念,将实时数据流分割成小批次处理,确保了低延迟和高吞吐量。它可以接收来自Kafka、Flume、Twitter等源的数据流。 MLlib是Spark的机器学习库,包含了多种算法,如分类、回归、...

    spark-1.6.0-bin-hadoop2.4.tgz

    此外,Spark的弹性分布式数据集(Resilient Distributed Datasets, RDD)是其核心概念,它提供了一种在内存中处理数据的方式,大大提升了计算效率。Spark 1.6.0还引入了DataFrame,进一步优化了数据处理性能,简化了...

    spark-2.2.0-bin-hadoop2.6.tgz

    4. **流处理库Structured Streaming**:Spark的流处理能力在2.2.0版本中得到强化,Structured Streaming引入了持续查询(Continuous Queries)概念,实现了低延迟的实时数据处理。 5. **GraphX**:Spark的图计算...

    spark-2.4.0-bin-without-hadoop.tgz

    Apache Spark 是一个强大的分布式计算框架,它为大数据处理提供了一个高效、易用的...在安装和使用过程中,确保理解 Spark 的核心概念和组件,以及与 Hadoop 的集成方式,将有助于你更有效地利用 Spark 解决实际问题。

    spark-2.4.0-bin-hadoop2.6.tgz

    1. **Spark核心概念**:Spark的核心组件是弹性分布式数据集(Resilient Distributed Datasets, RDD),这是一种容错的、不可变的数据集合,可以在集群中的多个节点上并行操作。此外,Spark还提供了DataFrame和...

    spark-md5.zip

    它的核心功能在于提供了一种高效且跨平台的方式来处理大文件的MD5计算,特别适合用于前端环境,尤其是需要在浏览器端进行文件校验的应用场景。 三、Spark-MD5的使用方法 1. 引入库:首先,你需要在HTML文件中引入...

    spark-2.0.2-bin-hadoop2.4.tgz

    首先,我们需要理解Spark的核心概念。Spark提供了一个分布式计算模型,名为弹性分布式数据集(Resilient Distributed Datasets, RDDs),它允许数据在集群中的节点间高效地移动和并行处理。RDDs具有容错机制,即使在...

    spark-2.4.4-bin-hadoop2.6.tgz

    1. **Spark核心概念**: Spark的核心是弹性分布式数据集(Resilient Distributed Datasets, RDDs),这是一个不可变、分区的数据集合,可以在集群中的多个节点上并行操作。RDDs支持两种操作:转换(Transformation...

    spark-2.3.3.tgz

    Spark的核心概念是弹性分布式数据集(Resilient Distributed Dataset, RDD),这是一种不可变、分区的数据集合,可以在集群中的多台机器上进行并行操作。RDD的设计允许在内存中高效地处理大量数据,从而显著提升性能...

    spark--bin-hadoop2-without-hive.tgz

    1. **Spark核心概念**: - **RDD(Resilient Distributed Datasets)**:这是Spark的基本数据抽象,是一个容错的、可并行操作的数据集合。 - **DataFrame**:Spark 1.6引入,它是基于RDD的优化数据结构,提供了SQL...

    spark-2.1.2-bin-hadoop2.6.tgz

    **Spark核心组件** 1. **Spark Core**:Spark的基础模块,提供了分布式任务调度、内存管理、错误恢复以及与存储系统的接口。它为其他所有Spark模块提供基础支持。 2. **Spark SQL**:Spark的SQL模块,支持SQL查询和...

    spark-2.4.0-bin-hadoop2.7.zip

    1. **Spark核心概念**: Spark的核心是弹性分布式数据集(Resilient Distributed Datasets, RDDs),它是对大规模数据的抽象,具有容错性和并行计算能力。RDDs可以在集群中的节点间分区,并支持各种操作,如转换和...

    spark-2.2.1-bin-2.6.0-cdh5.14.2.tar.gz

    首先,让我们深入了解Spark的核心概念。Spark提供了一个编程模型,允许开发者在大规模数据集上进行批处理、交互式查询(通过Spark SQL)、实时流处理(通过Spark Streaming)以及机器学习(通过MLlib库)。它的主要...

Global site tag (gtag.js) - Google Analytics