序号 | 名词 | 描述 |
1 | Application | 使用者编写的spark程序,由驱动程序和executors组成 |
2 | Application jar | 一个jar包包含使用者的程序,某些情况下,会创建一个主jar包含其组成的依赖,但这些依赖中,不能包括hadoop和spark的相关的依赖,因为这些会在运行时,添加进去 |
3 | Driver program | 运行main方法和创建SparkContext上下文 |
4 | Cluster manager | (YARN 或者 Mesos或者Spark Standalone)负责外部应用的资源分配 |
5 | Deploy mode | 区别cluster模式,client提交驱动任务在集群外部,而cluster提交驱动程序在集群内部 |
6 | Worker node | 在整个集群中运行任务的节点 |
7 | Executor | 在一个worker node上启动的一个进程,运行任务,保存数据在内存或者磁盘上,每个应用有它自己的一系列executors |
8 | Task | 一个工作单元,轻量级线程模式运行在进程Executor里面 |
9 | Job | 一个并行的计算过程由多个task组成,并且执行一些action(例如collect,save,foreach等)等待spark响应,在log里面可见日志 |
10 | stage | 每个job被切分为多个小的task被称为stage,他们之间相互依赖,非常类似hadoop的MapReduce,在驱动的log里面可见日志 |
相关推荐
根据文件内容,本章的知识点主要围绕Spark架构设计与编程模型的各个方面进行展开。首先,要成为Spark高手,必须经历以下几个阶段:熟练掌握Scala语言、精通Spark平台提供的API、深入了解Spark内核、掌握基于Spark的...
此阶段掌握基于Spark上的核心...spark作为云计算大数据时代的集大成者,在实时流处理,图技术,机器学习,NoSQL查询等方面具有显著的优势,我们使用spark的时候大部分时间都是在使用其框架如:spark,spark Steaming等
4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7....
4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7....
4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7....
RDD(Resilient Distributed Datasets)是 Spark 的核心概念之一,弹性分布式数据集,它是对分布式数据集的一种内存抽象,通过受限的共享内存方式来提供容错性,同时这种内存模型使得计算比传统的数据流模型要高效。...
《Spark架构设计》这本书是大数据领域的一本重要参考资料,它深入浅出地解析了Spark的核心架构和设计理念。Spark作为一个快速、通用且可扩展的数据处理框架,已经在数据科学和工程领域得到了广泛应用。以下将从多个...
Spark是一个高效的数据处理框架,它通过一种灵活且强大的编程模型支持多种计算模式,包括批处理、流处理以及交互式查询等。为了更好地理解Spark如何高效地进行数据处理,我们需要深入了解其内部的工作原理和运行架构...
《Spark技术内幕:深入解析Spark内核架构设计与实现原理》是张安站所著的一本深度剖析Spark核心架构和实现细节的专业书籍。Spark作为大数据处理领域的热门框架,以其高效、易用和可扩展性备受青睐。这本书旨在帮助...
2. **Spark架构**:详细解析Spark的整体架构,包括Master节点、Worker节点、Driver程序和Executor的角色和职责。讲解Spark如何通过Cluster Manager(如YARN、Mesos或独立模式)进行资源管理和调度。 3. **RDD设计**...
4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7....
4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7....
《基于大数据的餐饮推荐系统——探索Lambda架构与Spark MLlib ALS模型》 在现代数字化时代,餐饮行业的竞争日益激烈,个性化推荐已经成为提升客户满意度、增强用户粘性的重要手段。本篇将深入探讨一种基于大数据的...
这本书深入浅出地介绍了Spark如何处理大数据,包括其执行引擎、内核架构以及不同执行阶段的调度策略。Spark作为一种快速、通用且可扩展的大数据处理框架,已经成为了大数据领域的热门工具。下面,我们将深入探讨...
**Spark架构组件** 1. **Driver Program**: 用户代码运行的地方,负责创建SparkContext,定义DAG(有向无环图)作业,并提交到集群。 2. **SparkContext**: Spark程序的入口点,负责连接到集群,创建RDD和作业。 3. ...
《基于Spark架构的机器学习平台设计与研究》 在当今信息时代,大数据的挖掘与分析已经成为价值创造的关键。尤其在实时数据处理领域,由于互联网信息技术的广泛应用,对海量实时数据的分析与挖掘变得日益重要。为此...
4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7....
3. **Spark架构**:Spark由Driver Program、Cluster Manager和Worker Node三部分组成。Driver负责任务调度,Cluster Manager管理资源分配,Worker Node执行实际计算任务。 4. **Spark运行模式**:Spark支持Local、...