spark - 核心概念 -

功夫小当家

浏览: 188297 次
性别:
来自: 北京

最近访客更多访客>>

aotianji1238

mangyulin

benleewindy

pengfei1410

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

spark - 核心概念

博客分类：

spark

spark 核心概念

（1）名词解释：

概念	解释
Application	用户基于spark构建的应用程序，在集群上运行时，包含一个driver和多个executor Driver
Driver program	一个进程，执行Application的main方法，并创建SparkContext
Cluster program	1个额外的服务，用来申请集群的资源（standlone manager，Messos，yarn），通过--master参数动态指定
Deploy mode	辨别driver进程启动在哪里？（1）cluster：driver启动在集群上 yarn模式：NodeManager的上 standlone模式：worker上（2）client：在集群外启动，在程序提交的本地启动
Worker node	进群上任何可以运行application代码的节点 standlone模式：worker节点 yarn模式：Nodemanager中的container
Executor	在worker节点上启动的一个进程，它能够运行tasks（1个executor可运行多个task），存储数据；每个application有自己的独立的executor，不同的application之间的executor是独立的
Task	作业发到executor上执行的一个工作单元
Job	1个spark action就是一个spark job，1个job由多个task组成
Stage	每个job被划分为多个tasks的集合，这个集合就叫stage，stage之间互相依赖（类似于MapReduce中的map 和 reduce阶段）

（2）对应关系：

1个job = n个stages = n个tasks = 1个action

（3）总结：

1个application由1个driver进程+多个executor进程组成
driver是一个进程，运行main方法，并创建SparkConext
executor也是一个进程用来处理tasks，存储数据，每个application的有自己的executors
task是发送到executor上的一个最小的工作单元
1个job对应1个action，1个job会产生多个stage，1个stage对应多个task，提交的时候是以stage为单位根据satge id从后往前进行提交，就是把stage中所有的tasks发送到executor上去执行
如果是standlone模式，executor运行在worker上，如果是yarn模式，executor运行在nodemanager的container上，提交时可以通过 --master 和 --deploy-mode 指定运行模式和以及使用客户端还是集群
spark applications是一组独立的进程的集合，通过运行在driver中的sparkconext协调，跨spark应用程序之间数据数不共享的，除非使用第三方存储系统（hdfs，s3，alluxio等）

分享到：

hadoop1.x 和 hadoop2.x的对比 | hive 支持json格式的表

2018-03-22 17:54
浏览 689
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark - 核心概念

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark - 核心概念

评论

发表评论

相关推荐

spark - spark streaming

spark - 分区自动探测

spark -外部数据源

spark - DataFrame Api 练习

spark - RDD转成DataFrame

spark - Spark-sql， DataFrame，DataSet名词解释

spark - 性能优化指南(基础篇)

spark - sql开启thriftServer服务

spark kryo序列化

spark－rdd代码demo

spark - History Server配置

spark - 启动参数

spark - 宽依赖和窄依赖

spark- RDD广播变量和计数器

spark - RDD持久化

spark - 启动优化之参数spark.yarn.archive 和 spark.yarn.jars

spark - 部署和安装

spark - RDD梳理

最近访客更多访客>>