Application:
Application是创建了SparkContext实例对象的spark用户,包含了Driver程序:
Spark-shell是一个应用程序,因为spark-shell在启动的时候创建了一个SparkContext对象,其名称为sc:
Job:
和Spark的action相对应,每一个action例如count、saveAsTextFile等都会对应一个job实例,该job实例包含多任务的并行计算。
Driver Program:
运行main函数并且创建SparkContext实例的程序
Cluster Manager:
集群资源的管理外部服务,在spark上现在有standalone、yarn、mesos等三种集群资源管理器,spark自带的standalone模式能够满足大部分的spark计算环境对集群资源管理的需求,基本上只有在集群中运行多套计算框架的时候才考虑yarn和mesos
Worker Node:
集群中可以运行应用代码的工作节点,相当于Hadoop的slave节点
Executor:
在一个Worker Node上为应用启动的工作进程,在进程中赋值任务的运行,并且负责将数据存放在内存或磁盘上,必须注意的是,每个应用在一个Worker Node上只会有一个Executor,在Executor内部通过多线程的方式并发处理应用的任务。
Task:
被Driver送到Executor上的工作单元,通常情况下一个task会处理一个split的数据,每个split一般就是一个Block块的大小:
State:
一个job会被拆分成很多任务,每一组任务被称为state,这个MapReduce的map和reduce任务很像,划分state的依据在于:state开始一般是由于读取外部数据或者shuffle数据、一个state的结束一般是由于发生shuffle(例如reduceByKey操作)或者整个job结束时,例如要把数据放到hdfs等存储系统上
相关推荐
本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。 Spark 总体架构 Spark 运行架构如图 1 所示,包括集群资源管理器(Cluster Manager)、多个运行...
**SMACK**(Spark、Mesos、Akka、Cassandra、Kafka)这一术语并非官方标准,而是社区中为了方便记忆这五个关键组件而提出的一种简称。通过将这些技术结合在一起,可以构建出高度可扩展、高性能的大数据处理系统。 #...
2. 容器编排工具:此题询问的是容器编排系统,A选项Swarm是Docker的集群管理系统,B选项Mesos是Apache开源的资源调度框架,C选项Spark是大数据处理框架,而D选项Kubernetes(K8s)是最流行的容器编排系统,用于自动...
在大数据和云计算方面,了解Hadoop和Spark的处理机制,掌握GPU并行计算的原理与应用,可以帮助专业人员更好地处理大规模数据集,优化计算效率。这些前沿技术的掌握,对于在行业竞争中保持领先至关重要。 开发大神...
CDH是Cloudera公司提供的一个开源大数据平台,集成了Hadoop生态系统中的多个组件,如HDFS、HBase、Spark、YARN等。Cloudera Manager则是用于管理和监控CDH集群的强大工具,提供图形化的界面,简化了部署、配置和维护...
操作系统相关的词汇如"OS"(操作系统)、"Linux"、"Windows"、"Unix"等,以及与之相关的"Kernel"(内核)、"Shell"(外壳程序)等,都能在这个词典中找到详尽的解释,帮助用户更好地理解和操作各种系统。 五、...
以下是一些核心的计算机英文词汇和概念,对技术员来说至关重要。 1. **操作系统 (Operating System, OS)**: 操作系统是管理计算机硬件与软件资源的软件,常见的有Windows、Linux、macOS等。例如,"Bootloader"是...
标题中的“脚气”可能是指在编程或数据科学领域中使用的幽默术语,用来形容由于代码错误或不熟悉技术导致的问题。然而,实际的标签“Jupyter Notebook”表明我们要讨论的是一个与数据分析和交互式编程相关的工具。 ...