RDD
全称为Resilient Distributed Dataset,弹性分布式数据集。
就是分布在集群节点上的数据集,这些集合可以用来进行各种操作,能实现MapReduce不擅长的计算工作(比如迭代式、交互式和流式)。最重要的一点是,某个操作计算后的数据集可以缓存在内存中,然后给其他计算使用,这种在迭代计算中很常见。
原始的RDD经过一系列转化后,会在最后的RDD上触发一个动作,这个动作会生成一个Job。Job被划分为不同的阶段,每个阶段有一批计算任务(Task)组成,这批Task会被集群提交到集群上的计算节点去计算。
Iterator
迭代器,即是提供一级接口给其他人来访问RDD 中的数据集。
如下代码中的t所示:
RDD.mapPartitions((t: Iterator[(ImmutableBytesWritable, org.apache.hadoop.hbase.client.Result)])=>{相关操作}
Job
一道作业,即指应用完成某项需求所需要一系列工作,统一称为作业。
DAG
有向无环图,将作业分解成若干个阶段,每个阶段都是由若干个task 组成,而这些阶段都是有先后顺序的,故将这些阶段组织成DAG,来表示其先后顺序。
Stage
阶段,是指job 中的一个结点。
Taskset
每个阶段将由若干个task 组成,这些task 统一称为taskset。
Task
Task 是指最终在slave 结点上运行的工作。
[size=large]如下图所示:
与MR的区别
MR 的缺点:
1. Shuffle 的性能。Map 到reduce 之间数据多次需要IO 操作。
2. 当有多个MR 时,每轮的MR 之间需要将结果写到hdfs 上。
3. 只有map,reduce 二种计算模型,无法建立一组DAG 操作,来减少中间的一些操作开销。
以上的缺点都是spark 的优点。
分享到:
相关推荐
Spark运行架构由几个核心组件构成,其中包括术语定义、运行基本流程、DAGScheduler、TaskScheduler以及RDD运行原理。在术语定义中,Application指的是用户编写的Spark应用程序,它由运行main()函数的Driver和分布在...
最后,报告提供了术语和缩写解释,对于不熟悉Spark Streaming的读者来说,这有助于理解文档中的专业术语。 整体而言,该预研报告为技术人员提供了关于Spark Streaming的全面了解,从基础概念到深入案例分析,再到...
基础篇:这一部分主要介绍了Spark的一些基本术语,并详细讲解了如何在本地模式下安装部署Spark。此外,还包括了如何测试代码和程序的运行方法。 入门篇:在这一部分,学习者将接触Spark相关技术,并且学习在...
“big data”是大数据的英文术语,通常涉及数据的采集、存储、处理和分析。 【文件名称列表】: 1. "介绍.txt":这个文件很可能是项目背景、目的、使用的技术和流程等的详细说明,为初学者提供了一个快速入门的指南...
同时,Spark拥有丰富的术语,例如RDD、DataFrame、DataSet、Action、Transformation等,这些都需要用户在使用Spark时熟悉和掌握。 具体到每个组件,SparkCore是Spark的核心内存计算框架,提供基于RDD的API;Spark...
#### 术语解释与算子详解 - **Map**:对RDD中的每个元素应用一个函数。例如,如果有RDD包含 `[1, 2, 3]`,使用`map(x => x + 1)`后得到的新RDD将是`[2, 3, 4]`。 - **Count**:这是一个Action操作,用于计算RDD中的...
Spark专业术语定义: 1. Application:Spark应用程序,指的是用户编写的Spark应用程序,包含了Driver功能代码和分布在集群中多个节点上的Executor代码。 2. Driver:驱动程序,Spark中的Driver即运行上述...
在进一步研究大数据的过程中,可以依据这些术语来深入探讨大数据处理的不同技术,例如Hadoop分布式文件系统(HDFS)、MapReduce编程模型、Apache Spark等,以及它们在数据仓库、数据湖、实时分析和其他相关应用中的...
- **法律文件检索**:查找特定术语或概念的专利文档。 - **客户服务**:自动识别客户邮件或电话中的产品提及。 - **其他领域**:医疗记录分析、新闻摘要生成等。 #### 六、结论 Spark NLP作为Spark ML的扩展,为...
##### 1.2 术语定义 - **离散流(Discretized Stream)或 DStream**:Spark Streaming 中的核心概念之一,代表了一个连续不断的实时数据流。DStream 实质上是一个有序的 RDD 序列,每个 RDD 包含了在特定时间区间内...
作者强调了了解当前术语、新 buzzwords 和不断涌现的炒作的挑战性,并指出即使掌握了它们,人们也可能发现其中一半已经过时且效率低下。 《Mastering Apache Spark》一书也提到了关于书籍内容的版权声明,任何部分...
`wearriy`可能是作者自创的一个单词或者拼写错误,或者是项目特有的术语,没有足够的上下文无法具体解释。不过,根据上下文,我们可以推测它可能是指一个特定的处理步骤或者数据特征。 在实际开发中,使用Spark处理...
在"数据科学"领域,我们有"大数据"(Big Data),指处理和分析海量数据的技术,包括Hadoop、Spark等框架。"机器学习"(Machine Learning)是人工智能的一个分支,通过让计算机从数据中学习,实现自我改进和预测能力...
在石油相关论文的智能分析中,OpenNLP 可能被用来处理和理解文本内容,如提取关键词、识别石油领域的专业术语、确定实体(如地名、人名、组织名)等,这些信息对于构建问答系统至关重要,因为它们帮助系统理解问题和...
为了应对这样的挑战,大数据技术不断涌现新的术语、新名词、新概念和炒作。一个大数据生态系统通常包括数据采集、数据处理、数据存储、数据分析、数据可视化和数据安全等多个环节,而Apache Spark则是这个生态中的一...
本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。 Spark 总体架构 Spark 运行架构如图 1 所示,包括集群资源管理器(Cluster Manager)、多个运行...