spark内核揭秘-10-RDD源码分析 - stark_summer - ITeye博客

`

Stark_Summer

浏览: 723755 次
性别:
来自: 大连

最近访客更多访客>>

loginboot

街头诗人

ahww520

sz_jack

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

lixuanbin： iteye已经快要tj了吧。。
iteye为什么不支持markdown?
haorengoodman： Tachyon 能在做数据分类吗？例如我有一坨hdfs文件，将 ...
tachyon与hdfs,以及spark整合
lee3836：求源码，大牛
clover分布式任务调度系统
cfan37： ...
sparksql与hive整合
greemranqq： 9.9 送上，希望博客长久~。~
【【【【【#####>>>>>【关于我】【您·的·支·持·是·我·最·大·的·动·力】<<<<<#####】】】】】

spark内核揭秘-10-RDD源码分析

博客分类：

spark

RDD compute getPartitions getDependencies getPreferredLocations

阅读更多

RDD的核心方法：

首先看一下getPartitions方法的源码：

getPartitions返回的是一系列partitions的集合，即一个Partition类型的数组

我们就想进入HadoopRDD实现：

1、getJobConf()：用来获取job Configuration，获取配置方式有clone和非clone方式，但是clone方式是not thread-safe,默认是禁止的，非clone方式可以从cache中获取，如cache中没有那就创建一个新的，然后再放到cache中

2、进入 getInputFormcat(jobConf)方法：

3、进入inputFormat.getSplits(jobConf, minPartitions)方法：

进入FileInputFormcat类的getSplits方法：

5、进入HadoopPartition：

而getDependencies表达式RDD之间的依赖关系，如下所示：

getDependencies返回的是依赖关系的一个Seq集合，里面的Dependency数组中的下划线是类型的PlaceHolder

我们进入ShuffledRDD类中的getDependencies方法：

我们进入ShuffleDependency类：

每个RDD都会具有计算的函数，如下所示：

我们进入HadoopMapPartitionsWithSplitRDD的 compute方法：

Compute方法是针对RDD的每个Partition进行计算的，其TaskContext参数的源码如下：

getPreferredLocations是寻找Partition的首选位置：

我们进入NewHadoopRDD的getPreferredLocations：

其实RDD还有一个可选的分区策略：

Partitioner的源码如下：

可以看出默认使用的是HashPartitioner，要注意key为Array的情况；

spark.default.parallelism必须要设置，否则会根据partitions数据来传输RDD，这样也会很容易出现OOM

1
顶

3
踩

分享到：

spark内核揭秘-11-Driver中AppClient源码 ... | spark内核揭秘-09-RDD的count操作触发 ...

2015-01-21 15:35
浏览 3213
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark-3.1.3-bin-without-hadoop.tgz: Spark Streaming则构建在RDD之上，通过微批处理实现对实时数据流的处理，支持复杂的窗口操作和状态管理。这对于实时监控、在线分析等应用场景非常有用。 MLlib是Spark的机器学习库，包含了多种算法如分类、回归、...

spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar: - RDD（弹性分布式数据集）：Spark的基础数据结构，是不可变、分区的数据集合，可以在集群中并行操作。 - DataFrame：Spark SQL引入的数据模型，它是基于表和列的抽象，提供了更高级别的抽象和优化。 - Dataset：...

spark-assembly-1.5.2-hadoop2.6.0.jar: Spark-assembly-1.5.2-hadoop2.6.0.jar中的优化包括RDD（弹性分布式数据集）的缓存策略、Task调度优化、内存管理优化等，以确保在大数据处理中实现高效的性能。 7. 开发和调试：开发者在本地开发时，可以直接...

spark-1.6.0-bin-hadoop2.6.tgz: Spark是Apache软件基金会下的一个开源大数据处理框架，它以其高效、灵活和易用性而闻名。 Spark-1.6.0-bin-hadoop2.6.tgz 是针对Linux系统的Spark安装包，包含了Spark 1.6.0版本以及与Hadoop 2.6版本兼容的构建。这...

spark-2.4.7-bin-hadoop2.6.tgz: 1. **弹性分布式数据集（RDD）**：RDD是Spark的基本数据抽象，它是不可变、分区的记录集合，可以在集群中并行操作。RDD提供了高效的转换（transformations）和动作（actions）操作。 2. **内存计算**：Spark通过将...

spark-3.1.3-bin-hadoop3.2.tgz: 这个版本的Spark不仅提供了源码，还包含了预编译的二进制文件，使得在Linux环境下快速部署和使用Spark成为可能。 Spark 的核心特性在于它的弹性分布式数据集（Resilient Distributed Datasets，简称RDD），这是一种...

spark-rdd-APi: 描述：“内容根据Spark RDD.scala和ParRDDFunctions.scala源码中RDD顺序整理，包含RDD功能解释。对熟悉Spark RDD很有用。”表明本文档涉及的是从Spark源码中对RDD API的深入整理和功能解析。这将会帮助已经熟悉Spark...

spark-2.2.2-bin-hadoop2.7.tgz: 在Spark 2.2.2中，除了基本的RDD接口，还引入了DataFrame和Dataset，它们提供了一种更高级的、类型安全的数据处理方式，使得开发人员能够更方便地进行SQL查询和复杂的数据分析。 Spark 2.2.2支持多种数据源，包括...

spark-3.2.4-bin-hadoop3.2-scala2.13 安装包: 1. **Spark**: Spark的核心在于它的弹性分布式数据集（RDD），这是一个容错的内存计算模型。它提供了一组高级APIs，支持批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）和机器学习（MLlib）等多种...

spark-3.1.2-bin-hadoop3.2.tgz: 2. **Resilient Distributed Datasets (RDD)**：RDD是Spark的基本数据结构，它是不可变、分区的元素集合，能够在集群中的节点上分布式存储。 3. **弹性**：Spark提供了容错机制，当工作节点失败时，可以自动恢复丢失...

spark-2.1.1-bin-hadoop2.7.tgz.7z: Spark是Apache软件基金会下的一个开源大数据处理框架，它以其高效、灵活和易用性而闻名。Spark 2.1.1是该框架的一个稳定版本，它在2.1.0的基础上进行了一些改进和修复，提供了更好的性能和稳定性。这个特定的压缩包...

spark-assembly-1.5.2-hadoop2.6.0jar包: 在实际应用中，开发人员可以利用Spark的API编写Scala代码，创建DataFrame或RDD（弹性分布式数据集），并利用Spark的并行计算能力对数据进行处理。例如，可以使用Spark SQL执行复杂查询，或者使用Spark Streaming实现...

spark-1.6.0-bin-hadoop2.4.tgz: 此外，Spark的弹性分布式数据集（Resilient Distributed Datasets, RDD）是其核心概念，它提供了一种在内存中处理数据的方式，大大提升了计算效率。Spark 1.6.0还引入了DataFrame，进一步优化了数据处理性能，简化了...

spark-2.3.0-bin-hadoop2.7版本.zip: 1. **弹性分布式数据集（Resilient Distributed Datasets, RDD）**：RDD是Spark的基本数据结构，它是不可变的、分区的、容错的。用户可以通过并行操作对RDD进行计算，且RDD之间的转换都是延迟执行的，直到需要结果时...

spark-3.0.3-bin-hadoop2.7.tgz: Spark-3.0.3-bin-hadoop2.7.tgz是一个包含Apache Spark 3.0.3版本和Hadoop 2.7兼容库的压缩包，适合于那些希望在Hadoop分布式集群上进行大数据分析和云计算的用户。 Spark的核心特性在于其内存计算（In-Memory ...

spark-2.0.0-bin-hadoop2.7.tgz.zip: Spark的核心在于它的弹性分布式数据集（Resilient Distributed Datasets，简称RDD），这是一种可以在集群中并行操作的数据结构。RDD具有容错性，一旦创建，就能在节点故障时自动恢复。Spark 2.0.0在此基础上引入了...

spark-2.4.0-bin-hadoop2.6.tgz: 10. **图处理GraphX**：Spark的GraphX提供了一种编程模型来处理图形数据，支持图的创建、查询和转换，适用于社交网络分析、推荐系统等领域。通过理解以上知识点，你可以更好地理解和使用Spark 2.4.0在Hadoop 2.6...

spark-2.4.0-bin-without-hadoop.tgz: Spark 2.4.0 是一个重要的版本，它包含了许多改进和新特性，尤其是对于数据分析和机器学习社区。这个版本的Spark不包含Hadoop的依赖，名为"spark-2.4.0-bin-without-hadoop.tgz"，这意味着它不内置Hadoop的客户端，...

spark-2.4.4-bin-hadoop2.6.tgz: Spark提供了Web UI来监控作业状态，包括Application Master UI、Driver UI和Executor UI，有助于分析性能瓶颈和进行调优。总的来说，"spark-2.4.4-bin-hadoop2.6.tgz"这个压缩包是开发和部署大数据应用的重要资源...

Global site tag (gtag.js) - Google Analytics