reduceByKey 通过PairRDDFunctions进行的实现,reduceByKey的操作是把两个V类型的值进行处理,并最终返回的还是一个V类型的结果(V类型 就是value的类型).针对一个reduceByKey的操作,需要执行shuffle的操作,也就是说如果包含有reduceByKey时,会生成两 个执行的stage,第一个stage会根据shuffle的partition与分区的算子,对数据重新进行分区操作,第二个stage去读取重新分区 的数据.
def reduceByKey(func: (V, V) => V): RDD[(K, V)] = self.withScope {
这里首先先检查要做reduceByKey的操作的rdd是否包含有一个partitioner的算子,如果有,直接使用这个算子,否则生成Hash算子,检查spark.default.parallelism配置是否有配置,如果有配置并行度,重新分区的个数读取这个配置,否则取上个rdd的partition的个数.
Func是需要执行的reduceByKey操作的function,这个function的传入类型与返回类型是相同的类型.
reduceByKey(defaultPartitioner(self), func)
}
def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)] = self.withScope {
这里调用了combineByKeyWithClassTag的函数,
这个函数需要传入的参数中,前三个参数的说明:
参数1:(v:V)=>v, 这个function表示如果key还没有值时createCombiner: V => C 的函数操作,在这里直接是把传入的key对应的value当成createCombiner的返回值,
参数2:这个地方直接把reduceByKey的function当作为mergeValue: (C, V) => C函数的操作,这是对两个key相同的值进行的合并操作,
参数3:这个地方直接把reduceByKey的function当作为mergeCombiners: (C, C) => C函数的操作,这个是对key相同的两个combiner进行的合并操作.
在combineByKeyWithClassTag中定义的V表示上面三个参数中C的类型直接使用V(原rdd中value的类型)的类型
在执行combineByKeyWithClassTag的操作时,默认mapSideCombine参数的值为true,表示需要执行map端的combine的操作.
combineByKeyWithClassTag[V]((v: V) => v, func, func, partitioner)
}
接下来看看combineByKeyWithClassTag的函数的实现:
如果执行这个操作时,rdd的key是一个数组类型时,同时设置有map端执行combine操作,提示错误.
如果rdd的key是一个数组类型时,同时分区算子是默认的Hash算子时,提示错误.
if (keyClass.isArray) {
if (mapSideCombine) {
throw new SparkException("Cannot use map-side combining with array keys.")
}
if (partitioner.isInstanceOf[HashPartitioner]) {
throw new SparkException("Default partitioner cannot partition array keys.")
}
}
根据传入的前三个参数,生成Aggregator,设置有mapSideCombine时,Aggregator必须存在.
val aggregator = new Aggregator[K, V, C](
self.context.clean(createCombiner),
self.context.clean(mergeValue),
self.context.clean(mergeCombiners))
if (self.partitioner == Some(partitioner)) {
这个情况需要说明一下,如果执行当前的操作传入的partitioner与执行这个操作对应的RDD是相同的算子时,这个时候不对当前的操作生成新的RDD,也就是这个操作不在执行SHUFFLE的操作,直接使用当前操作的RDD的Iterator.
self.mapPartitions(iter => {
val context = TaskContext.get()
new InterruptibleIterator(context, aggregator.combineValuesByKey(iter,
context))
}, preservesPartitioning = true)
} else {
这种情况下,执行这个操作的partitioner是一个新生成的或者说与当前要执行这个操作的RDD的partitioner不是相同的实例,表示这个操作需要执行shuffle的操作,生成一个ShuffledRDD实例.
new ShuffledRDD[K, V, C](self, partitioner)
.setSerializer(serializer)
.setAggregator(aggregator)
.setMapSideCombine(mapSideCombine)
}
ShuffledRDD的实例生成:
先看看实例的生成部分:
这里传入的prev是生成ShuffleRDD的上层的RDD.
下面在ShuffledRDD的实例定义部分的红色部分,在实例生成时设置对上层的RDD的依赖为Nil,表示对上层RDD的依赖部分不在实例生成部分定义.
class ShuffledRDD[K: ClassTag, V: ClassTag, C: ClassTag](
@transient var prev: RDD[_ <: Product2[K, V]],
part: Partitioner)
extends RDD[(K, C)](prev.context, Nil) {
接下来看看ShuffledRDD如何处理上层RDD的依赖部分:
在ShuffledRDD中会重写getDependencies函数:
override def getDependencies: Seq[Dependency[_]] = {
在这里,生成对ShuffledRDD的依赖为ShuffleDependency实例.这个依赖的RDD就是生成这个ShuffledRDD的上层的RDD的实例.
List(new ShuffleDependency(prev, part, serializer, keyOrdering, aggregator,
mapSideCombine))
}
生成ShuffleDependency实例的关键代码:
每生成一个ShuffleDependency的实例时,会对每个Shuffle的依赖生成一个唯一的shuffleId,用于对此stage中每个task的结果集的跟踪.
val shuffleId: Int = _rdd.context.newShuffleId()
向shuffleManager注册这个这个shuffle的依赖.task的结果集向driver通知时,首先需要这个shuffle是一个注册的shuffle.
val shuffleHandle: ShuffleHandle = _rdd.context.env.shuffleManager.registerShuffle(
shuffleId, _rdd.partitions.size, this)
相关推荐
spark-sql_2.11-2.4.0-cdh6.1.1.jar
### Spark升级后遇到`java.lang.NoClassDefFoundError: org/apache/spark/Logging`问题解决方案 #### 一、问题背景及现象 在升级Spark至2.1版本之后,在使用streaming-kafka进行测试时,遇到了`java.lang....
spark-core_2.11-1.6.0.jar spark-core_2.11-1.6.0.jar
mongodb-spark官方连接器,运行spark-submit --packages org.mongodb.spark:mongo-spark-connector_2.11:1.1.0可以自动下载,国内网络不容易下载成功,解压后保存到~/.ivy2目录下即可。
spark-core_2.11-2.0.0.jar比spark-core_2.11-1.5.2.jar少了org.apache.spark.Logging.class,故此把缺少的class放到spark-core_2.11-1.5.2.logging.jar里面
spark_2_7_7
比maven仓库下载快很多
spark-hive_2.11-2.3.0 spark-hive-thriftserver_2.11-2.3.0.jar log4j-2.15.0.jar slf4j-api-1.7.7.jar slf4j-log4j12-1.7.25.jar curator-client-2.4.0.jar curator-framework-2.4.0.jar curator-recipes-2.4.0....
spark-streaming_2.11-2.1.3-SNAPSHOT.jar
mongo-spark-connector_2.11-2.1.2.jar 使用于 java7!
标题中的"SalahEddine_HebaBaze_Spark_CLOUDHPC_spark_spark_python_"暗示了这个压缩包内容可能围绕一个由SalahEddine和HebaBaze共同探讨的Spark项目,重点关注在云计算环境(可能是CLOUDHPC)下的Python编程。...
星火应用商店
spark_2_5_8_online 内网聊天工具 可以是内网供作的人们方便的进行沟通
spark-tags_2.11-2.1.3-SNAPSHOT.jar
mongodb spark连接器,适用版本spark2.1.X ,Scala2.11.X, java 6 or later,mongodb 2.6 or later,请根据上面的版本选择,不然会报各种错误
spark-streaming_2.12-2.4.0.jar包,可以使用
spark-sql_2.11-2.1.3-SNAPSHOT_bak.jar
spark 读取excel 的jar 包
博客https://blog.csdn.net/lsshlsw/article/details/82670508 spark_prometheus_metrics.json
- **聚合数据**:使用`reduceByKey()`函数对键值对进行聚合,将相同单词的计数累加。 - **输出结果**:最后,使用`collect()`方法将结果收集到本地并打印。 **3. 关键API详解** - `flatMap()`: 将每个输入元素...