`
hongs_yang
  • 浏览: 60992 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论

spark transform系列__reduceByKey

阅读更多

reduceByKey 通过PairRDDFunctions进行的实现,reduceByKey的操作是把两个V类型的值进行处理,并最终返回的还是一个V类型的结果(V类型 就是value的类型).针对一个reduceByKey的操作,需要执行shuffle的操作,也就是说如果包含有reduceByKey时,会生成两 个执行的stage,第一个stage会根据shuffle的partition与分区的算子,对数据重新进行分区操作,第二个stage去读取重新分区 的数据.

def reduceByKey(func: (VV) => V): RDD[(KV)] = self.withScope {

这里首先先检查要做reduceByKey的操作的rdd是否包含有一个partitioner的算子,如果有,直接使用这个算子,否则生成Hash算子,检查spark.default.parallelism配置是否有配置,如果有配置并行度,重新分区的个数读取这个配置,否则取上个rdd的partition的个数.

Func是需要执行的reduceByKey操作的function,这个function的传入类型与返回类型是相同的类型.
  reduceByKey(defaultPartitioner(self)func)
}

 

def reduceByKey(partitioner: Partitionerfunc: (VV) => V): RDD[(KV)] = self.withScope {

这里调用了combineByKeyWithClassTag的函数,

这个函数需要传入的参数中,前三个参数的说明:

参数1:(v:V)=>v, 这个function表示如果key还没有值时createCombiner: V => C 的函数操作,在这里直接是把传入的key对应的value当成createCombiner的返回值,

参数2:这个地方直接把reduceByKey的function当作为mergeValue: (C, V) => C函数的操作,这是对两个key相同的值进行的合并操作,

参数3:这个地方直接把reduceByKey的function当作为mergeCombiners: (C, C) => C函数的操作,这个是对key相同的两个combiner进行的合并操作.

在combineByKeyWithClassTag中定义的V表示上面三个参数中C的类型直接使用V(原rdd中value的类型)的类型

在执行combineByKeyWithClassTag的操作时,默认mapSideCombine参数的值为true,表示需要执行map端的combine的操作.
  combineByKeyWithClassTag[V]((v: V) => vfuncfuncpartitioner)
}

 

接下来看看combineByKeyWithClassTag的函数的实现:

如果执行这个操作时,rdd的key是一个数组类型时,同时设置有map端执行combine操作,提示错误.

如果rdd的key是一个数组类型时,同时分区算子是默认的Hash算子时,提示错误.

if (keyClass.isArray) {
  if (mapSideCombine) {
    throw new SparkException("Cannot use map-side combining with array keys.")
  }
  if (partitioner.isInstanceOf[HashPartitioner]) {
    throw new SparkException("Default partitioner cannot partition array keys.")
  }
}

 

根据传入的前三个参数,生成Aggregator,设置有mapSideCombine时,Aggregator必须存在.
val aggregator = new Aggregator[KVC](
  self.context.clean(createCombiner),
  self.context.clean(mergeValue),
  self.context.clean(mergeCombiners))
if (self.partitioner == Some(partitioner)) {

这个情况需要说明一下,如果执行当前的操作传入的partitioner与执行这个操作对应的RDD是相同的算子时,这个时候不对当前的操作生成新的RDD,也就是这个操作不在执行SHUFFLE的操作,直接使用当前操作的RDD的Iterator.
  self.mapPartitions(iter => {
    val context = TaskContext.get()
    new InterruptibleIterator(contextaggregator.combineValuesByKey(iter

       context))
  }preservesPartitioning = true)
else {

这种情况下,执行这个操作的partitioner是一个新生成的或者说与当前要执行这个操作的RDD的partitioner不是相同的实例,表示这个操作需要执行shuffle的操作,生成一个ShuffledRDD实例.
  new ShuffledRDD[KVC](selfpartitioner)
    .setSerializer(serializer)
    .setAggregator(aggregator)
    .setMapSideCombine(mapSideCombine)
}

 

ShuffledRDD的实例生成:

先看看实例的生成部分:

这里传入的prev是生成ShuffleRDD的上层的RDD.

下面在ShuffledRDD的实例定义部分的红色部分,在实例生成时设置对上层的RDD的依赖为Nil,表示对上层RDD的依赖部分不在实例生成部分定义.

class ShuffledRDD[K: ClassTagV: ClassTagC: ClassTag](
    @transient var prev: RDD[_ <: Product2[KV]],
    part: Partitioner)
  extends RDD[(KC)](prev.context, Nil) {

 

接下来看看ShuffledRDD如何处理上层RDD的依赖部分:

在ShuffledRDD中会重写getDependencies函数:

override def getDependencies: Seq[Dependency[_]] = {

在这里,生成对ShuffledRDD的依赖为ShuffleDependency实例.这个依赖的RDD就是生成这个ShuffledRDD的上层的RDD的实例.
  List(new ShuffleDependency(prevpartserializerkeyOrderingaggregator,

       mapSideCombine))
}

 

生成ShuffleDependency实例的关键代码:

每生成一个ShuffleDependency的实例时,会对每个Shuffle的依赖生成一个唯一的shuffleId,用于对此stage中每个task的结果集的跟踪.

val shuffleIdInt = _rdd.context.newShuffleId()

向shuffleManager注册这个这个shuffle的依赖.task的结果集向driver通知时,首先需要这个shuffle是一个注册的shuffle.
val shuffleHandle: ShuffleHandle = _rdd.context.env.shuffleManager.registerShuffle(
  shuffleId_rdd.partitions.sizethis)

分享到:
评论

相关推荐

    MongoDB分片集群搭建教程:副本集创建与数据分片

    内容概要:本文提供了详细的MongoDB分片集群的搭建指导,涵盖了从环境准备、配置文件编写、副本集的建立、主节点的选择、配置服务器和数据分片服务器的配置到最后的路由节点的搭建与操作整个流程,以及对数据库的哈希与范围两种分片策略的应用介绍和具体命令执行。 适合人群:熟悉NoSQL数据库概念并对MongoDB有一定了解的技术人员,尤其是在大型数据管理和分布式数据库架构设计中有需求的开发者。 使用场景及目标:帮助技术人员掌握构建高效能、高可用性的MongoDB分片集群的方法,适用于处理大规模、实时性强的数据存储与读取场景。 其他说明:文中通过实例演示了每个步骤的具体操作方法,便于跟随文档实操,同时也介绍了可能遇到的问题及其解决方案,如在没有正确配置的情况下试图写入数据时出现错误等情况的处理。

    CPPC++_嵌入式硬件的物联网解决方案blinker库与Arduino ESP8266 ESP32一起工作.zip

    CPPC++_嵌入式硬件的物联网解决方案blinker库与Arduino ESP8266 ESP32一起工作

    CPPC++_逆向调用QQ Mojo IPC与WeChat XPlugin.zip

    CPPC++_逆向调用QQ Mojo IPC与WeChat XPlugin

    CPPC++_现代活动指标.zip

    CPPC++_现代活动指标

    CPPC++_Xournal是一款手写笔记软件,支持PDF注释,使用C语言编写,支持GTK3,支持Linux,如Ubu.zip

    CPPC++_Xournal是一款手写笔记软件,支持PDF注释,使用C语言编写,支持GTK3,支持Linux,如Ubu

    基于SSM学生实习管理系统前台小程序与后台管理系统开发实践

    资源概述: 本资源提供了一套完整的学生实习管理系统解决方案,涵盖了前台小程序页面与后台管理系统两大模块。前台小程序页面设计简洁直观,用户可根据不同身份(学生或企业)进行登录。学生用户能够方便地浏览并投递感兴趣的实习岗位,而企业用户则能轻松发布实习信息,吸引优秀人才。后台管理系统功能全面,包括个人中心、首页、学生管理、教师管理、企业管理、招聘管理、评分管理以及实习管理等多个方面,为管理员提供了强大的数据管理和操作工具。 技术栈亮点: SSM框架:系统后台采用Spring、Spring MVC和MyBatis Plus(简称SSM)作为核心开发框架,确保了系统的稳定性、可扩展性和可维护性。Spring作为控制反转(IoC)和面向切面编程(AOP)的容器,为系统提供了强大的业务逻辑处理能力;Spring MVC则负责处理Web请求和响应,实现了前后端的分离;MyBatis Plus作为持久层框架,简化了数据库操作,提高了开发效率。 MySQL数据库:系统采用MySQL作为数据库存储解决方案,支持大数据量的存储和高效查询。 如有侵权请联系我删除,谢谢

    微服务闪聚支付项目.zip

    微服务闪聚支付项目

    Rust 与 Java 互调实战示例

    博客链接 https://blog.csdn.net/weixin_47560078/article/details/143714557 文章从原理介绍出发,实现了 Rust 与 Java 的互调。利用 JNI 技术,可以充分发挥 Rust 的性能优势,同时保持 Java 的跨平台特性。这种技术组合适用于对性能要求较高的应用场景,如图像处理、数据分析和系统级编程等。

    CPPC++_这是我翻译的艾根中文文档.zip

    cppc++

    Matlab实现斑马优化算法ZOA-TCN-Multihead-Attention多输入单输出回归预测算法研究.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。 替换数据可以直接使用,注释清楚,适合新手

    Matlab实现雪融优化算法SAO-TCN-Multihead-Attention多输入单输出回归预测算法研究.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。 替换数据可以直接使用,注释清楚,适合新手

    分布式事务lcn.zip

    分布式事务lcn

    基于Simulink的正弦波PWM技术和三次谐波注入PWM技术研究.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    【风电功率预测】基于BiTCN的风电功率多变量输入预测研究附Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    CPPC++_这是由一块迷你带OV2640双DRV8833驱动TypeC接口PSRAM的ESP32PicoD4开发板驱.zip

    cppc++

    JAVA安卓手机与电脑的socket通信源码数据库 其他源码类型 WinForm

    安卓手机与电脑的socket通信源码

    Anaconda:JupyterNotebook使用教程.docx

    Anaconda:JupyterNotebook使用教程.docx

    Amazon S3:S3静态网站托管教程.docx

    Amazon S3:S3静态网站托管教程.docx

    Python商品销售数据分析可视化项目源码(期末大作业).zip

    Python商品销售数据分析可视化项目源码(期末大作业).zip,个人经导师指导并认可通过的98分大作业设计项目。主要针对计算机相关专业的正在做期末大作业设计的学生和需要项目实战练习的学习者,可作为课程设计、期末大作业,代码资料完整下载可用。 Python商品销售数据分析可视化项目源码(期末大作业).zip,个人经导师指导并认可通过的98分大作业设计项目。主要针对计算机相关专业的正在做期末大作业设计的学生和需要项目实战练习的学习者,可作为课程设计、期末大作业,代码资料完整下载可用。Python商品销售数据分析可视化项目源码(期末大作业).zip,个人经导师指导并认可通过的98分大作业设计项目。主要针对计算机相关专业的正在做期末大作业设计的学生和需要项目实战练习的学习者,可作为课程设计、期末大作业,代码资料完整下载可用。Python商品销售数据分析可视化项目源码(期末大作业).zip,个人经导师指导并认可通过的98分大作业设计项目。主要针对计算机相关专业的正在做期末大作业设计的学生和需要项目实战练习的学习者,可作为课程设计、期末大作业,代码资料完整下载可用。Python商品销售数据分析

    CPPC++_wechathookWeChatApi微信Api微信hook微信接口python微信接口java微信Ap.zip

    CPPC++_wechathookWeChatApi微信Api微信hook微信接口python微信接口java微信Ap

Global site tag (gtag.js) - Google Analytics