spark-学习笔记--27 Task 源码 - 杨中磊的博客 - ITeye博客

`

05rjyzl11

浏览: 151099 次
性别:
来自: 北京

最近访客更多访客>>

breezylee

laopo521anping

wolfwell

gzjhqh

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

isaiah282485068：怎么不出书出来啊，市场上好却这方面的书啊
mule in action翻译1 : 第一部分 mule 核心

spark-学习笔记--27 Task 源码

博客分类：

spark

阅读更多

Task 源码

org.apache.spark.executor.Executor.TaskRunner.run()

task反序列化

updateDependencies : 通过网络拉取依赖的文件、jar包,使用loader 加载获取的jar

执行 org.apache.spark.scheduler.Task 的 run( ) 构建TaskContext

执行 Task子类的 runTask(context)方法

.

ShuffleMapTask：

执行 rdd.iterator()-- 对分区执行我们定义的算子：

writer.write(rdd.iterator(partition, context).asInstanceOf[Iterator[_ <: Product2[Any, Any]]])

ShuffleWriter 将结果经过 hashparttion分区之后写入对应分区的 bucket

runTask 执行完返回 MapStatus ，

MapStatus：记录task处理后的数据存储在哪里其实就是BlockManager相关信息

ResultTask：

反序列化

执行我们定义的算子

task执行统计信息 --- 这些信息会反映到 sparkUI 的 4040

taskScheduler 更新task状态---CoarseGrainedClusterMessages.StatusUpdate

调用 org.apache.spark.scheduler.TaskSchedulerImpl#statusUpdate 根据状态更新

分享到：

spark-学习笔记--28 shuffle | spark-学习笔记--26 task 的执行

2018-12-05 11:26
浏览 432
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark源码阅读笔记: ### Spark源码解析：Master与Worker机制 #### Spark概述及特点 Spark是一个高效的数据处理框架，它由加州大学伯克利分校的AMP实验室研发。该框架支持多种编程语言（包括Java、Scala、Python和R等），使开发者可以...

Spark 学习之路，包含 Spark Core，Spark SQL，Spark Streaming，Spark mllib 学: Spark 学习之路，包含 Spark Core，Spark SQL，Spark Streaming，Spark mllib 学习笔记 * [spark core学习笔记及代码 * [spark sql学习笔记及代码 * [spark streaming学习笔记及代码 Spark 消息通信 ### Spark ...

spark大数据商业实战三部曲源码及资料.zip: 《Spark大数据商业实战三部曲》...总的来说，《Spark大数据商业实战三部曲》的源码和资料集合，为学习和掌握Spark提供了丰富的实践素材，无论是初学者还是有经验的开发者，都能从中受益，提升大数据处理和分析的能力。

spark-source-code-learn-note:火花学习笔记-spark source code: 《Spark源码学习笔记》是针对大数据处理框架Spark进行深入研究的资料，主要涵盖了Spark的核心设计理念、架构原理以及源码解析。本笔记旨在帮助读者理解Spark如何高效地处理大规模数据，提升数据分析和处理的能力。 ...

spark-2.1.1:spark原始物走读注解解: 《Spark 2.1.1：深度解析与源码阅读笔记》 Spark作为一个开源的分布式计算框架，以其高效、易用和灵活性深受大数据处理领域的欢迎。Spark 2.1.1是其发展中的一个重要版本，它在性能优化、功能增强以及稳定性上都有...

Global site tag (gtag.js) - Google Analytics