spark内核揭秘-11-Driver中AppClient源码分析

博客分类：

spark

registerWithMaster tryRegisterAllMasters AppClient Command CoarseGrainedExecutorBackend

首先从SparkContext中TaskScheduler实例的创建开始：进入taskScheduler.start()方法内部：进入其实现者TaskSchedulerImpl内部：可以发现在start具体实现的内部首先是有个backend.start方法：其最终具体的实现类为：

2015-01-21 18:45
浏览 2005
评论(0)
分类:编程语言

spark内核揭秘-10-RDD源码分析

博客分类：

spark

RDD compute getPartitions getDependencies getPreferredLocations

RDD的核心方法：首先看一下getPartitions方法的源码： getPartitions返回的是一系列partitions的集合，即一个Partition类型的数组我们就想进入HadoopRDD实现： 1、getJobConf()：用来获取job Confi

2015-01-21 15:35
浏览 3221
评论(0)
分类:编程语言

spark内核揭秘-09-RDD的count操作触发Job全生命周期-02

博客分类：

spark

TaskSet reviveOffers DriverActor WorkerOffer launchTasks

接着上一篇文章继续分析代码： 3.1.3.3.3.1、进入TaskSet 方法： 3.1.3.3.3.2、进入taskScheduler.submitTasks(new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties)) 方法：

2015-01-20 18:02
浏览 1643
评论(0)
分类:编程语言

spark内核揭秘-09-RDD的count操作触发Job全生命周期-01

博客分类：

spark

RDD runJob submitJob JobSubmitted submitMissingTasks

RDD源码的count方法：从上面代码可以看出来，count方法触发SparkContext的runJob方法的调用：进入 runJob(rdd, func, 0 until rdd.partitions.size, false)方法：进一步跟踪runJob(rdd, (context: TaskContext, iter: Iterator[T]) => func(iter), partitions, allowLocal)方法：继续跟踪进入runJob[T, U](rdd, func, partitions, allowLocal, (index, ...

2015-01-20 16:13
浏览 3197
评论(0)
分类:编程语言

spark内核揭秘-08-spark的Web监控页面

博客分类：

spark

SparkUI bind initialize JobsTab JettyServer

在SparkContext中可以看到初始化UI代码： // Initialize the Spark UI private[spark] val ui: Option[SparkUI] = if (conf.getBoolean("spark.ui.enabled", true)) { Some(SparkUI.createLiveUI(this, conf, listenerBus, jobProgressListener, env.securityManager,appName)) } else { // For tests, ...

2015-01-20 13:15
浏览 6782
评论(0)
分类:编程语言

spark内核揭秘-07-DAGScheduler源码解读初体验

DAGScheduler TaskSet ActorSupervisor EventProcessActor

当构建完TaskScheduler之后，我们需要构建DAGScheduler这个核心对象：进入其构造函数中：可以看出构建DAGScheduler实例的时候需要把TaskScheduler实例对象作为参数传入。 LiveListenerBus： MapOutputTrackerMaster：

2015-01-19 20:57
浏览 1131
评论(0)
分类:编程语言

spark内核揭秘-06-TaskSceduler启动源码解析初体验

博客分类：

spark

TaskScheduler CoarseGrainedSchedulerBackend CoarseGrainedExecutorBackend lanuchTasks makeOffers

TaskScheduler实例对象启动源代码如下所示：从上面代码可以看出来，taskScheduler的启动是在SparkContext 找到TaskSchedulerImpl实现类中的start方法实现： 1、从上代码看到，先启动CoarseGrainedSchedulerBackend，从上面CoarseGrainedSchedulerBackend类的代码，可以看出spark启动了DriverActor,名称为CoarseGrainedScheduler，这是一个akka消息通信类，会先运行preStart()方法从上面代码可以看到，初始

2015-01-19 18:21
浏览 1758
评论(0)
分类:编程语言

spark内核揭秘-05-SparkContext核心源码解析初体验

博客分类：

spark

akka TaskScheduler SparkDeployScheduler CoarseGrainedExecutor Executor

SparkContext在获得了一系列的初始化信息后开始创建并启动TaskScheduler实例：进入createTaskScheduler方法：我们看一下其Standalone的方式：在上述代码中首先实例化一个TaskSchedulerImpl：然后构建出了masterUrls：接着创建出关键的backend：

2015-01-19 15:09
浏览 2605
评论(0)
分类:编程语言

spark内核揭秘-04-spark任务调度系统个人理解

博客分类：

spark

任务调度存储系统优化集群多线程

spark的任务调度系统如下所示：从上图中可以看出来由RDD Objects产生DAG，然后进入了DAGScheduler阶段，DAGScheduler是面向state的高层次的调度器，DAGScheduler把DAG拆分成很多的tasks，每组的tasks都是一个state，每当遇到shuffle就会产生新的state，可以看出上图一共有三个state；DAGScheduler需要记录那些RDD被存入磁盘等物化动作，同时需寻找task的最优化调度，例如数据本地性等；DAGScheduler还要监视因为shuffle输出导致的失败，如果发生这种失败，可能就需要重新提交该state ...

2015-01-18 21:26
浏览 1630
评论(0)
分类:编程语言

spark内核揭秘-03-spark核心组件

博客分类：

spark

spark 多线程集群内存并发

spark核心组件如下所示：在SparkContext初始化的时候，会初始化一系列内容：查看内存使用情况：创建和启动scheduler：集群核心组件中的Block tracker是用于block和partition对应关系的管理。集群核心组件中的shuffle tracker是用于记录shuffle操作的过程细节。从集群中也可以看出，Executor在执行任务的时候是采用多线程的方式执行的并能够在HDFS或者HBase等系统上读取数据。而在实际的Driver Program运行的时候每个partition都会由一个tas ...

2015-01-18 09:48
浏览 1407
评论(0)
分类:编程语言

spark内核揭秘-02-spark集群概览

博客分类：

spark

Spark集群预览：官方文档对spark集群的初步描述如下，这是一个典型的主从结构：官方文档对spark集群中的一些关键点给出详细的指导：其Worker的定义如下所示：需要注意的是Spark Driver所在的集群需要和Spark集群最好位于同一个网络环境中，因为Driver中的SparkContext实例需发送任务给不同Worker Node的Executor并接受Executor的一些执行结果信息，一般而言，在企业实际的生产环境中Driver所在的机器是的配置往往都是比较不错的，尤其是其CPU的处理能力要很强悍。

2015-01-18 09:17
浏览 1476
评论(0)
分类:编程语言

spark内核揭秘-01-spark内核核心术语解析

博客分类：

spark

hadoop mapreduce filter map shell

Application: Application是创建了SparkContext实例对象的spark用户，包含了Driver程序： Spark-shell是一个应用程序，因为spark-shell在启动的时候创建了一个SparkContext对象，其名称为sc: Job: 和Spark的action相对应，每一个action例如count、saveAsTextFile等都会对应一个job实例，该job实例包含多任务的并行计算。 Driver Program：运行main函数并且创建SparkContext实例的程序 Cluster Manager：集群资源的管理外部服务 ...

2015-01-18 09:09
浏览 1706
评论(0)
分类:编程语言

spark架构设计&编程模型 02

架构设计 spark 函数式 shell oom

启动spark-shell: 简单的RDD：上述代码中使用的sc,这是Spark-Shell帮助我们自动生成的SparkContext的实例：我们把生成的RDD的每个元素都乘以3：上述的操作都是transformations我们需要触发一个action才能执行：

2015-01-16 18:53
浏览 1668
评论(0)
分类:互联网

spark架构设计&编程模型-01

博客分类：

spark

架构设计编程 spark

RDD操作例子： RDD的依赖和运行时

2015-01-16 17:28
浏览 2016
评论(0)
分类:编程语言

hadoop&spark mapreduce对比 & 框架设计和理解

博客分类：

spark

spark hadoop mapreduce 框架

Hadoop MapReduce: MapReduce在每次执行的时候都要从磁盘读数据，计算完毕后都要把数据放到磁盘 spark map reduce: RDD is everything for dev:

2015-01-16 15:17
浏览 2025
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark内核揭秘-11-Driver中AppClient源码分析

spark内核揭秘-10-RDD源码分析

spark内核揭秘-09-RDD的count操作触发Job全生命周期-02

spark内核揭秘-09-RDD的count操作触发Job全生命周期-01

spark内核揭秘-08-spark的Web监控页面

spark内核揭秘-07-DAGScheduler源码解读初体验

spark内核揭秘-06-TaskSceduler启动源码解析初体验

spark内核揭秘-05-SparkContext核心源码解析初体验

spark内核揭秘-04-spark任务调度系统个人理解

spark内核揭秘-03-spark核心组件

spark内核揭秘-02-spark集群概览

spark内核揭秘-01-spark内核核心术语解析

spark架构设计&编程模型 02

spark架构设计&编程模型-01

hadoop&spark mapreduce对比 & 框架设计和理解

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>