7.spark Streaming 技术内幕 : 从DSteam到RDD全过程解析 -

zhou_yuefei

浏览: 42375 次

最近访客更多访客>>

luojianbing

zj619

fmq2008

JThink

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

7.spark Streaming 技术内幕 : 从DSteam到RDD全过程解析

博客分类：

spark streaming内幕

spark RDD DStream 源码分析

原创文章，转载请注明:转载自周岳飞博客(http://zhou-yuefei.iteye.com/)

上篇博客讨论了Spark Streaming 程序动态生成Job的过程,并留下一个疑问: JobScheduler将动态生成的Job提交,然后调用了Job对象的run方法,最后run方法的调用是如何触发RDD的Action操作,从而真正触发Job的执行的呢?本文就具体讲解这个问题。

一、DStream和RDD的关系

DSream 代表了一系列连续的RDD，DStream中每个RDD包含特定时间间隔的数据，如下图所示：

从上图可以看出，一个DStream 对应了时间维度上的多个RDD。

DStream 作为Spark Stream的一个基本抽象，提供了高层的API来进行Spark Streaming 程序开发，先看一个简单的Spark Streaming的WordCount程序实例：

object WordCount{
def main(args:Array[String]):Unit={
val sparkConf =newSparkConf().setMaster("local[4]").setAppName("WordCount")
val ssc =newStreamingContext(sparkConf,Seconds(1))
val lines = ssc.socketTextStream("localhost",9999)
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x =>(x,1)).reduceByKey(_+_)
wordCounts.print()
ssc.start()
ssc.awaitTermination()
}
}

我们会发现对DStream的操作和RDD的操作惊人的相似, 通过对DStream的不断转换,形成依赖关系。所以的DStream操作最终会转换成底层的RDD的操作，上面的例子中

lines DStream转换成wods DSteam。lines DStream的flatMap操作会作用于其中每一个RDD去生成words DStream 中的RDD, 过程如下图所示:

下面从源码角度看一下DStream和RDD的关系:

DStream 中有一个HashMap[Time,RDD[T]]类型的对象 generatedRDDs，其中Key为作业开始时间,RDD为该DStream对应的RDD，源码如下:

二、Dstream 的分类

Dstream 主要分为三大类:

1. Input DStream

2. Transformed DStream

3. Output DStream

2.1 InputDStream 是DStream 最初诞生的地方,也是RDD最初诞生的地方,它是依据数据源创建的最初的DStream,如上面例子中的代码:

val lines = ssc.socketTextStream("localhost",9999)

基于Socket数据源创建了SocketInputDStream对象lines,下面从源码角度分析一下他是怎么生成RDD的, SocketInputDStream生成RDD的方法在它的父类ReceiverInputDSteam中:

ReceiverInputDSteam 的compute方法中调用了createBloackRDD方法基于Block信息创建了RDD :

可以看到 ReceiverInputDSteam 的createBloackRDD 方法new了BlockRDD对象，BlockRDD 是继承自RDD。至此，最初的RDD创建完成。

2.2、 Transformed DStream 是由其他DStream 通过非Output算子装换而来的DStream

例如例子中的lines通过flatMap算子转换生成了FlatMappedDStream:

val words = lines.flatMap(_.split(" "))

下面看一下flatMap的源码:

可以看到flatMap是DStream的方法,它创建了FlatMappeedDStream并返回,上面例子中words 就是FlatMappeedDStream 对象,创建FlatMappeedDStream对象时传入了参数flatMapFunc,这里的flatMapFunc就是用户编写的业务逻辑,我们再进入FlatMappedDStream,查看其compute方法:

可以惊喜的看到FlatMappedDStream的compute方法调用了parent的getOrCompute方法获取父DStream的RDD.通过对父DStream的RDD的flatMap算子生成新的RDD,转换的业务逻辑通过flatMapFunc参数传递给flatMap算子。这样对DStream的操作都转换成了对RDD的操作，同时DSream的依赖关系也与RDD之间依赖关系同时建立了起来。

说明：这些RDD的创建是在Job动态生成时候发生的，Job生成最终会调用ForeachDStream的generateJob方法，源码如下

其中的parent.getOrCompute方法会依据DStream之间的依赖关系,导致一系列的链式调用,从而创建所有的RDD,并形成RDD之间的依赖关系。

3.3 Output DStream 是有其他DStream通过Output算子生成，它只存在于Output算子内部，并不会像Transformed Stream一样由算子返回，他是触发Job执行的关键。

那么什么是Output 算子呢？Output 算子是让DStream中的数据被推送的外部系统，像数据库，文件系统（HDFS，GFS等）的算子。因为Output 算子是将转换后的数据推送到外部系统被使用的操作，所以他触发了前面转换操作的真正执行（类似于RDD的action操作）。

下面，我们看看有哪些Output算子：

Output Operation Meaning

print()	Prints the first ten elements of every batch of data in a DStream on the driver node running the streaming application. This is useful for development and debugging. Python API This is called pprint() in the Python API.
saveAsTextFiles(prefix, [suffix])	Save this DStream's contents as text files. The file name at each batch interval is generated based onprefix and suffix: "prefix-TIME_IN_MS[.suffix]".
saveAsObjectFiles(prefix, [suffix])	Save this DStream's contents as `SequenceFiles` of serialized Java objects. The file name at each batch interval is generated based on prefix and suffix: "prefix-TIME_IN_MS[.suffix]". Python API This is not available in the Python API.
saveAsHadoopFiles(prefix, [suffix])	Save this DStream's contents as Hadoop files. The file name at each batch interval is generated based on prefix and suffix: "prefix-TIME_IN_MS[.suffix]". Python API This is not available in the Python API.
foreachRDD(func)	The most generic output operator that applies a function, func, to each RDD generated from the stream. This function should push the data in each RDD to an external system, such as saving the RDD to files, or writing it over the network to a database. Note that the function func is executed in the driver process running the streaming application, and will usually have RDD actions in it that will force the computation of the streaming RDDs.

下面，回到我们开头的例子：

wordCounts.print()

其中pirnt算子就是Output算子，我们进入print的源码：

print（）方法调用了print(10),其实是调用了另一个print方法:

print 方法中首先定义了一个函数foreachFunc,foreachFunc从rdd中出去num个元素打印出来。接下来print函数调用了foreachRDD，并将foreachFunc的处理逻辑作为参数传入。这里的foreachRDD也是一个Output算子(上面已经有说明),接下来看看foreachRDD的源码。