【Spark100】Spark Streaming Checkpoint的一个坑

bit1129

浏览: 1079830 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Spark

Spark Streaming UI这块是本篇额外的内容，与主题无关，只是把它记录下来

Spark Streaming UI上一组统计数字的含义

Streaming

Started at: 1433563238275(Spark Streaming开始运行的时间)
Time since start: 3 minutes 51 seconds（Spark Streaming已经运行了多长时间）
Network receivers: 2(Receiver个数)
Batch interval: 1 second（每个Batch的时间间隔，即接收多长时间的数据就生成一个Batch，或者说是RDD）
Processed batches: 231 (已经处理的Batch个数，不管Batch中是否有数据，都会计算在内，)
Waiting batches: 0 （等待处理的Batch数据，如果这个值很大，表明Spark的处理速度较数据接收的速度慢，需要增加计算能力或者降低接收速度）
Received records: 66 (已经接收到的数据，每读取一次，读取到的所有数据称为一个record)
Processed records: 66 (已经处理的record)

(Processed batches + Waiting batches) * Batch Interval = Time Since Start

Spark Streaming Checkpoint的一个坑

源代码：

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}


object SparkStreamingCheckpointEnabledTest {
  def main(args: Array[String]) {

    val checkpointDirectory = "file:///d:/data/chk_streaming"
    def funcToCreateSSC(): StreamingContext = {
      val conf = new SparkConf().setAppName("NetCatWordCount")
      conf.setMaster("local[3]")
      val ssc = new StreamingContext(conf, Seconds(1))
      ssc.checkpoint(checkpointDirectory)
      ssc
    }
    val ssc = StreamingContext.getOrCreate(checkpointDirectory, funcToCreateSSC)
    val numStreams = 2
    val streams = (1 to numStreams).map(i => ssc.socketTextStream("localhost", 9999))
    val lines = ssc.union(streams)
    lines.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

以上代码是错误的，因为停掉Driver后再次重启，将无法启动，解决办法是将streams的操作放到funcToCreateSSC函数里，ssc返回前

object SparkStreamingCheckpointEnabledTest {
  def process(streams: Seq[DStream[String]], ssc: StreamingContext) {
    val lines = ssc.union(streams)
    lines.print
  }

  def main(args: Array[String]) {
    val checkpointDirectory = "file:///d:/data/chk_streaming"
    def funcToCreateSSC(): StreamingContext = {
      val conf = new SparkConf().setAppName("NetCatWordCount")
      conf.setMaster("local[3]")
      val ssc = new StreamingContext(conf, Seconds(1))
      ssc.checkpoint(checkpointDirectory)
      val numStreams = 2
      val streams = (1 to numStreams).map(i => ssc.socketTextStream("localhost", 9999))
      process(streams, ssc)
      ssc
    }
    val ssc = StreamingContext.getOrCreate(checkpointDirectory, funcToCreateSSC)
    ssc.start()
    ssc.awaitTermination()
  }
}

查看图片附件

分享到：

【Spark101】Scala Promise/Future在Spark ... | 【Spark九十九】Spark Streaming的batch ...

2015-06-06 12:22
浏览 6178
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Spark100】Spark Streaming Checkpoint的一个坑

Streaming

Spark Streaming Checkpoint的一个坑

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Spark100】Spark Streaming Checkpoint的一个坑

Streaming

Spark Streaming Checkpoint的一个坑

评论

发表评论

相关推荐

【Spark109】Windows上运行spark-shell

【Spark108】Spark SQL动态代码生成四

【Spark107】Spark SQL动态代码生成三

【Spark106】Spark SQL动态代码生成二

【Spark105】Spark SQL动态代码生成一

【Spark105】Spark任务调度

【Spark104】Spark源代码构建打包

【Spark103】Task not serializable

【Spark102】Spark存储模块BlockManager剖析

【Spark101】Scala Promise/Future在Spark中的应用

【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析

【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析

【Spark九十七】RDD API之aggregateByKey

【Spark九十六】RDD API之combineByKey

【Spark九十五】Spark Shell操作Spark SQL

【Spark九十四】spark-sql工具的使用

【Spark九十三】Spark读写Sequence File

【Spark九十二】Spark SQL操作Parquet格式的数据

【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题

【Spark九十】Spark定义计算逻辑函数最佳实践

最近访客更多访客>>