`
bit1129
  • 浏览: 1067773 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【Spark三十八】Spark Checkpoint机制

 
阅读更多

SparkContext中对于checkpoint的操作

 

  def runJob[T, U: ClassTag](
      rdd: RDD[T],
      func: (TaskContext, Iterator[T]) => U,
      partitions: Seq[Int],
      allowLocal: Boolean,
      resultHandler: (Int, U) => Unit) {
    if (dagScheduler == null) {
      throw new SparkException("SparkContext has been shutdown")
    }
    val callSite = getCallSite
    val cleanedFunc = clean(func)
    logInfo("Starting job: " + callSite.shortForm)
    dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allowLocal,
      resultHandler, localProperties.get)
    progressBar.foreach(_.finishAll())
    rdd.doCheckpoint() ///第一次Job执行完成时,将RDD进行checkpoint,注意,此时的RDD是整个Job的最后一个RDD。
  }

 

RDD的doCheckpoint方法

 

  /**
   * Performs the checkpointing of this RDD by saving this. It is called after a job using this RDD
   * has completed (therefore the RDD has been materialized and potentially stored in memory).
   * doCheckpoint() is called recursively on the parent RDDs.
   */
  private[spark] def doCheckpoint() {
    if (!doCheckpointCalled) {
      doCheckpointCalled = true
      if (checkpointData.isDefined) {
        checkpointData.get.doCheckpoint()
      } else {
        dependencies.foreach(_.rdd.doCheckpoint())
      }
    }
  }

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    Spark的checkpoint源码讲解

    Checkpoint 是 Spark 中的一种机制,用于快速恢复应用程序在出现故障时的状态。它可以帮助 Spark 应用从故障中恢复,避免了重新计算的麻烦。Checkpoint 相关源码可以分为四个部分:Checkpoint 的基本使用、初始化的...

    spark batch checkpoint jar

    例如,`sparkConf.set("spark.checkpoint.dir", "hdfs://namenode:port/your_checkpoint_path")`。 4. **优缺点** 优点: - 提高容错性:即使在节点故障后,也能快速恢复到检查点状态,减少数据丢失。 - 节省内存:...

    【SparkCore篇05】RDD缓存和checkpoint1

    本篇文章主要探讨Spark中的RDD缓存和checkpoint机制。 首先,RDD缓存是Spark提升性能的关键特性。通过调用`persist()`或`cache()`方法,我们可以将一个RDD的计算结果存储在内存中,以便后续的操作可以快速访问,...

    Spark-2.3.1源码解读

    Spark的缓存,变量,shuffle数据等清理及机制 Spark-submit关于参数及部署模式的部分解析 GroupByKey VS ReduceByKey OrderedRDDFunctions那些事 高效使用mappartitions standalone模式下executor调度策略 ...

    Spark从入门到精通

    上百节课详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 本课程主要讲解的内容包括:Scala...三、Spark核心编程 四、Spark内核源码深度剖析 五、Spark性能优化 六、Spark SQL 七、Spark Streaming

    《Spark编程基础及项目实践》课后习题及答案3.pdf

    - Checkpoint机制:Spark还可以通过设置检查点将RDD结果持久化到磁盘,以减少故障恢复时的计算量。 这些习题覆盖了Spark的基础知识,包括架构、计算模型、内存管理和容错策略,这对于理解和应用Spark进行大数据...

    七个pdf理解spark系列_6-CacheAndCheckpoint

    GitHub上某位大牛JerryLead对Spark的理解,大量图示,生动形象,总共7个pdf,看完对spark的原理,运行机制以及后续性能调优有很大的帮助,这是第六个pdf,讲述了cache、checkpoint的实现、使用等常见问题

    大数据平台spark组件说明书

    - 容错性:Spark通过checkpoint机制进行容错,可以是数据检查点或更新日志,用户可选择合适的策略。 - 用户友好:Spark提供了Scala, Java, Python的API,还有交互式Shell,增强了易用性。 3. Spark与Hadoop的整合...

    sparkStream-kafka.rar

    7. **Checkpointing**:为了实现容错,Spark Streaming支持checkpoint机制,定期将状态信息写入持久化存储,当作业失败时可以从checkpoint恢复。 8. **资源调度**:在运行Spark Streaming作业时,需要考虑Spark集群...

    Spark一个高效的分布式计算系统

    Spark的容错机制依赖于checkpoint,可以通过数据checkpoint或记录更新来实现。用户可以根据应用需求选择合适的容错策略。Spark的高可用性体现在其提供了Scala、Java和Python等语言的API,以及交互式Shell,使得开发...

    Apache Spark的设计与实现 PDF中文版

    本文档面向的是希望对 Spark 设计与实现机制,以及大数据分布式处理框架深入了解的 Geeks。 因为 Spark 社区很活跃,更新速度很快,本文档也会尽量保持同步,文档号的命名与 Spark 版本一致,只是多了一位,最后一...

    Spark Streaming Programming Guide 笔记

    在理解和应用 Spark Streaming 时,正确配置核心数和接收器的比例、合理使用缓存机制以及适时启用 Checkpoint 都是非常重要的步骤。这些最佳实践有助于构建高效且可靠的实时数据处理系统。通过遵循这些指导原则,...

    Spark分布式内存计算框架视频教程

    9.SparkStreaming Checkpoint 10.消费Kafka偏移量管理 第六章、StructuredStreaming模块 1.StructuredStreaming 概述(核心设计和编程模型) 2.入门案例:WordCount 3.输入源InputSources 4.Streaming Query 设置 5....

    Spark学习笔记三

    本篇笔记主要探讨Spark中的共享变量、RDD持久化、checkpoint机制、运行模式以及任务调度等相关知识点。 1. **共享变量** - **累加器(Accumulator)**:累加器是一种只能增加不能减少的共享变量,常用于统计任务中...

    SparkStreaming与Stom比较

    相比之下,Spark Streaming依赖于Checkpoint和Write-Ahead Log(WAL)机制,在这方面表现一般。 6. **动态调整并行度**:Storm支持动态调整并行度,而Spark Streaming则不支持这一特性。 #### 三、总结 综上所述,...

    spark yarn模式的搭建.docx

    搭建 Spark On Yarn 集群主要涉及三个组件的安装和配置:Zookeeper、Hadoop 和 Spark。下面将详细介绍这三个阶段的搭建过程。 一、Zookeeper 集群搭建 Zookeeper 是一个分布式的、开放源码的分布式应用程序协调服务...

    SparkStreaming之滑动窗口的实现.zip_Spark!_spark stream 窗口_spark streamin

    同时,滑动窗口与检查点(Checkpoint)机制相结合,可以确保在系统故障后能够恢复到一致的状态。 总结一下,Spark Streaming的滑动窗口是实时流处理中的核心组件,它提供了灵活的时间窗口抽象,使开发者能够有效地...

    Big Data Analytics with Spark

    - **容错机制**:利用Spark提供的容错特性,如RDD的持久化和checkpoint机制,增强系统的稳定性。 - **集群资源管理**:合理规划资源分配,避免资源争抢导致性能下降。 - **安全性和隐私保护**:在处理敏感数据时遵循...

    spark Streaming原理和实战

    #### 八、容错机制 - **RDD容错机制**: Spark Streaming基于RDD的Lineage机制,当部分分区丢失时,可以通过计算Lineage信息重新计算得到丢失的数据。 - **数据源容错**: 对于来自外部文件系统(如HDFS)的数据源,...

    精通Spark内核

    精通Spark内核:此阶段聚焦于Spark内核的设计、实现和核心源码解析,对内核中的实现架构、运行原理、性能调优和核心源码各个击破: 1, 通过源码精通Spark内核实现和任务调度; 2,精通RDD、DAGScheduler、Task...

Global site tag (gtag.js) - Google Analytics