`

spark-学习笔记--8 RDD持久化

 
阅读更多

spark-学习笔记--8   RDD持久化

 

 

执行action时 触发执行前面定义的 transformation  ,但前面的RDD 执行完就释放了并不保存数据。

下次再执行 action时会导致上次定义的RDD会重新计算数据。

 

RDD持久化运行保存 RDD数据--保存到内存、磁盘等

 

 

 

persist()或cache()方法

 

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */

def cache(): JavaRDD[T] = wrapRDD(rdd.cache())

  

  

  

缓存的RDD 是容错的 

 

 

MEMORY_ONLY_2   对于上述任意一种持久化策略,如果加上后缀_2,代表的是将每个持久化的数据,都复制一份副本,并将副本保存到其他节点上

 

 



 上面右侧日志是 使用了  
.cache()  , 会看到被缓存到内存日志

 

 

 

 



 上面日志右侧是使用 
.cache()的 

一个程序里 第二次 调用rdd的 count() 方法 ,左边不cache会重新读取数据    右边从本地缓存读取

 

 

  • 大小: 90.9 KB
  • 大小: 47.5 KB
分享到:
评论

相关推荐

    Spark-Core学习知识笔记整理

    2.6RDD持久化操作 21 2.7注意事项 23 2.7并行度调优 24 2.8分区方式 25 3Examle:PageRank 27 第四章 Spark编程进阶 29 1共享变量 29 1.1累加器 30 1.2广播变量 31 2基于分区进行操作 32 3与外部程序间的管道 33 4...

    spark笔记整理文档

    通过检查点和持久化策略,Spark能够在节点故障时恢复状态。此外,动态资源调度可以根据集群资源变化调整Executor数量。 9. Spark SQL与Hive集成: Spark SQL可以直接读取Hive Metastore中的表,使得Hive用户可以...

    Spark学习笔记三

    本篇笔记主要探讨Spark中的共享变量、RDD持久化、checkpoint机制、运行模式以及任务调度等相关知识点。 1. **共享变量** - **累加器(Accumulator)**:累加器是一种只能增加不能减少的共享变量,常用于统计任务中...

    spark-source-code-learn-note:火花学习笔记-spark source code

    《Spark源码学习笔记》是针对大数据处理框架Spark进行深入研究的资料,主要涵盖了Spark的核心设计理念、架构原理以及源码解析。本笔记旨在帮助读者理解Spark如何高效地处理大规模数据,提升数据分析和处理的能力。 ...

    大数据学习笔记

    - 支持缓存:可以将RDD持久化在内存中以加速后续的迭代计算。 - 支持各种数据类型:可以存储任何类型的数据。 - **2.2 MapReduce数据分享效率低** - **问题说明**:在MapReduce中,每次作业都需要从磁盘加载数据...

    大数据Spark_带有视屏_以及笔记_全面

    - **持久化**:用户可以选择将RDD缓存在内存或磁盘中,以供后续重复使用。 #### 四、DataFrame与Dataset - **DataFrame**:DataFrame是RDD的一个高级接口,它代表了一个结构化的数据集。DataFrame提供了一个类似于...

    Spark学习笔记—Spark计算模型

    一.弹性分布式数据集-RDD RDD是Spark核心数据结构...从hadoop文件系统输入创建如HDFS,也可以是其他与hadoop兼容的持久化存储系统如Hive,Hbase创建。 (2).从父RDD转换得到新的RDD。 (3).调用SparkContext的parallelize

    spark源码阅读笔记

    - **RDD缓存机制**:Resilient Distributed Datasets (RDDs) 是Spark的核心抽象之一,它支持数据集的持久化,使得中间结果可以存储在内存中供后续任务快速访问。这对于迭代算法特别有用,因为它避免了重复计算相同...

    RoadOfStudySpark:Spark 学习之路,包含 Spark Core,Spark SQL,Spark Streaming,Spark mllib 学习笔记

    《Spark学习之旅:Spark Core、Spark SQL、Spark Streaming与Spark MLlib深度解析》 Spark作为大数据处理领域的重要框架,以其高效、易用和模块化的设计赢得了广泛的赞誉。本资料集"RoadOfStudySpark"深入探讨了...

    spark-2.1.1:spark原始物走读注解解

    RDD的血统信息用于在失败时重新计算丢失的分区,而持久化的RDD可以通过检查点避免从头开始计算。 8. **性能优化**:包括减少shuffle操作、优化数据分区、合理设置executor内存和核心数、使用broadcast变量和cache等...

    sparknote:spark学习笔记

    Spark的性能优化包括:内存管理(例如Tungsten项目引入的列式存储和编码优化)、缓存策略(如使用持久化RDD以避免重复计算)、并行度调整(Task和Executor的数量)、shuffle操作的优化(减少网络传输和磁盘I/O)以及...

    Python学习笔记——大数据之SPARK核心

    【Python学习笔记——大数据之SPARK核心】 Spark作为大数据处理框架的核心在于其Resilient Distributed Datasets(RDD),这是一种弹性分布式数据集。RDD是Spark设计的基石,它将大量数据分布在多台机器上,可以...

    learing sprak

    在学习RDD的过程中,读者将了解到如何通过Spark传递函数、执行转换和动作,以及如何持久化RDD以优化性能。 在处理键值对(Pair RDDs)方面,本书深入讲解了它们的重要性,展示了如何创建Pair RDDs,以及在Pair RDDs...

    kafka知识总结

    - **持久性**:Kafka将消息持久化至磁盘,并支持长时间的数据保留。 - **容错性**:Kafka能够在节点故障时保证消息的完整性,且能够快速恢复。 - **应用场景**: - **日志收集**:Kafka可以作为一个集中式的日志...

    大数据培训视频网盘 永久有效

    Kafka作为一个消息队列,可以高效地处理大量实时数据,支持发布/订阅模式,并能持久化消息。在大数据场景中,Kafka常用于日志聚合、实时数据流处理和数据集成。学习Kafka,你需要掌握其生产者、消费者模型,理解...

    Sparks-foundation-Internship-Task_1

    3. **Action**:如`collect`、`count`和`saveAsTextFile`,它们触发实际的计算并返回结果或写入数据到持久化存储。 4. **SparkContext**:是Spark程序的入口点,负责与Spark集群建立连接,并管理所有的资源。 5. **...

    Java最全的架构笔记(共六百多页).zip

    4. **中间件系列**:深入解析了消息队列(如RabbitMQ和Kafka)的使用,数据持久化(如MySQL和MongoDB),搜索引擎(如Elasticsearch)和分布式配置中心(如Apollo和Config Server)。 5. **面试必备系列**:涵盖了...

Global site tag (gtag.js) - Google Analytics