spark-学习笔记--8 RDD持久化 - 杨中磊的博客 - ITeye博客

`

05rjyzl11

浏览: 145810 次
性别:
来自: 北京

最近访客更多访客>>

breezylee

laopo521anping

wolfwell

gzjhqh

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

isaiah282485068：怎么不出书出来啊，市场上好却这方面的书啊
mule in action翻译1 : 第一部分 mule 核心

spark-学习笔记--8 RDD持久化

博客分类：

spark

阅读更多

spark-学习笔记--8 RDD持久化

执行action时触发执行前面定义的 transformation ，但前面的RDD 执行完就释放了并不保存数据。

下次再执行 action时会导致上次定义的RDD会重新计算数据。

RDD持久化运行保存 RDD数据--保存到内存、磁盘等

persist()或cache()方法

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */

def cache(): JavaRDD[T] = wrapRDD(rdd.cache())

缓存的RDD 是容错的

MEMORY_ONLY_2 对于上述任意一种持久化策略，如果加上后缀_2，代表的是将每个持久化的数据，都复制一份副本，并将副本保存到其他节点上

上面右侧日志是使用了 .cache() ，会看到被缓存到内存日志

上面日志右侧是使用 .cache()的

一个程序里第二次调用rdd的 count() 方法，左边不cache会重新读取数据右边从本地缓存读取

查看图片附件

分享到：

Spark-学习笔记--9 共享变量 | spark-学习笔记--7 tranformation and a ...

2018-10-31 11:18
浏览 402
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Spark-Core学习知识笔记整理: 2.6RDD持久化操作 21 2.7注意事项 23 2.7并行度调优 24 2.8分区方式 25 3Examle:PageRank 27 第四章 Spark编程进阶 29 1共享变量 29 1.1累加器 30 1.2广播变量 31 2基于分区进行操作 32 3与外部程序间的管道 33 4...

spark笔记整理文档: 通过检查点和持久化策略，Spark能够在节点故障时恢复状态。此外，动态资源调度可以根据集群资源变化调整Executor数量。 9. Spark SQL与Hive集成： Spark SQL可以直接读取Hive Metastore中的表，使得Hive用户可以...

Spark学习笔记三: 本篇笔记主要探讨Spark中的共享变量、RDD持久化、checkpoint机制、运行模式以及任务调度等相关知识点。 1. **共享变量** - **累加器（Accumulator）**：累加器是一种只能增加不能减少的共享变量，常用于统计任务中...

spark-source-code-learn-note:火花学习笔记-spark source code: 《Spark源码学习笔记》是针对大数据处理框架Spark进行深入研究的资料，主要涵盖了Spark的核心设计理念、架构原理以及源码解析。本笔记旨在帮助读者理解Spark如何高效地处理大规模数据，提升数据分析和处理的能力。 ...

大数据学习笔记: - 支持缓存：可以将RDD持久化在内存中以加速后续的迭代计算。 - 支持各种数据类型：可以存储任何类型的数据。 - **2.2 MapReduce数据分享效率低** - **问题说明**：在MapReduce中，每次作业都需要从磁盘加载数据...

大数据Spark_带有视屏_以及笔记_全面: - **持久化**：用户可以选择将RDD缓存在内存或磁盘中，以供后续重复使用。 #### 四、DataFrame与Dataset - **DataFrame**：DataFrame是RDD的一个高级接口，它代表了一个结构化的数据集。DataFrame提供了一个类似于...

Spark学习笔记—Spark计算模型: 一.弹性分布式数据集-RDD RDD是Spark核心数据结构...从hadoop文件系统输入创建如HDFS，也可以是其他与hadoop兼容的持久化存储系统如Hive，Hbase创建。 (2).从父RDD转换得到新的RDD。 (3).调用SparkContext的parallelize

spark源码阅读笔记: - **RDD缓存机制**：Resilient Distributed Datasets (RDDs) 是Spark的核心抽象之一，它支持数据集的持久化，使得中间结果可以存储在内存中供后续任务快速访问。这对于迭代算法特别有用，因为它避免了重复计算相同...

RoadOfStudySpark:Spark 学习之路，包含 Spark Core，Spark SQL，Spark Streaming，Spark mllib 学习笔记: 《Spark学习之旅：Spark Core、Spark SQL、Spark Streaming与Spark MLlib深度解析》 Spark作为大数据处理领域的重要框架，以其高效、易用和模块化的设计赢得了广泛的赞誉。本资料集"RoadOfStudySpark"深入探讨了...

spark-2.1.1:spark原始物走读注解解: RDD的血统信息用于在失败时重新计算丢失的分区，而持久化的RDD可以通过检查点避免从头开始计算。 8. **性能优化**：包括减少shuffle操作、优化数据分区、合理设置executor内存和核心数、使用broadcast变量和cache等...

sparknote:spark学习笔记: Spark的性能优化包括：内存管理（例如Tungsten项目引入的列式存储和编码优化）、缓存策略（如使用持久化RDD以避免重复计算）、并行度调整（Task和Executor的数量）、shuffle操作的优化（减少网络传输和磁盘I/O）以及...

Python学习笔记——大数据之SPARK核心: 【Python学习笔记——大数据之SPARK核心】 Spark作为大数据处理框架的核心在于其Resilient Distributed Datasets（RDD），这是一种弹性分布式数据集。RDD是Spark设计的基石，它将大量数据分布在多台机器上，可以...

learing sprak: 在学习RDD的过程中，读者将了解到如何通过Spark传递函数、执行转换和动作，以及如何持久化RDD以优化性能。在处理键值对（Pair RDDs）方面，本书深入讲解了它们的重要性，展示了如何创建Pair RDDs，以及在Pair RDDs...

kafka知识总结: - **持久性**：Kafka将消息持久化至磁盘，并支持长时间的数据保留。 - **容错性**：Kafka能够在节点故障时保证消息的完整性，且能够快速恢复。 - **应用场景**： - **日志收集**：Kafka可以作为一个集中式的日志...

大数据培训视频网盘永久有效: Kafka作为一个消息队列，可以高效地处理大量实时数据，支持发布/订阅模式，并能持久化消息。在大数据场景中，Kafka常用于日志聚合、实时数据流处理和数据集成。学习Kafka，你需要掌握其生产者、消费者模型，理解...

Sparks-foundation-Internship-Task_1: 3. **Action**：如`collect`、`count`和`saveAsTextFile`，它们触发实际的计算并返回结果或写入数据到持久化存储。 4. **SparkContext**：是Spark程序的入口点，负责与Spark集群建立连接，并管理所有的资源。 5. **...

Java最全的架构笔记（共六百多页）.zip: 4. **中间件系列**：深入解析了消息队列（如RabbitMQ和Kafka）的使用，数据持久化（如MySQL和MongoDB），搜索引擎（如Elasticsearch）和分布式配置中心（如Apollo和Config Server）。 5. **面试必备系列**：涵盖了...

Global site tag (gtag.js) - Google Analytics