`
功夫小当家
  • 浏览: 186800 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

spark - RDD持久化

阅读更多

1.RDD的cache和persist

  • cache:存储级别是MEMORY_ONLY的, 是个transformation,是lazy的,只有触发了action,才会真正执行(spark sql中的cache是立刻执行的)
  • persist:可以指定存储级别
  • spark使用lru算法移除过期的cache数据,用户也可以手动取消序列化:unpersist(立即执行,不是lazy的)

2.存储级别StorageLevel

(1)存储级别有哪些?


 

(2) 如何选择存储级别

存储方式 描述 资源占用 适用场景
MEMORY_ONLY 内存,反序列化 内存占用大 内存资源充足(默认推荐)
MEMORY_ONLY_SER 内存,序列化 节省内存,单耗费cpu 内存资源不充足
磁盘 溢写到磁盘 占磁盘,速度慢 内存放不下(不推荐)

 

官网的描述:



 

 

 

  • 大小: 7.8 KB
  • 大小: 20 KB
  • 大小: 49.4 KB
分享到:
评论

相关推荐

    spark Core RDD持久化详解

    Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点...

    spark3.0入门到精通

    ├─Spark-day01 │ 01-[了解]-Spark发展历史和特点介绍.mp4 │ 03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 ...│ 10-[掌握]-RDD的缓存-持久化.mp4 │ 15-[了解]-外部数据源-操作JDBC-读.mp4

    playing-with-spark-rdd:Apache Spark RDD示例

    7. **持久化**:通过`persist()`或`cache()`方法,你可以缓存RDD以供后续使用,提高数据复用的效率。 8. **错误恢复**:RDD的血统(lineage)使得Spark能够通过重新计算丢失的分区来恢复数据,这是Spark高容错性的...

    spark-rdd-sample1

    7. **持久化与缓存**:RDD可以通过`cache()`或`persist()`方法缓存,以提高后续操作的效率。默认使用内存缓存,也可选择磁盘或同时使用内存和磁盘。 8. **错误恢复**:RDD的容错机制基于血统(Lineage),如果某个...

    spark-2.1.2-bin-hadoop2.6.tgz

    - **容错性**:理解Spark的容错机制,如RDD持久化和检查点,确保任务的可靠执行。 - **性能优化**:利用数据分区、宽依赖优化、广播变量等手段提升Spark应用的性能。 以上就是关于"spark-2.1.2-bin-hadoop2.6.tgz...

    A-Deeper-Understanding-of-Spark-Internals-Aaron-Davidson

    - **RDD缓存**:用户可以通过调用`cache()`或`persist()`方法将RDD持久化在内存中,这样在后续的操作中可以直接使用已缓存的数据而无需重复计算。 - **RDD级别**:Spark提供了多个缓存级别供用户选择,可以根据不同...

    Spark-Core学习知识笔记整理

    2.6RDD持久化操作 21 2.7注意事项 23 2.7并行度调优 24 2.8分区方式 25 3Examle:PageRank 27 第四章 Spark编程进阶 29 1共享变量 29 1.1累加器 30 1.2广播变量 31 2基于分区进行操作 32 3与外部程序间的管道 33 4...

    advanced-spark-training.pdf

    5. **结果输出**:将计算结果输出到外部系统或持久化到磁盘。 6. **资源回收**:关闭`SparkContext`,释放资源。 #### 六、性能调试 - **监控工具**:利用Spark自带的UI或者第三方工具如Ganglia, Graphite等监控...

    Spark-master

    Spark的容错机制主要依赖于检查点和数据持久化。如果Executor或Worker节点故障,Spark能够重新计算丢失的RDD分区,确保任务的正确执行。此外,Spark的应用程序可以通过Web UI监控,该UI提供了关于任务状态、内存使用...

    spark-core-1.zip

    最后,"第36讲-Spark核心编程:RDD持久化详解.zip"讲解了RDD的持久化机制。RDD持久化允许我们将中间结果缓存到内存或磁盘,以避免重复计算,提高整体性能。Spark支持多种持久化级别,如MEMORY_ONLY、MEMORY_AND_DISK...

    Spark 2.0.2 Spark 2.2 中文文档 本资源为网页,不是PDF

    RDD 持久化 共享变量 Broadcast Variables (广播变量) Accumulators (累加器) 部署应用到集群中 使用 Java / Scala 运行 spark Jobs 单元测试 Spark 1.0 版本前的应用程序迁移 下一步 Spark Streaming...

    spark-core-2.zip

    在Spark中,数据缓存是一个重要的特性,通过使用persist或cache方法,RDD可以在内存中被持久化,加速后续的反复使用。另外,Spark支持多种存储级别,如仅内存、内存和磁盘混合,甚至可以序列化为二进制以节省空间。 ...

    Spark-strem 中文文档

    - **持久化(Persistence)**: 为了提高性能,可以将RDD缓存在内存或磁盘上。 #### 共享变量 - **广播变量**: 广播变量是在所有工作节点之间共享的大只读变量,用于避免在各个任务中重复发送相同数据。 - **累加器**...

    大数据基本要素HDFS MapReduce-and-Spark-RDD

    5. **多模式支持**:除了内存计算,Spark还支持磁盘存储和持久化,适应不同场景。 Spark与MapReduce相比,更适用于交互式分析和迭代计算,如机器学习和图形处理。Spark提供了DataFrame和Dataset API,使得开发更加...

    spark-2.4.3源码

    `org.apache.spark.storage.RDDInfo`和`org.apache.spark.storage.StorageLevel`等类展示了如何实现数据的持久化和容错。 5. **网络通信**:Spark使用Tachyon进行数据传输,`org.apache.spark.network`包包含了网络...

    spark-programming-guide(Spark 编程指南)-高清文字版

    - **RDD持久化**:介绍如何通过缓存或持久化机制来提高RDD的性能,减少重复计算的时间。 - **共享变量**:说明在Spark中如何使用广播变量和累加器来优化性能和管理状态。 #### 三、Spark Streaming - **一个快速的...

    spark-2.2.1.tar.gz 源码

    内存管理采用Tachyon或HDFS作为持久化存储,容错机制基于检查点和事件日志。 - **Spark SQL**:提供了DataFrame API,它是一种抽象的数据集合,可以视为分布式的行式数据库。DataFrame支持跨语言API,与Hive、...

    Spark-存储机制.pdf

    #### RDD持久化 - **分区与数据块映射**: - 每个RDD具有独立的ID,每个分区有自己的索引号。 - 使用“RDD ID + 分区索引号”的组合作为数据块的名称,实现分区与数据块间的映射。 - **数据块ID**: - 在同一...

    spark-face-embedding-源码.rar

    Spark支持模型的持久化,使得在多轮迭代或服务部署时能够快速加载模型。在生产环境中,可能还会涉及到将模型封装为RESTful服务,供其他系统调用。 7. **测试与评估** 源码中应该包含了测试代码,用于验证模型的...

Global site tag (gtag.js) - Google Analytics