spark - RDD持久化 - - ITeye博客

`

功夫小当家

浏览: 186800 次
性别:
来自: 北京

最近访客更多访客>>

aotianji1238

mangyulin

benleewindy

pengfei1410

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

一碗单炒饭：正需要，谢谢
清除eclipse中 Launch configuration的历史记录
heweina2007：非常有用。谢谢！
清除eclipse中 Launch configuration的历史记录
功夫小当家：这个也不好用了吗？之前这个办法，我这里可以解决，那你现在的办法 ...
INSTALL_FAILED_UID_CHANGED解决办法
ziyue137：设置----->安全----->未知来源，这个没有 ...
INSTALL_FAILED_UID_CHANGED解决办法
zfc645486908：您好，感谢你写这篇技术文章，对我帮助很大，刚好用到，但是我需要 ...
Android中如何把bitmap存成BMP格式的图片

spark - RDD持久化

博客分类：

spark

spark rdd持久化

阅读更多

1.RDD的cache和persist

cache：存储级别是MEMORY_ONLY的，是个transformation，是lazy的，只有触发了action，才会真正执行(spark sql中的cache是立刻执行的)
persist：可以指定存储级别
spark使用lru算法移除过期的cache数据，用户也可以手动取消序列化：unpersist（立即执行，不是lazy的）

2.存储级别StorageLevel

（1）存储级别有哪些？

（2）如何选择存储级别

存储方式	描述	资源占用	适用场景
MEMORY_ONLY	内存，反序列化	内存占用大	内存资源充足（默认推荐）
MEMORY_ONLY_SER	内存，序列化	节省内存，单耗费cpu	内存资源不充足
磁盘	溢写到磁盘	占磁盘，速度慢	内存放不下（不推荐）

官网的描述：

查看图片附件

分享到：

spark - 宽依赖和窄依赖 | spark - 启动优化之参数spark.yarn.archive ...

2018-03-21 13:37
浏览 632
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark Core RDD持久化详解: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点...

spark3.0入门到精通: ├─Spark-day01 │ 01-[了解]-Spark发展历史和特点介绍.mp4 │ 03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 ...│ 10-[掌握]-RDD的缓存-持久化.mp4 │ 15-[了解]-外部数据源-操作JDBC-读.mp4

playing-with-spark-rdd:Apache Spark RDD示例: 7. **持久化**：通过`persist()`或`cache()`方法，你可以缓存RDD以供后续使用，提高数据复用的效率。 8. **错误恢复**：RDD的血统（lineage）使得Spark能够通过重新计算丢失的分区来恢复数据，这是Spark高容错性的...

spark-rdd-sample1: 7. **持久化与缓存**：RDD可以通过`cache()`或`persist()`方法缓存，以提高后续操作的效率。默认使用内存缓存，也可选择磁盘或同时使用内存和磁盘。 8. **错误恢复**：RDD的容错机制基于血统（Lineage），如果某个...

spark-2.1.2-bin-hadoop2.6.tgz: - **容错性**：理解Spark的容错机制，如RDD持久化和检查点，确保任务的可靠执行。 - **性能优化**：利用数据分区、宽依赖优化、广播变量等手段提升Spark应用的性能。以上就是关于"spark-2.1.2-bin-hadoop2.6.tgz...

A-Deeper-Understanding-of-Spark-Internals-Aaron-Davidson: - **RDD缓存**：用户可以通过调用`cache()`或`persist()`方法将RDD持久化在内存中，这样在后续的操作中可以直接使用已缓存的数据而无需重复计算。 - **RDD级别**：Spark提供了多个缓存级别供用户选择，可以根据不同...

Spark-Core学习知识笔记整理: 2.6RDD持久化操作 21 2.7注意事项 23 2.7并行度调优 24 2.8分区方式 25 3Examle:PageRank 27 第四章 Spark编程进阶 29 1共享变量 29 1.1累加器 30 1.2广播变量 31 2基于分区进行操作 32 3与外部程序间的管道 33 4...

advanced-spark-training.pdf: 5. **结果输出**：将计算结果输出到外部系统或持久化到磁盘。 6. **资源回收**：关闭`SparkContext`，释放资源。 #### 六、性能调试 - **监控工具**：利用Spark自带的UI或者第三方工具如Ganglia, Graphite等监控...

Spark-master: Spark的容错机制主要依赖于检查点和数据持久化。如果Executor或Worker节点故障，Spark能够重新计算丢失的RDD分区，确保任务的正确执行。此外，Spark的应用程序可以通过Web UI监控，该UI提供了关于任务状态、内存使用...

spark-core-1.zip: 最后，"第36讲-Spark核心编程：RDD持久化详解.zip"讲解了RDD的持久化机制。RDD持久化允许我们将中间结果缓存到内存或磁盘，以避免重复计算，提高整体性能。Spark支持多种持久化级别，如MEMORY_ONLY、MEMORY_AND_DISK...

Spark 2.0.2 Spark 2.2 中文文档本资源为网页，不是PDF: RDD 持久化共享变量 Broadcast Variables （广播变量） Accumulators （累加器）部署应用到集群中使用 Java / Scala 运行 spark Jobs 单元测试 Spark 1.0 版本前的应用程序迁移下一步 Spark Streaming...

spark-core-2.zip: 在Spark中，数据缓存是一个重要的特性，通过使用persist或cache方法，RDD可以在内存中被持久化，加速后续的反复使用。另外，Spark支持多种存储级别，如仅内存、内存和磁盘混合，甚至可以序列化为二进制以节省空间。 ...

Spark-strem 中文文档: - **持久化(Persistence)**: 为了提高性能，可以将RDD缓存在内存或磁盘上。 #### 共享变量 - **广播变量**: 广播变量是在所有工作节点之间共享的大只读变量，用于避免在各个任务中重复发送相同数据。 - **累加器**...

大数据基本要素HDFS MapReduce-and-Spark-RDD: 5. **多模式支持**：除了内存计算，Spark还支持磁盘存储和持久化，适应不同场景。 Spark与MapReduce相比，更适用于交互式分析和迭代计算，如机器学习和图形处理。Spark提供了DataFrame和Dataset API，使得开发更加...

spark-2.4.3源码: `org.apache.spark.storage.RDDInfo`和`org.apache.spark.storage.StorageLevel`等类展示了如何实现数据的持久化和容错。 5. **网络通信**：Spark使用Tachyon进行数据传输，`org.apache.spark.network`包包含了网络...

spark-programming-guide（Spark 编程指南）-高清文字版: - **RDD持久化**：介绍如何通过缓存或持久化机制来提高RDD的性能，减少重复计算的时间。 - **共享变量**：说明在Spark中如何使用广播变量和累加器来优化性能和管理状态。 #### 三、Spark Streaming - **一个快速的...

spark-2.2.1.tar.gz 源码: 内存管理采用Tachyon或HDFS作为持久化存储，容错机制基于检查点和事件日志。 - **Spark SQL**：提供了DataFrame API，它是一种抽象的数据集合，可以视为分布式的行式数据库。DataFrame支持跨语言API，与Hive、...

Spark-存储机制.pdf: #### RDD持久化 - **分区与数据块映射**: - 每个RDD具有独立的ID，每个分区有自己的索引号。 - 使用“RDD ID + 分区索引号”的组合作为数据块的名称，实现分区与数据块间的映射。 - **数据块ID**: - 在同一...

spark-face-embedding-源码.rar: Spark支持模型的持久化，使得在多轮迭代或服务部署时能够快速加载模型。在生产环境中，可能还会涉及到将模型封装为RESTful服务，供其他系统调用。 7. **测试与评估** 源码中应该包含了测试代码，用于验证模型的...

Global site tag (gtag.js) - Google Analytics