Spark cache和checkpoint机制

m635674608

浏览: 5069976 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

spark

1. RDD cache缓存

当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RDD进行的其他动作中重用（不需要重新计算）。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存，是Spark最重要的特征之一。

val rdd = sc.textFile("hdfs://172.23.27.19:9000/wrd/wc/srcdata/").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
rdd.cache()//现在没有缓存
rdd.collect//遇到action开始缓存

.cache()是一个transformation。在job的storage页面也可以看到缓存信息。.unpersist(true)释放这个资源

设置缓存方式
RDD通过persist方法设置。默认的存储级别都是仅在内存存储一份，Spark的存储级别还有好多种，存储级别在object StorageLevel中定义的。
<iframe id="iframe_0.2717513367533684" style="margin: 0px; padding: 0px; border-style: none; border-width: initial; width: 837px; height: 393px;" src="data:text/html;charset=utf8,%3Cstyle%3Ebody%7Bmargin:0;padding:0%7D%3C/style%3E%3Cimg%20id=%22img%22%20src=%22http://i.imgur.com/Er17s5z.png?_=6232826%22%20style=%22border:none;max-width:1214px%22%3E%3Cscript%3Ewindow.onload%20=%20function%20()%20%7Bvar%20img%20=%20document.getElementById('img');%20window.parent.postMessage(%7BiframeId:'iframe_0.2717513367533684',width:img.width,height:img.height%7D,%20'http://www.cnblogs.com');%7D%3C/script%3E" frameborder="0" scrolling="no"></iframe>
可以设置在内存、硬盘、还有份数。

2. checkpoint容错机制

缓存有可能丢失，或者存储存储于内存的数据由于内存不足而被删除。通过基于RDD的一系列转换，丢失的数据会被重算，由于RDD的各个Partition是相对独立的，因此只需要计算丢失的部分即可，并不需要重算全部Partition。
但是，多次迭代后数据丢失的重新计算，会影响这个效率。因此，RDD的缓存容错机制保证了即使缓存丢失也能保证快速的恢复，而不是重新计算。

checkpoint保存的目录是在HDFS目录中，保证了存储的可靠性。

sc.setCheckpointDir("hdfs://master:9000/..")//会在..目录创建一个文件夹
//对象面的rdd设置checkpoint
rdd.checkpoint
rdd.collect

checkpoint和cache一样，是transformation
当遇到action时，checkpoint会启动另一个任务，将数据切割拆分，保存到设置的checkpoint目录中。

在Spark的checkpoint源码中提到，

当使用了checkpoint后，数据被保存到HDFS，此RDD的依赖关系也会丢掉，因为数据已经持久化到硬盘，不需要重新计算。
强烈推荐先将数据持久化到内存中（cache操作），否则直接使用checkpoint会开启一个计算，浪费资源。
<iframe id="iframe_0.7357817601878196" style="margin: 0px; padding: 0px; border-style: none; border-width: initial; width: 767px; height: 57px;" src="data:text/html;charset=utf8,%3Cstyle%3Ebody%7Bmargin:0;padding:0%7D%3C/style%3E%3Cimg%20id=%22img%22%20src=%22http://i.imgur.com/a9funV8.png?_=6232826%22%20style=%22border:none;max-width:1214px%22%3E%3Cscript%3Ewindow.onload%20=%20function%20()%20%7Bvar%20img%20=%20document.getElementById('img');%20window.parent.postMessage(%7BiframeId:'iframe_0.7357817601878196',width:img.width,height:img.height%7D,%20'http://www.cnblogs.com');%7D%3C/script%3E" frameborder="0" scrolling="no"></iframe>

http://www.cnblogs.com/wangrd/p/6232826.html

分享到：

Spark性能优化指南——基础篇 | spark使用总结

2017-05-26 18:27
浏览 1092
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论