spark-学习笔记--7 tranformation and action
tranformation: 针对已有的RDD创建新的 RDD
action : 对 RDD 做最后操作 :遍历、reduce 、保存文件等 并可以返回结果给 Driver
tranformation 是 lazy的 执行了action操作才触发tranformation的执行
action 会触发一个 spark job的运行 而触发之前所有的transformation的 执行
常见 transformation:
map: 将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDD
filter: 对RDD的每个元素进行判断,如果返回true则保留,返回false则剔除
flatMap: 与map类似。但是对于一个元素返回一个或多个元素
groupByKey:根据key进行分组,每个key对应一个Iterable<value>
reduceByKey: 对每个key对应的value进行reduce操作
sortByKey: 对每个key对应的value进行排序操作
join:对两个包含<key,value> 对应的RDD进行join操作,
每个key join上的pair 都会传入自定义的函数进行处理
cogroup: 同join 但是每个key对应的Iterable<value> 都会传入自定义的函数进行处理
常见actioin:
reduce: 将RDD中的所有元素进行聚合操作,第一个和第二个元素聚合,值与第三个元素聚合
值与第四个元素聚合,一次类推
collet: 将RDD中的元素获取到本地客户端
count: 获取RDD元素总数
take(n) : 获取RDD中前n个元素
saveAsTextFile: 将RDD元素保存到文件中,对每个元素调用toString方法
countByKey: 对每个key对应的值进行count计数
foreach: 遍历RDD中的元素
相关推荐
HWST代表“分层分水岭变换”,它是一种图像分割技术。 HWST库旨在作为JAI操作员(Java Advanced Imaging)轻松使用。
DBlocksReduce(k+7*Dnum,:,:)=imrotate(reshape(DBlocksReduce(k,:,:),Sr,Sr),270); % 逆时针旋转270度 DBlocks(k,:,:)=Image1((i-1)*Sd+1:i*Sd,(j-1)*Sd+1:j*Sd); end end RandDbest=zeros(Rnum,1)+256^...
后放松单元 :custard: 英文doc | Postcss-relaxed-unit是用于单位转换的postcss插件,使用自定义单位可以更轻松地编写CSS。 您可以定义一个规则来确定自定义单位和目标单位之间的映射关系,并且可以使用一些运算符...
Also, the theory and results sections of the written document. Appendix: Behind the Scenes Math cp2tform() uses matrix mathematics to perform its tranformation. For an ‘affine’ transformation, ...
通过对《Informatica PowerCenter 8 Level I Developer Student Guide》的学习,我们不仅了解了Informatica PowerCenter 的基础架构和关键组件,还掌握了其开发流程和常见应用场景。对于初学者来说,这份文档是一个...
Vermouth(适用于VERsatile,Moddular和Universal Tranformation Helper)是为Martinize2提供支持的python库。 它允许使用图算法描述并应用分子结构和拓扑的转换。 免责声明 Martinize2和Vermouth正在开发中。 到...
快速傅里叶变 (Fast Fourier Tranformation,FFT)是将一个大点数N的DFT分解为若干小点的D F T的组合。将用运算工作量明显降低, 从而大大提高离散傅里叶变换(D F T) 的计算速度。因各个科学技术领域广泛的使用了FFT ...
画架 是一个使用加载 、显示...Scale (Container) ## ALL the tranformation layers are containers better use group layer Translate (Container) Rotate (Container) Zoom (Container) Stretch (Container) Timeloop