spark shuffer介绍，和操作

greemranqq

浏览: 979482 次
性别:
来自: 重庆

最近访客更多访客>>

wyj880303

northenwolf

地方疙瘩人

wuzijingaip

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

spark

spark shuffer shuffer 介绍

一.序言

简单copy下来的，记录一下，翻译有问题请指出。

Shuffle operations

Certain operations within Spark trigger an event known as the shuffle. The shuffle is Spark’s mechanism for re-distributing data so that it’s grouped differently across partitions. This typically involves copying data across executors and machines, making the shuffle a complex and costly operation.

操作 spark 触发的事件里面，包含shuffle，shuffle是spark 通过跨分区操作来新打乱数据的一种方式。

通常会包含 executors和machines 之间拷贝数据，导致shuffle是一件非常昂贵的操作。

Background

To understand what happens during the shuffle we can consider the example of the reduceByKey operation. The reduceByKey operation generates a new RDD where all values for a single key are combined into a tuple - the key and the result of executing a reduce function against all values associated with that key. The challenge is that not all values for a single key necessarily reside on the same partition, or even the same machine, but they must be co-located to compute the result.

要了解shuffle 过程中发生了什么，我们可以参考reduceByKey 的例子。reduceByKey 操作会产生一个新的RDD，并且按key 进行合并到一个tuple(类似:map), 按key 执行reduce函数能得到执行结果。面临的挑战是不是所有的key 都分布在同一个分区，甚至同一台机器。但是他们必须合并才能得到结果。

In Spark, data is generally not distributed across partitions to be in the necessary place for a specific operation. During computations, a single task will operate on a single partition - thus, to organize all the data for a single reduceByKey reduce task to execute, Spark needs to perform an all-to-all operation. It must read from all partitions to find all the values for all keys, and then bring together values across partitions to compute the final result for each key - this is called the shuffle.

在spark里面，数据通常都不跨分区，在一个必要的地方执行具体的操作。在计算期间，一个单一的任务将在单一的分区上操作，因此整理的数据都会在一个 reduceByKey reduce 任务执行。spark 需要去执行所有的这些操作。它必须从所有的分区找到所有的keys，然后汇集这些数据根据每个key进行合并，得到最终结果。这就是shuffle。

Although the set of elements in each partition of newly shuffled data will be deterministic, and so is the ordering of partitions themselves, the ordering of these elements is not. If one desires predictably ordered data following shuffle then it’s possible to use:

mapPartitions to sort each partition using, for example, .sorted
repartitionAndSortWithinPartitions to efficiently sort partitions while simultaneously repartitioning
sortBy to make a globally ordered RDD

尽管shuffled之后每个新的分区的元素在都是确定的，但是这些元素本身是没有顺序的，如果需要获得排序后的shuffle数据，可以使用:

mapPartitions:每个分区使用排序，例如.sorted

repartitionAndSortWithinPartitions:从新分区的时候排序

sortBy to make a globally ordered RDD：做一个全局排序的RDD

Operations which can cause a shuffle include repartition operations like repartition and coalesce, ‘ByKey operations (except for counting) likegroupByKey and reduceByKey, and join operations like cogroup and join.

会导致shuffle操作的分区操作有 repartition and coalesce, “ByKey” 的操作如：groupByKey and reduceByKey, 和 join 操作如： cogroup and join.

0
顶

0
踩

分享到：

snappy,lz4 的对比 | spark-sql应用

2016-09-25 18:36
浏览 3490
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark-2.2.0-yarn-shuffle.jar: spark-2.2.0-yarn-shuffle.jar

MapTask阶段shuffle源码分析: MapTask阶段shuffle源码分析是Hadoop MapReduce框架中一个重要的组件，它负责将Mapper的输出数据进行分区、排序和缓存，以便于后续的Reduce任务处理。在本文中，我们将深入探讨MapTask阶段shuffle源码分析的实现机制...

浅谈Keras中shuffle和validation_split的顺序: 模型的fit函数有两个参数，shuffle用于将数据打乱，validation_split用于在没有提供验证集的时候，按一定比例从训练集中取出一部分作为验证集这里有个陷阱是，程序是先执行validation_split，再执行shuffle的，所以...

PDF-Shuffler-开源: 6. **基于python-pyPdf**：PDF-Shuffler的后台处理依赖于python-pyPdf库，这是一个强大的Python库，提供了读取、写入和操作PDF文件的能力。 7. **开源特性**：作为开源软件，PDF-Shuffler的源代码对公众开放，这...

基于Maxwell设计的经典280W 4025RPM高效率科尔摩根12极39槽TBM无框力矩电机：生产与学习双重应用案例,基于Maxwell设计的经典280W高转速科尔摩根TBM无框力矩电机：7615: 基于Maxwell设计的经典280W 4025RPM高效率科尔摩根12极39槽TBM无框力矩电机：生产与学习双重应用案例,基于Maxwell设计的经典280W高转速科尔摩根TBM无框力矩电机：7615系列案例解析与应用实践,基于maxwwell设计的经典280W，4025RPM 内转子科尔摩根 12极39槽 TBM无框力矩电机，7615系列。该案例可用于生产，或者学习用，（157） ,maxwell设计; 280W; 4025RPM内转子; 科尔摩根; 12极39槽TBM无框力矩电机; 7615系列; 生产/学习用。,基于Maxwell设计，高功率280W 12极39槽TBM无框力矩电机：生产与学习双用途案例

基于碳交易的微网优化模型的Matlab设计与实现策略分析,基于碳交易的微网优化模型的Matlab设计与实现探讨,考虑碳交易的微网优化模型matlab ,考虑碳交易; 微网优化模型; MATLAB;,基: 基于碳交易的微网优化模型的Matlab设计与实现策略分析,基于碳交易的微网优化模型的Matlab设计与实现探讨,考虑碳交易的微网优化模型matlab ,考虑碳交易; 微网优化模型; MATLAB;,基于Matlab的碳交易微网优化模型研究

计算机二级模拟试题1（答案版）: 二级2025模拟试题（答案版）

计算机视觉之：OpenCV项目实战 - C++基础人脸识别（源码+资料）【OpenCV + C++】: OpenCV是一个功能强大的计算机视觉库，它提供了多种工具和算法来处理图像和视频数据。在C++中，OpenCV可以用于实现基础的人脸识别功能，包括从摄像头、图片和视频中识别人脸，以及通过PCA（主成分分析）提取图像轮廓。以下是对本资源大体的介绍： 1. 从摄像头中识别人脸：通过使用OpenCV的Haar特征分类器，我们可以实时从摄像头捕获的视频流中检测人脸。这个过程涉及到将视频帧转换为灰度图像，然后使用预训练的Haar级联分类器来识别人脸区域。 2. 从视频中识别出所有人脸和人眼：在视频流中，除了检测人脸，我们还可以进一步识别人眼。这通常涉及到使用额外的Haar级联分类器来定位人眼区域，从而实现对人脸特征的更细致分析。 3. 从图片中检测出人脸：对于静态图片，OpenCV同样能够检测人脸。通过加载图片，转换为灰度图，然后应用Haar级联分类器，我们可以在图片中标记出人脸的位置。 4. PCA提取图像轮廓：PCA是一种统计方法，用于分析和解释数据中的模式。在图像处理中，PCA可以用来提取图像的主要轮廓特征，这对于人脸识别技术中的面部特征提取尤

麻雀搜索算法（SSA）自适应t分布改进版：卓越性能与优化代码注释，适合深度学习 ,自适应t分布改进麻雀搜索算法（TSSA）-卓越的学习样本，优化效果出众,麻雀搜索算法(SSA)改进-采用自适应t分: 麻雀搜索算法（SSA）自适应t分布改进版：卓越性能与优化代码注释，适合深度学习。,自适应t分布改进麻雀搜索算法（TSSA）——卓越的学习样本，优化效果出众,麻雀搜索算法(SSA)改进——采用自适应t分布改进麻雀位置（TSSA），优化后明显要优于基础SSA（代码基本每一步都有注释，代码质量极高，非常适合学习） ,TSSA（自适应t分布麻雀位置算法）；注释详尽；高质量代码；适合学习；算法改进结果优异；TSSA相比基础SSA。,自适应T分布优化麻雀搜索算法：代码详解与学习首选（TSSA改进版）

锂电池主动均衡Simulink仿真研究：多种均衡策略与电路架构的深度探讨,锂电池主动均衡与多种均衡策略的Simulink仿真研究：buckboost拓扑及多层次电路分析,锂电池主动均衡simulink: 锂电池主动均衡Simulink仿真研究：多种均衡策略与电路架构的深度探讨,锂电池主动均衡与多种均衡策略的Simulink仿真研究：buckboost拓扑及多层次电路分析,锂电池主动均衡simulink仿真四节电池基于buckboost(升降压)拓扑（还有传统电感均衡+开关电容均衡+双向反激均衡+双层准谐振均衡+环形均衡器+cuk+耦合电感）被动均衡电阻式均衡、分层架构式均衡以及分层式电路均衡，多层次电路，充放电。 ,核心关键词：锂电池; 主动均衡; Simulink仿真; 四节电池; BuckBoost拓扑; 传统电感均衡; 开关电容均衡; 双向反激均衡; 双层准谐振均衡; 环形均衡器; CUK均衡; 耦合电感均衡; 被动均衡; 电阻式均衡; 分层架构式均衡; 多层次电路; 充放电。,锂电池均衡策略研究：Simulink仿真下的多拓扑主动与被动均衡技术

S7-1500和分布式外围系统ET200MP模块数据: S7-1500和分布式外围系统ET200MP模块数据

内置式永磁同步电机无位置传感器模型：基于滑膜观测器和MTPA技术的深度探究,内置式永磁同步电机基于滑膜观测器和MTPA的无位置传感器模型研究,基于滑膜观测器和MTPA的内置式永磁同步电机无位置传感器模: 内置式永磁同步电机无位置传感器模型：基于滑膜观测器和MTPA技术的深度探究,内置式永磁同步电机基于滑膜观测器和MTPA的无位置传感器模型研究,基于滑膜观测器和MTPA的内置式永磁同步电机无位置传感器模型 ,基于滑膜观测器;MTPA;内置式永磁同步电机;无位置传感器模型,基于滑膜观测与MTPA算法的永磁同步电机无位置传感器模型

centos7操作系统下安装docker，及docker常用命令、在docker中运行nginx示例: centos7操作系统下安装docker，及docker常用命令、在docker中运行nginx示例，包括 1.设置yum的仓库 2.安装 Docker Engine-Community 3.docker使用 4.查看docker进程是否启动成功 5.docker常用命令及nginx示例 6.常见问题

服务器安装windows8.1orwindows2012r2时候找不到磁盘时的raid卡驱动: 给曙光服务器安装windows2012r2时候找不到磁盘，问厂家工程师要的raid卡驱动，内含主流大多数品牌raid卡驱动

数学建模相关主题资源2: 数学建模相关主题资源2

西门子四轴卧式加工中心后处理系统：828D至840D支持，四轴联动制造解决方案，图档处理与试看程序一应俱全 ,西门子四轴卧加后处理系统：支持828D至840D系统，四轴联动高精度制造解决方案,西门子四: 西门子四轴卧式加工中心后处理系统：828D至840D支持，四轴联动制造解决方案，图档处理与试看程序一应俱全。,西门子四轴卧加后处理系统：支持828D至840D系统，四轴联动高精度制造解决方案,西门子四轴卧加后处理，支持828D~840D系统，支持四轴联动，可制制，看清楚联系，可提供图档处理试看程序 ,核心关键词：西门子四轴卧加后处理; 828D~840D系统支持; 四轴联动; 制程; 联系; 图档处理试看程序。,西门子四轴卧加后处理程序，支持多种系统与四轴联动

MATLAB下基于列约束生成法CCG的两阶段鲁棒优化问题求解入门指南：算法验证与经典文献参考,MATLAB下基于列约束生成法CCG的两阶段鲁棒优化问题求解入门指南：算法验证与文献参考,MATLAB代码: MATLAB下基于列约束生成法CCG的两阶段鲁棒优化问题求解入门指南：算法验证与经典文献参考,MATLAB下基于列约束生成法CCG的两阶段鲁棒优化问题求解入门指南：算法验证与文献参考,MATLAB代码：基于列约束生成法CCG的两阶段问题求解关键词：两阶段鲁棒列约束生成法 CCG算法参考文档：《Solving two-stage robust optimization problems using a column-and-constraint generation method》仿真平台：MATLAB YALMIP+CPLEX 主要内容：代码构建了两阶段鲁棒优化模型，并用文档中的相对简单的算例，进行CCG算法的验证，此篇文献是CCG算法或者列约束生成算法的入门级文献，其经典程度不言而喻，几乎每个搞CCG的两阶段鲁棒的人都绕不过此篇文献 ,两阶段鲁棒;列约束生成法;CCG算法;MATLAB;YALMIP+CPLEX;入门级文献。,MATLAB代码实现：基于两阶段鲁棒与列约束生成法CCG的算法验证研究

“生热研究的全面解读：探究参数已配置的Comsol模型中的18650圆柱锂电池表现”,探究已配置参数的COMSOL模型下的锂电池生热现象：18650圆柱锂电池模拟分析,出一个18650圆柱锂电池com: “生热研究的全面解读：探究参数已配置的Comsol模型中的18650圆柱锂电池表现”,探究已配置参数的COMSOL模型下的锂电池生热现象：18650圆柱锂电池模拟分析,出一个18650圆柱锂电池comsol模型参数已配置，生热研究 ,出模型; 18650圆柱锂电池; comsol模型; 参数配置; 生热研究,构建18650电池的COMSOL热研究模型

移动端多端运行的知识付费管理系统源码，TP6+Layui+MySQL后端支持，功能丰富，涵盖直播、点播、管理全功能及礼物互动,基于UniApp跨平台开发的移动端知识付费管理系统源码：多端互通、全功能齐: 移动端多端运行的知识付费管理系统源码，TP6+Layui+MySQL后端支持，功能丰富，涵盖直播、点播、管理全功能及礼物互动,基于UniApp跨平台开发的移动端知识付费管理系统源码：多端互通、全功能齐备、后端采用TP6与PHP及Layui前端，搭载MySQL数据库与直播、点播、管理、礼物等功能的强大整合。,知识付费管理系统源码，移动端uniApp开发，app h5 小程序一套代码多端运行，后端php（tp6）+layui+MySQL，功能齐全，直播，点播，管理，礼物等等功能应有尽有 ,知识付费;管理系统源码;移动端uniApp开发;多端运行;后端php(tp6);layui;MySQL;直播点播;管理功能;礼物功能,知识付费管理平台：全功能多端运行系统源码（PHP+Layui+MySQL）

基于Python+Django+MySQL的个性化图书推荐系统：协同过滤推荐，智能部署，用户定制功能,基于Python+Django+MySQL的个性化图书推荐系统：协同过滤推荐，智能部署，用户定制功: 基于Python+Django+MySQL的个性化图书推荐系统：协同过滤推荐，智能部署，用户定制功能,基于Python+Django+MySQL的个性化图书推荐系统：协同过滤推荐，智能部署，用户定制功能,Python+Django+Mysql个性化图书推荐系统图书在线推荐系统基于用户、项目、内容的协同过滤推荐算法。帮远程安装部署一、项目简介 1、开发工具和实现技术 Python3.8，Django4，mysql8，navicat数据库管理工具，html页面，javascript脚本，jquery脚本，bootstrap前端框架，layer弹窗组件、webuploader文件上传组件等。 2、项目功能前台用户包含：注册、登录、注销、浏览图书、搜索图书、信息修改、密码修改、兴趣喜好标签、图书评分、图书收藏、图书评论、热点推荐、个性化推荐图书等功能；后台管理员包含：用户管理、图书管理、图书类型管理、评分管理、收藏管理、评论管理、兴趣喜好标签管理、权限管理等。个性化推荐功能：无论是否登录，在前台首页展示热点推荐（根据图书被收藏数量降序推荐）。登录用户，在前台首页展示个性化推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论