Spark与Flink：对比与分析

m635674608

浏览: 5060833 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

分布式计算

Spark是一种快速、通用的计算集群系统，Spark提出的最主要抽象概念是弹性分布式数据集(RDD)，它是一个元素集合，划分到集群的各个节点上，可以被并行操作。用户也可以让Spark保留一个RDD在内存中，使其能在并行操作中被有效的重复使用。Flink是可扩展的批处理和流式数据处理的数据处理平台，设计思想主要来源于Hadoop、MPP数据库、流式计算系统等，支持增量迭代计算。

原理

Spark 1.4特点如下所示：

1.Spark为应用提供了REST API来获取各种信息，包括jobs、stages、tasks、storage info等。
2.Spark Streaming增加了UI，可以方便用户查看各种状态，另外与Kafka的融合也更加深度，加强了对Kinesis的支持。
3.Spark SQL（DataFrame）添加ORCFile类型支持，另外还支持所有的Hive metastore。
4.Spark ML/MLlib的ML pipelines愈加成熟，提供了更多的算法和工具。
5.Tungsten项目的持续优化，特别是内存管理、代码生成、垃圾回收等方面都有很多改进。
6.SparkR发布，更友好的R语法支持。

图1 Spark架构图

图2 Flink架构图

图3 Spark生态系统图

Flink 0.9特点如下所示：
1.DataSet API 支持Java、Scala和Python。
2.DataStream API支持Java and Scala。
3.Table API支持类SQL。
4.有机器学习和图处理（Gelly）的各种库。
5.有自动优化迭代的功能，如有增量迭代。
6.支持高效序列化和反序列化，非常便利。
7.与Hadoop兼容性很好。

图4 Flink生态系统图

分析对比

性能对比

首先它们都可以基于内存计算框架进行实时计算，所以都拥有非常好的计算性能。经过测试，Flink计算性能上略好。

测试环境：
1.CPU：7000个；
2.内存：单机128GB；
3.版本：Hadoop 2.3.0，Spark 1.4，Flink 0.9
4.数据：800MB，8GB，8TB；
5.算法：K-means：以空间中K个点为中心进行聚类，对最靠近它们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。
6.迭代：K=10，3组数据

图5 迭代次数（纵坐标是秒，横坐标是次数）

总结：Spark和Flink全部都运行在Hadoop YARN上，性能为Flink > Spark > Hadoop(MR)，迭代次数越多越明显，性能上，Flink优于Spark和Hadoop最主要的原因是Flink支持增量迭代，具有对迭代自动优化的功能。

流式计算比较

它们都支持流式计算，Flink是一行一行处理，而Spark是基于数据片集合（RDD）进行小批量处理，所以Spark在流式处理方面，不可避免增加一些延时。Flink的流式计算跟Storm性能差不多，支持毫秒级计算，而Spark则只能支持秒级计算。

与Hadoop兼容

计算的资源调度都支持YARN的方式

数据存取都支持HDFS、HBase等数据源。

Flink对Hadoop有着更好的兼容，如可以支持原生HBase的TableMapper和TableReducer，唯一不足是现在只支持老版本的MapReduce方法，新版本的MapReduce方法无法得到支持，Spark则不支持TableMapper和TableReducer这些方法。

SQL支持

都支持，Spark对SQL的支持比Flink支持的范围要大一些，另外Spark支持对SQL的优化，而Flink支持主要是对API级的优化。

计算迭代

delta-iterations，这是Flink特有的，在迭代中可以显著减少计算，图6、图7、图8是Hadoop(MR)、Spark和Flink的迭代流程。

图6 Hadoop（MR）迭代流程

图7 Spark迭代流程

图8 Flink迭代流程

Flink自动优化迭代程序具体流程如图9所示。

图9 Flink自动优化迭代程序具体流程

社区支持

Spark社区活跃度比Flink高很多。

总结

Spark和Flink都支持实时计算，且都可基于内存计算。Spark后面最重要的核心组件仍然是Spark SQL，而在未来几次发布中，除了性能上更加优化外（包括代码生成和快速Join操作），还要提供对SQL语句的扩展和更好地集成。至于Flink，其对于流式计算和迭代计算支持力度将会更加增强。无论是Spark、还是Flink的发展重点，将是数据科学和平台API化，除了传统的统计算法外，还包括学习算法，同时使其生态系统越来越完善。

作者：卢亿雷
http://www.iteye.com/news/30755

分享到：

流式大数据处理的三种框架：Storm，Spark ... | Maven 仓库、镜像

2015-07-20 17:56
浏览 1190
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于分时电价机制的家庭能量管理策略优化研究：考虑空调、电动汽车及可平移负荷的精细控制模型,基于分时电价机制的家庭能量管理策略优化研究：集成空调、电动汽车与可平移负荷管理模型,MATLAB代码：基于分时: 基于分时电价机制的家庭能量管理策略优化研究：考虑空调、电动汽车及可平移负荷的精细控制模型,基于分时电价机制的家庭能量管理策略优化研究：集成空调、电动汽车与可平移负荷管理模型,MATLAB代码：基于分时电价条件下家庭能量管理策略研究关键词：家庭能量管理模型分时电价空调电动汽车可平移负荷参考文档：《基于分时电价和蓄电池实时控制策略的家庭能量系统优化》参考部分模型《计及舒适度的家庭能量管理系统优化控制策略》参考部分模型仿真平台：MATLAB+CPLEX 平台优势：代码具有一定的深度和创新性，注释清晰，非烂大街的代码，非常精品主要内容：代码主要做的是家庭能量管理模型，首先构建了电动汽车、空调、热水器以及烘干机等若干家庭用户用电设备的能量管理模型，其次，考虑在分时电价、动态电价以及动态电价下休息日和工作日家庭用户的最优能量管理策略，依次通过CPLEX完成不同场景下居民用电策略的优化，该代码适合新手学习以及在此基础上进行拓展 ,核心关键词：家庭能量管理模型; 分时电价; 电动汽车; 空调; 可平移负荷; 优化控制策略; 仿真平台（MATLAB+CPLEX）; 深度创新性。,

Delphi 12 控件之Winsoft PDFium Component Suite v7.4 for Delphi & CB 5-12 Athens Full Source.7z: Winsoft PDFium Component Suite v7.4 for Delphi & CB 5-12 Athens Full Source.7z

基于Matlab的草原生态管理策略研究：数学建模及E前四问问题分析思路,基于Matlab的草原放牧策略研究：数学建模与问题解决的前四问思路,基于Matlab的草原放牧的策略研究数学建模E前四问思路: 基于Matlab的草原生态管理策略研究：数学建模及E前四问问题分析思路,基于Matlab的草原放牧策略研究：数学建模与问题解决的前四问思路,基于Matlab的草原放牧的策略研究数学建模E前四问思路 ,基于Matlab的草原放牧策略研究; 数学建模; E前四问思路; 策略优化; 模型验证; 数据模拟。,Matlab草原放牧策略研究：数学建模E及前四问解析

JSP基于SSH2新闻发布系统.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用，资源为网络商品（电子资料类）基于网络商品和电子资料商品的性质和特征不支持退款，质量优质，放心下载使用

LanSee175（局域网查看工具）: 主要功能信息搜索：可快速搜索局域网中的计算机，获取计算机名、IP 地址、MAC 地址、所在工作组、用户等详细信息，还能搜索共享资源和共享文件，便于用户快速定位和访问所需资源。网络嗅探：能够捕获 TCP、UDP、ICMP、ARP 等各种数据包，可嗅探局域网上的 QQ 号，查看各主机流量，还能从流过网卡的数据中嗅探出音乐、视频、图片等文件，帮助用户了解网络数据传输情况。聊天与共享：具备局域网聊天和文件共享功能，无需服务器支持。用户可进行群聊或私聊，还能指定条件搜索其他用户共享的文件，方便局域网内的信息交流与资源共享。计算机管理：可以向开启信使服务的计算机发送短消息，对于有相应权限的计算机，还能进行远程关闭或重启操作，方便网络管理员进行集中管理。文件复制：支持复制网上邻居上的共享文件、LanSee 用户共享的文件以及通过网络嗅探功能嗅探出的文件，并且支持断点传输，提高文件复制的效率和稳定性。端口与连接查看：可列出进程打开的所有网络端口以及连接情况，能快速扫描 TCP 端口，查看适配器信息，还能进行 Ping、Traceroute 等操作，帮助用户了解网络连接状态和诊断网络问题。

迅雷软件下载原理介绍.md: 迅雷软件下载原理介绍.md

最新更新！！！2024年HS编码出口退税率数据（2004-2024年）: ## 01、数据简介出口退税率是针对出口产品在国内已缴纳的税款，在货物报关出口后退还给出口企业时，按照一定比例计算的退税金额与计税价格之间的比率。出口退税率是出口退税制度中的一个重要参数，它体现了国家对出口企业的税收优惠政策，有助于降低企业的出口成本，提升其在国际市场上的竞争力。同时，国家也会根据经济形势和国际贸易的变化，适时调整出口退税率，以更好地服务于国家的经济发展战略。数据名称：2024年HS编码出口退税率数据数据年份：2004-2024年 ## 02、相关数据 CODE、ST_DATE、END_DATE、ZHCMCODE、NAME、DWCODE、UNIT、BCFLAG、STDFLAG、DWFLAG、SZ、ZSSL_SET、CLDE、CJDL、TSL、SPLB、TSFLAG、NOTE。 ## 03、数据截图

风机变桨控制FAST与MATLAB SIMULINK联合仿真模型：非线性风力发电机的PID独立与统一变桨控制策略对比研究,风机变桨控制FAST与MATLAB联合仿真研究：非线性风力发电机的PID独立与: 风机变桨控制FAST与MATLAB SIMULINK联合仿真模型：非线性风力发电机的PID独立与统一变桨控制策略对比研究,风机变桨控制FAST与MATLAB联合仿真研究：非线性风力发电机的PID独立与统一变桨控制在Trubsim 3D湍流风环境下的对比分析,风机变桨控制FAST与MATLAB SIMULINK联合仿真模型非线性风力发电机的 PID独立变桨和统一变桨控制下仿真模型，对于5WM非线性风机风机进行控制链接simulink的scope出转速对比，桨距角对比，叶片挥舞力矩，轮毂处偏航力矩，俯仰力矩等载荷数据对比图，在trubsim生成的3D湍流风环境下模拟统一变桨反馈信号是转速，独立变桨反馈是叶根载荷提供包含openfast与matlab simulink联合仿真的建模可以提供参考文献+模型+大佬交流群 ,核心关键词：FAST; MATLAB SIMULINK; 联合仿真模型; 非线性风力发电机; PID控制; 独立变桨; 统一变桨; 转速对比; 桨距角对比; 叶片挥舞力矩; 轮毂偏航力矩; 俯仰力矩; 3D湍流风环境; 建模; 参考文献; 模型交流群。,基于OpenF

基于Unity,SenseAR的手势识别demo.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用，资源为网络商品（电子资料类）基于网络商品和电子资料商品的性质和特征不支持退款，质量优质，放心下载使用

jdk-8u441-windows-x64.zip: java8版本的压缩包（windows）

NMPC非线性模型预测控制：从原理到代码实践的全面解析，包含四项案例研究：自动泊车轨迹优化、倒立摆上翻控制、车辆运动学轨迹跟踪及四旋翼无人机轨迹跟踪,非线性模型预测控制在四个案例中的实践与应用：从原理: NMPC非线性模型预测控制：从原理到代码实践的全面解析，包含四项案例研究：自动泊车轨迹优化、倒立摆上翻控制、车辆运动学轨迹跟踪及四旋翼无人机轨迹跟踪,非线性模型预测控制在四个案例中的实践与应用：从原理到代码实操指南,nmpc非线性模型预测控制从原理到代码实践包含4个案例 1 自动泊车轨迹优化 2 倒立摆上翻控制 3 车辆运动学轨迹跟踪 4 四旋翼无人机轨迹跟踪 ,nmpc;非线性模型预测控制;原理;代码实践;案例;自动泊车轨迹优化;倒立摆上翻控制;车辆运动学轨迹跟踪;四旋翼无人机轨迹跟踪,NMPC非线性模型预测控制：原理与代码实践，四案例详解（含自动泊车、倒立摆、车辆轨迹跟踪及四旋翼无人机控制）

Delphi 12 控件之Gnostice PDFToolkit v.5.0.0.860 for Delphi 11.7z: Gnostice PDFToolkit v.5.0.0.860 for Delphi 11.7z

CAD-Reader(cad快速看图): 快速打开图纸：具有闪电般的启动速度，能快速打开各种版本的 DWG 图纸，让用户迅速开始查看和使用图纸。显示完整准确：全面完整地显示布局、图案填充等内容，可自动匹配所有字体，有效解决中文乱码问题，能完美显示钢筋符号。支持天正系列：是业内支持天正建筑、天正给排水、天正暖通、天正电气的 CAD 看图产品，方便建筑、给排水等相关专业人员查看和使用天正图纸。便捷传图功能：内置 WiFi 直连电脑、云盘功能，方便用户在不同设备之间轻松传图，实现图纸的快速传输和共享。多种操作功能：可添加各种注释，如线条、文字、图片等，还能精确扣点，方便用户对图纸进行标记和说明；具有所见即所得的打印方式，可自由设置打印范围；支持全屏看图，让用户获得更好的查看体验。测量统计功能：能准确测量长度、半径、角度、弧长、坐标、多边形面积等，还可自动统计测量的长度和面积，可按颜色统计或手动统计，结果能导出表格。高效协作功能：支持团队协同，用户可以在移动中处理工作，与合作伙伴随时沟通；可以捕获现场照片和录制语音消息并作为注释附加到图纸上，还能导入 / 导出图纸注释。

单向手性光学腔的研究与应用 - Comsol的光学物理分析与实现,“Comsol模拟下的单向手性光学腔特性探究”,Comsol单向手性光学腔 ,核心关键词：Comsol; 单向手性; 光学腔; 模拟: 单向手性光学腔的研究与应用 - Comsol的光学物理分析与实现,“Comsol模拟下的单向手性光学腔特性探究”,Comsol单向手性光学腔。 ,核心关键词：Comsol; 单向手性; 光学腔; 模拟。,单向手性光学腔的Comsol模拟研究

CDlinux镜像文件.zip: 目录： CDlinux_CE-0.9.5 CDlinux_CE-0.9.6.1 CDlinux_CE-0.9.7.1 CDlinux_mini-0.9.5 CDlinux_mini-0.9.6.1 CDlinux_mini-0.9.7.1 CDlinux-0.9.5.1 CDlinux-0.9.6.1 CDlinux-0.9.6 CDlinux-0.9.7.1 CDlinux-0.9.7 ........... 网盘文件永久链接

基于maven的SSM整合 demo项目.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用，资源为网络商品（电子资料类）基于网络商品和电子资料商品的性质和特征不支持退款，质量优质，放心下载使用

MATLAB模态信号处理与小波阈值降噪的经典程序应用,Matlab小波阈值降噪与经典信号分解技术-模态降噪程序实践,matlab 小波阈值降噪，经典信号分解及降噪程序，模态 ,matlab;小波: MATLAB模态信号处理与小波阈值降噪的经典程序应用,Matlab小波阈值降噪与经典信号分解技术——模态降噪程序实践,matlab 小波阈值降噪，经典信号分解及降噪程序，模态 ,matlab;小波阈值降噪;经典信号分解;模态降噪程序,MATLAB小波阈值降噪：经典信号分解与模态降噪程序

“植屋”-网站设计 “植物”主题的网站，旨在科普一些植物培养、选种、购买的小知识（html、css和js制作的静态网站）.zip: 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用，资源为网络商品（电子资料类）基于网络商品和电子资料商品的性质和特征不支持退款，质量优质，放心下载使用

基于MATLAB的虚拟电厂与微网双重不确定性随机优化调度模型研究与应用,基于随机优化算法的虚拟电厂与微网双重不确定性下的日前调度模型研究,MATLAB代码：计及源-荷双重不确定性的电厂微网日前随机优: 基于MATLAB的虚拟电厂与微网双重不确定性随机优化调度模型研究与应用,基于随机优化算法的虚拟电厂与微网双重不确定性下的日前调度模型研究,MATLAB代码：计及源-荷双重不确定性的电厂微网日前随机优化调度关键词：电厂微网随机优化随机调度源-荷双重不确定性电厂调度参考文档：《Virtual power plant mid-term dispatch optimization》参考其燃气轮机、以及储能部分模型，另外随机优化算法也是和该文档一致；仿真平台：MATLAB+CPLEX 主要内容：代码主要做的是一个电厂或者微网单元的日前优化调度模型，考虑了光伏出力和负荷功率的双重不确定性，采用随机规划法处理不确定性变量，构建了电厂随机优化调度模型。具体来看，首先是基于蒙特卡洛算法，对预测的光伏以及负荷曲线进行场景生成，然后基于快概率距离快速消除法进行削减，直至削减至5个场景，然后采用随机调度的方法，对多场景下的电厂调度策略进行优化，程序实现效果良好，纯程序为本人亲自所写，一行一注释 ,关键词：虚拟电厂; 微网; 随机优化; 随机调度; 源-荷双重不确定性; 蒙特卡洛算法

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论