最近在学习Flink的Fault Tolerance,了解到Flink在Chandy Lamport Algorithm的基础上扩展实现了一套分布式Checkpointing机制,这个机制在论文"Lightweight Asynchronous Snapshots for Distributed Dataflows"中进行了详尽的描述。怀着对Lamport大神的敬仰,我分别下载研读了两篇论文,在这里把一些阅读的收获记录下来,希望能对学习Flink/Blink的同学能有些帮助。
Chandy Lamport Algorithm
我们先来看看Chandy Lamport Algorithm,“Distributed Snapshots: Determining Global States of a Distributed System”,此文应该是分布式SnapShot的开山之作,发布于1985年(很多同学还没有出生-_-),按照Lamport自己的说法,这篇文章是这么来的:
“The distributed snapshot algorithm described here came about when I visited Chandy, who was then at the University of Texas in Austin. He posed the problem to me over dinner, but we had both had too much wine to think about it right then. The next morning, in the shower, I came up with the solution. When I arrived at Chandy's office, he was waiting for me with the same solution.”
所以说,大神的世界我们不懂,一言不合就写一篇论文。我们言归正传,开始介绍论文中描述的算法。
分布式系统模型和状态定义
分布式系统模型
分布式系统是一个包含有限进程和有限消息通道的系统,这些进程和通道可以用一个有向图描述,其中节点表示进程,边表示通道。如下图所示:p、q分别是进程,c, c'则是消息通道。
另外为了问题描述的简洁,对上述模型还做了假设:消息通道只包含有限的buffer、消息保序、通道可靠等
分布式系统状态(State)
所谓的Distributed Snapshot,就是为了保存分布式系统的State,那么首先我们需要定义清楚什么是分布式系统的State。考虑到上述分布式模型的定义,分布式系统State同样是由“进程状态”和“通道状态”组成的。
- Event:分布式系统中发生的一个事件,在类似于Flink这样的分布式计算系统中从Source输入的新消息相当于一个事件。在论文中作者给出了数学化的定义,具体参考论文。
- 进程状态:包含一个初始状态(initial state),和持续发生的若干Events。初始状态可以理解为Flink中刚启动的计算节点,计算节点每处理一条Event,就转换到一个新的状态。
- 通道状态:我们用在通道上传输的消息(Event)来描述一个通道的状态。
在某一个时刻的某分布式系统的所有进程和所有通道状态的组合,就是这个分布式系统的全局状态。基于上述的双进程双通道的最简分布式系统,为了描述算法,作者设计了一个“单令牌状态”转换系统,两个进程通过接收和发出令牌,会在S0、S1两个State之间转换,整个分布式系统则会在如下所示的4种全局状态(Global State)之间转换。
Distributed Snapshots
有了系统状态和模型的定义,终于可以开始介绍分布式快照的算法了。对于一个分布式快照算法,我们有如下的两点要求:
- 正确性:能够准确的记录每一个进程、通道的状态,同时通过这些局部状态,能够准确表达一个分布式系统的全局状态。这里碰到的挑战是,每个进程、通道没法同时记录自身的状态,因为我们没有一个全局的时钟来保持状态记录的同步。
- 并行性:快照操作与分布式系统计算同时运行,但不能影响所有系统的正常功能,对性能、正确性等无影响。
按照上一小节的描述,全局状态是进程和通道状态的组合,在论文中,作者证明了通道状态可以通过记录进程状态来记录和恢复,并提出了下述的分布式snapshot算法:
对于进程p、q,p->q通过通道c连接,通过以下步骤记录global state
// 进程p行为,通过向q发出Marker,发起snapshot
begin
p record its state;
then
send one Marker along c after p records its state and before p sends further messages along c
end
//进程q接受Marker后的行为,q记录自身状态,并记录通道c的状态
if q has not recorded its state then
begin
q records its state;
q records the state c as the empty sequence
end
else q records the state of c as the sequence of messages received along c after q’s state was recorded and before q received the marker along c.
进程p启动这个算法,记录自身状态,并发出Marker。随着Marker不断的沿着分布式系统的相连通道逐渐传输到所有的进程,所有的进程都会执行算法以记录自身状态和入射通道的状态,待到所有进程执行完该算法,一个分布式Snapshot就完成了记录。Marker相当于是一个信使,它随着消息流流经所有的进程,通知每个进程记录自身状态。且Marker对整个分布式系统的计算过程没有任何影响。只要保证Marker能在有限时间内通过通道传输到进程,每个进程能够在有限时间内完成自身状态的记录,这个算法就能在有限的时间内执行完成。
以上就是这个算法的最主要内容,算法本身不是很复杂,但是Chandy和Lamport两位大神在论文中展现的对问题分析和思考的过程真的很值得玩味,定义问题->定义分布式模型->推导算法->分析特例->证明算法的完备性,层层推进,环环相扣,缺一不可,算法的数学之美展露无遗!
关于Chandy-Lamport Algorithm的主要介绍就到这里,论文中还有一些关于某些特殊情况的证明,大家有兴趣可以参考论文。
Flink Checkpointing的实现原理
Flink 分布式Checkpointing是通过Asynchronous Barrier Snapshots的算法实现的,该算法借鉴了Chandy-Lamport算法的主要思想,同时做了一些改进,这些改进在论文"Lightweight Asynchronous Snapshots for Distributed Dataflows"中进行了详尽的描述,结合这篇论文,我们来看看具体的实现。
Flink流式计算模型
Flink流式计算模型中包含Source Operator、Transformation Operators、Sink Operator等三种不同类型的节点如下图所示,分别负责数据的输入、处理、和输出,对应计算拓扑的起点、中间节点和终点。计算模型的介绍不是我们的重点,细节请参考官方文档-Concepts
Asynchronous Barrier Snapshots
这个算法基本上是Chandy-Lamport算法的变体,只在执行上有一些差别。论文中分别针对有向无环和有向有环的两种计算拓扑图,提出了两种不同的算法,其中后者是在前者的基础上进行了修改,在实际的使用中,绝大部分的系统都是有向无环图,因此我们只会针对前者进行介绍。
在ABS算法中用Barrier代替了C-L算法中的Marker,针对DAG的ABS算法执行流程如下所示:
-
Barrier周期性的被注入到所有的Source中,Source节点看到Barrier后,会立即记录自己的状态,然后将Barrier发送到Transformation Operator。
-
当Transformation Operator从某个input channel收到Barrier后,它会立刻Block住这条通道,直到所有的input channel都收到Barrier,此时该Operator就会记录自身状态,并向自己的所有output channel广播Barrier。
-
Sink接受Barrier的操作流程与Transformation Oper一样。当所有的Barrier都到达Sink之后,并且所有的Sink也完成了Checkpoint,这一轮Snapshot就完成了。
下面是针对DAG拓扑图的算法伪代码:
// 初始化Operator
upon event (Init | input channels, output
channels, fun, init state)
do
state := init_state;
blocked_inputs := {};
inputs := input_channels;
out_puts := out_put channels;
udf := fun;
// 收到Barrier的行为
upon event (receive | input, (barrier))
do
//将当前input通道加入blocked 集合,并block该通道,此通道的消息处理暂停
if input != Nil then
blocked inputs := blocked inputs ∪ {input};
trigger (block | input);
//如果所有的通道都已经被block,说明所有的barrier都已经收到
if blocked inputs = inputs then
blocked inputs := {};
broadcast (send | outputs, (barrier)); //向所有的outputs发出Barrier
trigger (snapshot | state); //记录本节点当前状态
for each inputs as input //解除所有通道的block,继续处理消息
trigger (unblock | input);
在这个算法中Block Input实际上是有负面效果的,一旦某个input channel发生延迟,Barrier迟迟未到,这会导致Transformation Operator上的其它通道全部堵塞,系统吞吐大幅下降。但是这么做的一个最大的好处就是能够实现Exactly Once。我们来看看Flink文档中的描述:
When the alignment is skipped, an operator keeps processing all inputs, even after some checkpoint barriers for checkpoint n arrived. That way, the operator also processes elements that belong to checkpoint n+1 before the state snapshot for checkpoint n was taken. On a restore, these records will occur as duplicates, because they are both included in the state snapshot of checkpoint n, and will be replayed as part of the data after checkpoint n.
不过Flink还是提供了选项,可以关闭Exactly once并仅保留at least once,以提供最大限度的吞吐能力。
本文仅从原理角度介绍了分布式Snapshot的基本原理以及Flink中的实现,从这篇文章出发,我们还需要阅读相关的源代码以及在实际的开发中去学习和理解。另外本文是基于我自己的理解写就,难免有疏漏和错误,如果大家发现问题,可以留言或者直接联系我,我们一起讨论。
相关推荐
项目均经过测试,可正常运行! 环境说明: 开发语言:java JDK版本:jdk1.8 框架:springboot 数据库:mysql 5.7/8 数据库工具:navicat 开发软件:eclipse/idea
蓄电池与超级电容混合储能并网matlab simulink仿真模型。 (1)混合储能采用低通滤波器进行功率分配,可有效抑制功率波动,并对超级电容的soc进行能量管理,soc较高时多放电,较低时少放电,soc较低时状态与其相反。 (2)蓄电池和超级电容分别采用单环恒流控制,研究了基于超级电容的SOC分区限值管理策略,分为放电下限区,放电警戒区,正常工作区,充电警戒区,充电上限区。 (3)采用三相逆变并网,将直流侧800v电压逆变成交流311v并网,逆变采用电压电流双闭环pi控制,pwm调制。 附有参考资料。
017 - 搞笑一句话台词
【资源说明】 基于微信小程序的购物系统+php后端毕业源码案例设计全部资料+详细文档.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
【资源说明】 基于APS.net的办公物品管理系统全部资料+详细文档.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
一个使用 Rust 语言编写的简单命令行计算器程序示例,它可以实现基本的加、减、乘、除运算功能。
在数字化时代背景下,网络技术的发展极大地改变了人们的生活方式,不仅满足了物质需求,也为精神生活提供了更多可能性。阅读作为精神享受的重要途径,其便捷性的需求也随之增加。为了迎合这一需求,珠江学院大学生自愿者服务网系统应运而生,旨在通过网络提供便捷的志愿服务信息。 本文详细介绍了珠江学院大学生自愿者服务网系统的开发过程。系统基于SSM框架构建,融合了Vue技术,并采用MySQL数据库,确保了系统的稳定性与安全性。文章从系统概述、需求分析、系统设计、数据库设计、系统测试以及总结等多个角度对珠江学院大学生自愿者服务网系统进行了全面分析,用户可以通过该系统轻松获取所需的志愿服务信息。 该珠江学院大学生自愿者服务网系统以其稳定的运行性能、便捷的操作流程、清晰的界面设计和全面的功能性,展现出强大的实用性。
内容概要:文章介绍了慧集通集成平台在水泥行业海运运输业务中致远OA与畅捷通TCloud的集成方案,涵盖库存、销售、运输、财务等多个环节的数据互通与流程协同。重点介绍了通过慧集通数据集成平台实现的具体对接内容及其策略,旨在提高企业的信息化管理水平,减少人为差错,提升工作效率。 适用人群:企业信息化管理人员、IT项目负责人、ERP及OA系统的实施顾问和运维人员。 使用场景及目标:适用于希望改善业务与财务流程、降低人力成本、提升数据一致性和准确性的中小企业。帮助企业实现内部信息系统的一体化,提供了一个成功的参考案例。 其他说明:案例详细阐述了多个具体业务场景下致远OA与畅捷通TCloud的对接方法及效果验证,为企业数字化转型和信息化建设提供了宝贵的经验。
项目已获导师指导并通过的高分毕业设计项目,可作为课程设计和期末大作业,下载即用无需修改,项目完整确保可以运行。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行!可以放心下载 技术组成 语言:java 开发环境:idea、微信开发者工具 数据库:MySql5.7以上 部署环境:maven 数据库工具:navicat
一、项目简介 本项目是一套基于SSM框架实现的鲸落文化线上体验馆 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行 二、技术实现 jdk版本:1.8 及以上 ide工具:IDEA或者eclipse 数据库: mysql5.7及以上 后端:spring+springmvc+mybatis+maven+mysql 前端: vue , css ,js 等 三、系统功能 系统用户包括有管理员、用户 1、后台主要功能如下: 用户登录 首页 个人中心 修改密码 个人信息 用户管理 用户禁言 视频分类管理 制作视频管理 趣味视频管理 视频预览 下载视频 系统管理 轮播图管理 历史背景 趣味故事 收藏管理等功能 2、前台主要功能如下: 用户登录 用户注册 首页 制作视频 点我收藏 点击下载 赞一下 踩一下 点击量统计 趣味视频 历史背景 趣味故事 个人中心 我的收藏等功能
利用LabVIEW并基于LabVIEW编辑电流采样 这个已经很成熟的方案了,直接可以利用文件VI
本项目为金山培训大作业源码汇总,采用C++与Qt技术构建,包含401个文件,涵盖106个C++源文件、72个头文件、41个PNG图片、27个项目文件以及HTML、JavaScript、CSS等多种文件类型。项目包含四个主要模块:KVector向量库、命令行会议系统、KSvg绘图板和KHttp音乐播放器。尽管最终未能入选,但展现了作者在C++编程和Qt框架应用方面的扎实功底和努力。
功能说明:可以管理首页、个人中心、用户管理、旅行社管理、产品分类管理、门店公告管理、行政中心管理、订单信息管理、合同信息管理、社区留言、系统管理等功能模块。环境说明:开发语言:Java框架:springboot,mybatisJDK版本:JDK1.8数据库:mysql 5.7数据库工具:Navicat11开发软件:eclipse/ideaMaven包:Maven3.6
处理二维信号(或图像)的傅里叶变算法的MATLAB源代码,其中含:二维傅里叶变、用滤波器自动提取所需的频谱波峰、二维傅里叶反变、获取相位角分布、相位解包等频谱分析的整套流程(可用于干涉图处理)。
项目已获导师指导并通过的高分毕业设计项目,可作为课程设计和期末大作业,下载即用无需修改,项目完整确保可以运行。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行!可以放心下载 技术组成 语言:java 开发环境:idea、微信开发者工具 数据库:MySql5.7以上 部署环境:maven 数据库工具:navicat
C#全自动多线程上位机源码编程 0, 纯源代码。 1, 替代传统plc搭载的触摸屏。 2, 工控屏幕一体机直接和plc通信。 3, 功能强大,多级页签。 4, 可以自由设定串口或以太网通信。 5, 主页。 6, 报警页。 7, 手动调试页。 8, 参数设定页。 9, 历史查询页。 10,系统设定页。 11, 赠送所有控件。 12,使用的西门子Plc。 13,注册opcdaauto.dll组件,用于使用opc。 15,安装kepserverEx5。 16,可以链接其他数据库。
由于大学生创新创业训练计划(简称SRTP)通常涉及到项目申请、管理和评估等多个环节,以下是一个简化的Python脚本,模拟了一个基本的SRTP项目管理系统。这里主要包括项目申请、审批、进度跟踪和结果评估等功能:
项目均经过测试,可正常运行! 环境说明: 开发语言:java JDK版本:jdk1.8 框架:springboot 数据库:mysql 5.7/8 数据库工具:navicat 开发软件:eclipse/idea
信息管理实现
在信息技术飞速发展的今天,我们生活在一个信息高度发达的时代。随着计算机技术的进步和移动终端的普及,中国的信息技术已经在全球占据领先地位,我们正经历着信息大爆炸的社会。在这样的背景下,传统的手工信息处理方式已经无法满足现代社会的需求,计算机处理信息的效率远远超过传统方法。 本次开发的科技银行业务管理系统采用Java技术,旨在通过计算机化管理提升科技银行业务信息的管理效率。系统实现了贷款管理、贷款购买管理、理财产品管理、理财产品购买管理、审核人员管理、业务人员管理、银行卡管理、银行卡金额记录管理、银行卡补办管理、存款管理、取款管理、转账管理以及账户注销管理等多项功能。 科技银行业务管理系统通过计算机处理信息,确保了数据传输的即时性,无论是数据获取还是输入,都能迅速反馈,极大提升了工作效率。同时,系统采用MySQL数据库,为数据提供了安全可靠的存储解决方案。