zookeeper 内部工作原理
1、原子广播
zookeeper的核心就是消息处理原子性,能够保持所有的server同步
2、保证,属性和一些定义
zookeeper 能够保证消息处理原子性的特性包括:
1)可靠的消息传递
如果一个消息m, 某个server接收了,那么基本上所有server肯定也都接收到了该消息
2)顺序接收
如果message a 先于message b 被某个server接收,那么所有server接收a 都会先于b。
a 和b 同时传递消息的话,反正要么a在前,要么b在前,就是不会出现并行或混乱冲突的情况。
3)因果关系
如果message a 先于b ,b又先于c,那么a肯定先于c的(这里的关系主要指某个server接收是这个顺序,其他server也肯定是这个顺序)
zookeeper 消息系统必须设计的高效、可靠,实现和维护都很简单。
由于我们需要大量使用消息,所以我们需要zookeeper平均每秒能够处理成千上万的请求
尽管我们使用k+1个正常运行的server收发消息。但是我们还是必须能够恢复比方断电导致所有server停止工作的的情况(相对单个server出问题的情况)
如果我们时间紧迫而且开发人员少,那么我们需要一个容易实现的协议能够快速实现。
最后,zookeeper能够完全满足以上的需求
zookeeper的协议假设我们能够在点对点的server中构造FIFO消息通道。一般相类似的服务总是假设消息会丢失或者消息会重复,我们会假设FIFO通道是可靠的,由于我们使用tcp连接,基于tcp连接的以下特点:
4)顺序消息传递
message m 总是会在所有之前的消息之后传递。由此,如果消息m丢失了,那么m之后的消息也都会丢失
5)FIFO 管道关闭过后,就接收不到消息了
如果FIFO消息管道关闭了,就不可能从该管道中接收消息。
FLP证明一致性不可能实现在分布环境中如果发生了错误。为了在出错的时候实现一致性,我们使用timeout机制来实现。
但是我们使用timeout机制是为了证明server的存活,而不是证明server的正确性。这样,当timeout机制
停止工作(计时发生故障),消息系统会挂起,但是依然能够保证一致性正常工作
6)数据包
通过FIFO通道发送的一系列字节流
7)提议
一个协议单元,提议通过zookeeper"同意团"(同意该提议的一组server)交换数据包表决通过。大多数提议包含消息。但是有个特别的就是新leader选举协议就是不带消息的。
8)消息
字节流会自动的广播到其他zookeeper server。提议和同意提议在传递的时候都会附带消息的。
就如以上提到的,zookeepr 保证所有消息的顺序一样,也保证所有提议的顺序。zookeeper 使用zookeeper事务id(zxid)保证提议的顺序。
所有的提议都会被加上一个zxid当这个提议被发起,这样通过zxid就能反映提议的顺序。提议被发送到所有的zookeeper server,
然后其中一个server如果认可该提议的话,这个server就会提交这个提议。若果提议包含一条消息,这个消息也会一起被提交当提交提议的时候。
认可该协议意味着持久化存储这个提议。成为"同意团"要求任何一个"同意团"必须有至少一个server。
我们通过要求每个"同意团"至少包含所有server数量的一半以上,即,至少一半以上的server同意该提议,该提议才有效。
zxid包含两个部分:纪元(每新选举一个leader,开启一个纪元,就像古代皇帝更替)部分和计数部分。zxid用一个64bit的数字实现。高32为表示纪元,低32为表示计数。
因为zxid的两部分都是用数字表示的(epoch,count).epoch(纪元)表示leader的改变。每次产生一个新的leader。就有一个数字特定的表示这个新的leader。
我们使用一个简单的算法给每个提议指定一个唯一的zxid:leader为每个新的提议将对应的zxid +1.leader 选举过程保证每个leader的epoch是特定的。这样每个leader对应的所有提议
和其他leader的提议肯定不同。这样就保证了提议的唯一性。
zookeeper消息系统由两部分组成:
leader激活:
这个阶段需要选举一个leader然后建立正确的系统状态,然后准备好接受提议
消息传递:
这个阶段leader接受提议,而且协调提议的正确传递。
zookeeper是一个整体的协议。我们并不关心单个提议,而是关注所有的提议流。严格的顺序特性保证了执行的高效和协议的简化。
leader选举体现了整体性。只有当"同意团"都同意这个server成为leader的时候这个server才有效,而且状态和leader都同步了,他们有相同的状态。
这个状态包含所有的提议都必须是已经提交的且生效的。这就是选举新leader的提议。
leader 激活
leader激活包括leader选举。当前zookeeper中有两个leader选举算法:leader选举算法和快速leader选举算法(快速认证选举法是通过UDP通讯,而且允许各个server使用一组简单的认证方式避免ip欺骗)。zookeeper消息并不关心使用哪一种具体选举法。只要选举结果满足以下要求就好:
leader的zxid必须是所有议员中最高的
"同意团"同意后提交的提议必须和leader的一致。
这两个要求只有第一个,leader的zxid必须保持最高的需要适当正确算法。第二个要求,只需要大部分议员同意该提议即可。zookeeper会复查第二个条件。如果在leader选举过程中发生错误,或者一部分server丢失了,zookeeper会放弃当前选举,重新开始新一轮的选举过程。
选举完成后,就有一个server成为leader,然后等待其他server连上该leader。其他所有的server都会连上leader。然后leader会同步所有的server,将它们缺失的提议记录都发送给他们。如果某个server的提议记录缺失太多了,leader会发送一个完整的存储记录快照给它。
有一个特别的情形必须特别处理,某个server接受了新的提议,但是它没有连上server。由于提议都是有顺序的。可能该server保持的zxid比server还要高。这种情就是要么该server在选举过程中被选举为leader。要么就是连上leader过后,该server所保持的这个比leader zxid还高的提议会被所有议员否决,直接丢弃。
当新的leader被选举出来后,会建立新的zxid,标示新的纪元(epoch),用来接受新的提议。新的纪元结构总是(e+1,0),在新的纪元下,新的提议总是从0开始计数。在leader和某个server同步过后,leader首先会给server发送一个NEW_LEADER的提议。一旦NEW_LEADER的提议被提交(其实leader已经选举出来了,这个过程应该只是跑一遍表决过程,然后能够正式的记录下来。),leader才能正式被激活然后开始接受一些其他的提议。
听起来很复杂但是其实在leader激活过程只有一下的几步操作:
A 议员在和leader同步过后,会确认收到一个NEW_LEADER的提议。
A 议员只会收到一个使用特定的zxid表示NEW_LEADER的提议从一个server那里。
A 议员会确认提交这个NEW_LEADER提议当大部分议员都确认提交了(系统中的每个提议其实么个议员(server)都是不会拒绝一个新提议的。)。
这个新leader必须在NEW_LEADER提议被提交通过过后才能接受其他新的提议。
如果leader选举(激活)过程意外结束了,因为NEW_LEADER提议还没有被提提交通过,所以这个leader没有任何选票,不会出任何问题的。当意外发生了,当前leader和其他的议员都会因为连不上而timeout的,然后会重新开始新的选举。
激活消息
leader激活是最繁琐的。一旦一个leader被确定了,它就开始接受提议。只要这个leader还在,就不会产生其他的leader,因为其他leader没有任何选票选举成为leader。如果一个新的leader产生,那么旧的leader肯定联系不上了。新leader会清理旧leaer的所有烂摊子。(其实就是开启新的纪元,还未提交的提议会被新的leader代为处理了。(此时现在这个leader还未正式加冕呢))
zookeeper的消息处理方式和经典的双向提交确认很像
所有的联系通道都是FIFO.所以所有处理都是有顺序的。所以肯定有一下的操作限制:
leader发送提议给所有server是挨个发送的。因此,每个server接收到请求也是依序接收到的。因为FIFO的特性决定了server必须是依序收到的。
server顺序的处理收到的消息,这就意味着每个消息都必须被顺序的确认而且leader也是顺序的收到确认的消息,由于FIFO的特性,如果消息$m$被写入了持久化存储,那么在$m$之前被提议的消息也都被写入了持久化存储中。
一旦大部分投票同意这个提议,leader会发布一个COMMIT消息给所有server。由于消息已经被一个一个的确认了,COMMIT 消息会一个一个的发送给server,每个server也会都接收到。
COMMIT消息会被server顺序的处理,每个server会在该提议提交的时候一起传递消息。
总结
现在你明白,zookeeper怎么工作了吧?特别的,新leader怎么确认某些提议是确实被投票通过的呢?首先,所有的提议有一个唯一的zxid,这样,不同于其他协议,我们不必担心两个不同的提议会有同一个zxid;所有的议员收到而且记录提议是有顺序的;协议按顺序的提交,同一时间只会有一个有效的leader,所有的server也只是连接这一个leader.新leader记录下了前一个leader期间的所有提议,所以它总是持有最高的zxid的提议,这些提议都是被表决通过的;在前一个leader期间任何没有提交的的协议在新leader变得生效正式工作之前,都要首先被提交的。
比较
这个是不是很像multi-paxos算法呢?multi-paxos算法要求某种算法假设只有一个leader,我们不能依赖这种假设。相反我们使用leader激活过程去替换leader或者旧的leader确认它还是有效的。
那么这是不是就是paxos算法呢?激活消息的阶段是不很像paxos算法的阶段2。 实际上,消息激活就像paxos算法的第二个阶段,而且不必处理提议失败的情况。激活消息不会出现在两个算法中出现提议交叉这种情况。如果对于所有的package不维护严格的FIFO顺序,我们的算法就会分崩离析,不可靠的。我们的leader选举阶段也和这两种算法不同的。实际上,使用纪元的方法,就可以跳过未提交的提议而且不必担心一个zxid会有多个提议。
选票
投票特性保证了自动广播和leader选举的系统一致性。默认的,zoopeeker采用多数派投票机制,这就意味着每次提议的投票必须有多个server通过。典型的就是leader选举提案:leader会被确定一旦大部分投票都认可了这个提案。
如果需要从多数投票中提取重要的因素,那么zookeeper只需要保证通过投票保证某个提议的(比方leader选举提议)有效性就是每个投票中必须包含一个有效的server,多数投票保证这个因素。同时,还有其他不同于多数投票的方法,比方,可以对每个投票的server指定权重,这样,某些server的投票就更重要。获得一个有效的决议,我们只需要获得的投票分数大于总投票的分数。
在分层系统中,使用权重加权构造系统的结构被广泛使用。这种情况下,我们一般将所有的server分成几个组,然后给不同的组指定不同的权重。要形成决议,必须从主要的组G中得到足够server的支持,这样大组G中的每个小组g,只要从小组g中获得选票分数大于g总的选票分数总和。有趣的是,这种结构允许更小的投票确定一个提议。比方,如果我们有9个server,分成3组,然后每组指定权重为1 ,这样我们可以在只得到4票分数的情况下确定该提议有效了。具体就是有两组sever中各自有两个server同意。这种情况是有效的,某个小组中的大部分成员同意了,就表示在这个小组同意了。
在zookeeper中,提供了接口,配置zookeeper工作在多数投票,权重加权,或者分组结构的模式下。
原文http://zookeeper.apache.org/doc/trunk/zookeeperInternals.html
paxos算法http://zh.wikipedia.org/wiki/Paxos%E7%AE%97%E6%B3%95
最近在学习zookeeper,内部工作原理比较绕,我想想自己还是翻译一遍,加深理解。第一次翻译,有不对的,还请同行指出来。 后续我会自己写一些demo,写一些自己的理解给大家分享。
国内的大牛们其实也有很多人已经写了很多关于zookeeper的文章,但是大部分都是针对某一面,很多时候给我有些不识庐山真面目的感觉,本人喜欢到官网一遍一遍的看,了解清楚。
我也推荐大家到官网看相关介绍,翻译成中文,总觉得有点怪怪的...,英文不过关啊!
相关推荐
在第三部分中,“第9章ZooKeeper内部原理”和“第10章运行ZooKeeper”深入探讨了ZooKeeper的内部工作原理和运行配置。这包括了请求、事务和标识符的处理,群首选举,Zab协议,观察者模式,服务器构成,本地存储,...
在贡献到Dubbo开源项目时,开发者需要遵循一定的流程,包括贡献任务功能、代码翻译、扩展点兼容性测试、性能基准测试和功能单元测试等。 ### 编码约定 编码约定规定了项目代码的标准和格式,有利于维护代码的一致...
Delphi 12.3控件之TraeSetup-stable-1.0.12120.exe
基于GPRS,GPS的电动汽车远程监控系统的设计与实现.pdf
内容概要:本文详细介绍了如何利用MATLAB/Simulink 2018a进行单机无穷大系统的暂态稳定性仿真。主要内容包括搭建同步发电机模型、设置无穷大系统等效电源、配置故障模块及其控制信号、优化求解器设置以及绘制和分析转速波形和摇摆曲线。文中还提供了多个实用脚本,如故障类型切换、摇摆曲线计算和极限切除角的求解方法。此外,作者分享了一些实践经验,如避免常见错误和提高仿真效率的小技巧。 适合人群:从事电力系统研究和仿真的工程师和技术人员,尤其是对MATLAB/Simulink有一定基础的用户。 使用场景及目标:适用于需要进行电力系统暂态稳定性分析的研究项目或工程应用。主要目标是帮助用户掌握单机无穷大系统的建模和仿真方法,理解故障对系统稳定性的影响,并能够通过仿真结果评估系统的性能。 其他说明:文中提到的一些具体操作和脚本代码对于初学者来说可能会有一定的难度,建议结合官方文档或其他教程一起学习。同时,部分技巧和经验来自于作者的实际操作,具有一定的实用性。
KUKA机器人相关资料
基于DLR模型的PM10–能见度–湿度相关性 研究.pdf
内容概要:本文详细介绍了如何使用MATLAB/Simulink进行光伏并网系统的最大功率点跟踪(MPPT)仿真,重点讨论了电导增量法的应用。首先阐述了电导增量法的基本原理,接着展示了如何在Simulink中构建光伏电池模型和MPPT控制系统,包括Boost升压电路的设计和PI控制参数的设定。随后,通过仿真分析了不同光照强度和温度条件对光伏系统性能的影响,验证了电导增量法的有效性,并提出了针对特定工况的优化措施。 适合人群:从事光伏系统研究和技术开发的专业人士,尤其是那些希望通过仿真工具深入理解MPPT控制机制的人群。 使用场景及目标:适用于需要评估和优化光伏并网系统性能的研发项目,旨在提高系统在各种环境条件下的最大功率点跟踪效率。 其他说明:文中提供了详细的代码片段和仿真结果图表,帮助读者更好地理解和复现实验过程。此外,还提到了一些常见的仿真陷阱及解决方案,如变步长求解器的问题和PI参数整定技巧。
KUKA机器人相关文档
内容概要:本文详细探讨了双馈风力发电机(DFIG)在Simulink环境下的建模方法及其在不同风速条件下的电流与电压波形特征。首先介绍了DFIG的基本原理,即定子直接接入电网,转子通过双向变流器连接电网的特点。接着阐述了Simulink模型的具体搭建步骤,包括风力机模型、传动系统模型、DFIG本体模型和变流器模型的建立。文中强调了变流器控制算法的重要性,特别是在应对风速变化时,通过实时调整转子侧的电压和电流,确保电流和电压波形的良好特性。此外,文章还讨论了模型中的关键技术和挑战,如转子电流环控制策略、低电压穿越性能、直流母线电压脉动等问题,并提供了具体的解决方案和技术细节。最终,通过对故障工况的仿真测试,验证了所建模型的有效性和优越性。 适用人群:从事风力发电研究的技术人员、高校相关专业师生、对电力电子控制系统感兴趣的工程技术人员。 使用场景及目标:适用于希望深入了解DFIG工作原理、掌握Simulink建模技能的研究人员;旨在帮助读者理解DFIG在不同风速条件下的动态响应机制,为优化风力发电系统的控制策略提供理论依据和技术支持。 其他说明:文章不仅提供了详细的理论解释,还附有大量Matlab/Simulink代码片段,便于读者进行实践操作。同时,针对一些常见问题给出了实用的调试技巧,有助于提高仿真的准确性和可靠性。
linux之用户管理教程.md
内容概要:本文详细介绍了利用三菱PLC(特别是FX系列)和组态王软件构建3x3书架式堆垛式立体库的方法。首先阐述了IO分配的原则,明确了输入输出信号的功能,如仓位检测、堆垛机运动控制等。接着深入解析了梯形图编程的具体实现,包括基本的左右移动控制、复杂的自动寻址逻辑,以及确保安全性的限位保护措施。还展示了接线图和原理图的作用,强调了正确的电气连接方式。最后讲解了组态王的画面设计技巧,通过图形化界面实现对立体库的操作和监控。 适用人群:从事自动化仓储系统设计、安装、调试的技术人员,尤其是熟悉三菱PLC和组态王的工程师。 使用场景及目标:适用于需要提高仓库空间利用率的小型仓储环境,旨在帮助技术人员掌握从硬件选型、电路设计到软件编程的全流程技能,最终实现高效稳定的自动化仓储管理。 其他说明:文中提供了多个实用的编程技巧和注意事项,如避免常见错误、优化性能参数等,有助于减少实际应用中的故障率并提升系统的可靠性。
基于STM32的循迹避障小车 主控:STM32 显示:OLED 电源模块 舵机云台 超声波测距 红外循迹模块(3个,左中右) 蓝牙模块 按键(6个,模式和手动控制小车状态) TB6612驱动的双电机 功能: 该小车共有3种模式: 自动模式:根据红外循迹和超声波测距模块决定小车的状态 手动模式:根据按键的状态来决定小车的状态 蓝牙模式:根据蓝牙指令来决定小车的状态 自动模式: 自动模式下,检测距离低于5cm小车后退 未检测到任何黑线,小车停止 检测到左边或左边+中间黑线,小车左转 检测到右边或右边+中间黑线,小车右转 检测到中边或左边+中间+右边黑线,小车前进 手动模式:根据按键的状态来决定小车的状态 蓝牙模式: //需切换为蓝牙模式才能指令控制 *StatusX X取值为0-4 0:小车停止 1:小车前进 2:小车后退 3:小车左转 4:小车右转
矢量边界,行政区域边界,精确到乡镇街道,可直接导入arcgis使用
内容概要:本文探讨了基于IEEE33节点的主动配电网优化方法,旨在通过合理的调度模型降低配电网的总运行成本。文中详细介绍了模型的构建,包括风光发电、储能装置、柴油发电机和燃气轮机等多种分布式电源的集成。为了实现这一目标,作者提出了具体的约束条件,如储能充放电功率限制和潮流约束,并采用了粒子群算法进行求解。通过一系列实验验证,最终得到了优化的分布式电源运行计划,显著降低了总成本并提高了系统的稳定性。 适合人群:从事电力系统优化、智能电网研究的专业人士和技术爱好者。 使用场景及目标:适用于需要优化配电网运行成本的研究机构和企业。主要目标是在满足各种约束条件下,通过合理的调度策略使配电网更加经济高效地运行。 其他说明:文章不仅提供了详细的理论推导和算法实现,还分享了许多实用的经验技巧,如储能充放电策略、粒子群算法参数选择等。此外,通过具体案例展示了不同电源之间的协同作用及其经济效益。
KUKA机器人相关文档
内容概要:本文详细介绍了将光热电站(CSP)和有机朗肯循环(ORC)集成到综合能源系统中的优化建模方法。主要内容涵盖系统的目标函数设计、关键设备的约束条件(如CSP储热罐、ORC热电耦合)、以及具体实现的技术细节。文中通过MATLAB和YALMIP工具进行建模,采用CPLEX求解器解决混合整数规划问题,确保系统在经济性和环境效益方面的最优表现。此外,文章还讨论了碳排放惩罚机制、风光弃能处理等实际应用场景中的挑战及其解决方案。 适合人群:从事综合能源系统研究的专业人士,尤其是对光热发电、余热利用感兴趣的科研工作者和技术开发者。 使用场景及目标:适用于需要评估和优化包含多种能源形式(如光伏、风电、燃气锅炉等)在内的复杂能源系统的项目。目标是在满足供电供热需求的同时,最小化运行成本并减少碳排放。 其他说明:文中提供了大量具体的MATLAB代码片段作为实例,帮助读者更好地理解和复现所提出的优化模型。对于初学者而言,建议从简单的确定性模型入手,逐渐过渡到更复杂的随机规划和鲁棒优化。
网站设计与管理作业一.ppt
内容概要:本文详细介绍了如何使用MATLAB搭建双闭环Buck电路的仿真模型。首先定义了主电路的关键参数,如输入电压、电感、电容等,并解释了这些参数的选择依据。接着分别对电压外环和电流内环进行了PI控制器的设计,强调了电流环响应速度需要显著高于电压环以确保系统的稳定性。文中还讨论了仿真过程中的一些关键技术细节,如PWM死区时间的设置、低通滤波器的应用以及参数调整的方法。通过对比单闭环和双闭环系统的性能,展示了双闭环方案在应对负载突变时的优势。最后分享了一些调试经验和常见问题的解决方案。 适合人群:从事电力电子、电源设计领域的工程师和技术人员,尤其是有一定MATLAB基础的读者。 使用场景及目标:适用于需要进行电源管理芯片设计验证、电源系统性能评估的研究人员和工程师。主要目标是提高电源系统的稳定性和响应速度,特别是在负载变化剧烈的情况下。 其他说明:文章不仅提供了详细的理论分析,还包括了大量的代码片段和具体的调试步骤,帮助读者更好地理解和应用所学知识。同时提醒读者注意仿真与实际情况之间的差异,鼓励在实践中不断探索和改进。
内容概要:本文详细探讨了MATLAB环境下冷热电气多能互补微能源网的鲁棒优化调度模型。首先介绍了多能耦合元件(如风电、光伏、P2G、燃气轮机等)的运行特性模型,展示了如何通过MATLAB代码模拟这些元件的实际运行情况。接着阐述了电、热、冷、气四者的稳态能流模型及其相互关系,特别是热电联产过程中能流的转换和流动。然后重点讨论了考虑经济成本和碳排放最优的优化调度模型,利用MATLAB优化工具箱求解多目标优化问题,确保各能源设备在合理范围内运行并保持能流平衡。最后分享了一些实际应用中的经验和技巧,如处理风光出力预测误差、非线性约束、多能流耦合等。 适合人群:从事能源系统研究、优化调度、MATLAB编程的专业人士和技术爱好者。 使用场景及目标:适用于希望深入了解综合能源系统优化调度的研究人员和工程师。目标是掌握如何在MATLAB中构建和求解复杂的多能互补优化调度模型,提高能源利用效率,降低碳排放。 其他说明:文中提供了大量MATLAB代码片段,帮助读者更好地理解和实践所介绍的内容。此外,还提及了一些有趣的发现和挑战,如多能流耦合的复杂性、鲁棒优化的应用等。