`
孤独的心
  • 浏览: 9893 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

zookeeper 内部工作原理(翻译版本)

阅读更多


 zookeeper 内部工作原理
1、原子广播
zookeeper的核心就是消息处理原子性,能够保持所有的server同步

2、保证,属性和一些定义
zookeeper 能够保证消息处理原子性的特性包括:
1)可靠的消息传递
如果一个消息m, 某个server接收了,那么基本上所有server肯定也都接收到了该消息
2)顺序接收
如果message a 先于message b 被某个server接收,那么所有server接收a 都会先于b。
a 和b 同时传递消息的话,反正要么a在前,要么b在前,就是不会出现并行或混乱冲突的情况。
3)因果关系
如果message a 先于b ,b又先于c,那么a肯定先于c的(这里的关系主要指某个server接收是这个顺序,其他server也肯定是这个顺序)

zookeeper 消息系统必须设计的高效、可靠,实现和维护都很简单。

由于我们需要大量使用消息,所以我们需要zookeeper平均每秒能够处理成千上万的请求

尽管我们使用k+1个正常运行的server收发消息。但是我们还是必须能够恢复比方断电导致所有server停止工作的的情况(相对单个server出问题的情况)

如果我们时间紧迫而且开发人员少,那么我们需要一个容易实现的协议能够快速实现。

最后,zookeeper能够完全满足以上的需求
zookeeper的协议假设我们能够在点对点的server中构造FIFO消息通道。一般相类似的服务总是假设消息会丢失或者消息会重复,我们会假设FIFO通道是可靠的,由于我们使用tcp连接,基于tcp连接的以下特点:
4)顺序消息传递
message m 总是会在所有之前的消息之后传递。由此,如果消息m丢失了,那么m之后的消息也都会丢失
5)FIFO 管道关闭过后,就接收不到消息了
如果FIFO消息管道关闭了,就不可能从该管道中接收消息。
FLP证明一致性不可能实现在分布环境中如果发生了错误。为了在出错的时候实现一致性,我们使用timeout机制来实现。
但是我们使用timeout机制是为了证明server的存活,而不是证明server的正确性。这样,当timeout机制
停止工作(计时发生故障),消息系统会挂起,但是依然能够保证一致性正常工作
6)数据包
通过FIFO通道发送的一系列字节流
7)提议
一个协议单元,提议通过zookeeper"同意团"(同意该提议的一组server)交换数据包表决通过。大多数提议包含消息。但是有个特别的就是新leader选举协议就是不带消息的。
8)消息
字节流会自动的广播到其他zookeeper server。提议和同意提议在传递的时候都会附带消息的。
就如以上提到的,zookeepr 保证所有消息的顺序一样,也保证所有提议的顺序。zookeeper 使用zookeeper事务id(zxid)保证提议的顺序。
所有的提议都会被加上一个zxid当这个提议被发起,这样通过zxid就能反映提议的顺序。提议被发送到所有的zookeeper server,
然后其中一个server如果认可该提议的话,这个server就会提交这个提议。若果提议包含一条消息,这个消息也会一起被提交当提交提议的时候。
认可该协议意味着持久化存储这个提议。成为"同意团"要求任何一个"同意团"必须有至少一个server。
我们通过要求每个"同意团"至少包含所有server数量的一半以上,即,至少一半以上的server同意该提议,该提议才有效。

zxid包含两个部分:纪元(每新选举一个leader,开启一个纪元,就像古代皇帝更替)部分和计数部分。zxid用一个64bit的数字实现。高32为表示纪元,低32为表示计数。
因为zxid的两部分都是用数字表示的(epoch,count).epoch(纪元)表示leader的改变。每次产生一个新的leader。就有一个数字特定的表示这个新的leader。
我们使用一个简单的算法给每个提议指定一个唯一的zxid:leader为每个新的提议将对应的zxid +1.leader 选举过程保证每个leader的epoch是特定的。这样每个leader对应的所有提议
和其他leader的提议肯定不同。这样就保证了提议的唯一性。

zookeeper消息系统由两部分组成:
leader激活:
这个阶段需要选举一个leader然后建立正确的系统状态,然后准备好接受提议
消息传递:
这个阶段leader接受提议,而且协调提议的正确传递。
zookeeper是一个整体的协议。我们并不关心单个提议,而是关注所有的提议流。严格的顺序特性保证了执行的高效和协议的简化。
leader选举体现了整体性。只有当"同意团"都同意这个server成为leader的时候这个server才有效,而且状态和leader都同步了,他们有相同的状态。
这个状态包含所有的提议都必须是已经提交的且生效的。这就是选举新leader的提议。

leader 激活
leader激活包括leader选举。当前zookeeper中有两个leader选举算法:leader选举算法和快速leader选举算法(快速认证选举法是通过UDP通讯,而且允许各个server使用一组简单的认证方式避免ip欺骗)。zookeeper消息并不关心使用哪一种具体选举法。只要选举结果满足以下要求就好:
leader的zxid必须是所有议员中最高的
"同意团"同意后提交的提议必须和leader的一致。
这两个要求只有第一个,leader的zxid必须保持最高的需要适当正确算法。第二个要求,只需要大部分议员同意该提议即可。zookeeper会复查第二个条件。如果在leader选举过程中发生错误,或者一部分server丢失了,zookeeper会放弃当前选举,重新开始新一轮的选举过程。

选举完成后,就有一个server成为leader,然后等待其他server连上该leader。其他所有的server都会连上leader。然后leader会同步所有的server,将它们缺失的提议记录都发送给他们。如果某个server的提议记录缺失太多了,leader会发送一个完整的存储记录快照给它。

有一个特别的情形必须特别处理,某个server接受了新的提议,但是它没有连上server。由于提议都是有顺序的。可能该server保持的zxid比server还要高。这种情就是要么该server在选举过程中被选举为leader。要么就是连上leader过后,该server所保持的这个比leader zxid还高的提议会被所有议员否决,直接丢弃。

当新的leader被选举出来后,会建立新的zxid,标示新的纪元(epoch),用来接受新的提议。新的纪元结构总是(e+1,0),在新的纪元下,新的提议总是从0开始计数。在leader和某个server同步过后,leader首先会给server发送一个NEW_LEADER的提议。一旦NEW_LEADER的提议被提交(其实leader已经选举出来了,这个过程应该只是跑一遍表决过程,然后能够正式的记录下来。),leader才能正式被激活然后开始接受一些其他的提议。

听起来很复杂但是其实在leader激活过程只有一下的几步操作:
A 议员在和leader同步过后,会确认收到一个NEW_LEADER的提议。
A 议员只会收到一个使用特定的zxid表示NEW_LEADER的提议从一个server那里。
A 议员会确认提交这个NEW_LEADER提议当大部分议员都确认提交了(系统中的每个提议其实么个议员(server)都是不会拒绝一个新提议的。)。
这个新leader必须在NEW_LEADER提议被提交通过过后才能接受其他新的提议。
如果leader选举(激活)过程意外结束了,因为NEW_LEADER提议还没有被提提交通过,所以这个leader没有任何选票,不会出任何问题的。当意外发生了,当前leader和其他的议员都会因为连不上而timeout的,然后会重新开始新的选举。

激活消息
leader激活是最繁琐的。一旦一个leader被确定了,它就开始接受提议。只要这个leader还在,就不会产生其他的leader,因为其他leader没有任何选票选举成为leader。如果一个新的leader产生,那么旧的leader肯定联系不上了。新leader会清理旧leaer的所有烂摊子。(其实就是开启新的纪元,还未提交的提议会被新的leader代为处理了。(此时现在这个leader还未正式加冕呢))

zookeeper的消息处理方式和经典的双向提交确认很像

 
所有的联系通道都是FIFO.所以所有处理都是有顺序的。所以肯定有一下的操作限制:
leader发送提议给所有server是挨个发送的。因此,每个server接收到请求也是依序接收到的。因为FIFO的特性决定了server必须是依序收到的。
server顺序的处理收到的消息,这就意味着每个消息都必须被顺序的确认而且leader也是顺序的收到确认的消息,由于FIFO的特性,如果消息$m$被写入了持久化存储,那么在$m$之前被提议的消息也都被写入了持久化存储中。
一旦大部分投票同意这个提议,leader会发布一个COMMIT消息给所有server。由于消息已经被一个一个的确认了,COMMIT 消息会一个一个的发送给server,每个server也会都接收到。
COMMIT消息会被server顺序的处理,每个server会在该提议提交的时候一起传递消息。
总结
现在你明白,zookeeper怎么工作了吧?特别的,新leader怎么确认某些提议是确实被投票通过的呢?首先,所有的提议有一个唯一的zxid,这样,不同于其他协议,我们不必担心两个不同的提议会有同一个zxid;所有的议员收到而且记录提议是有顺序的;协议按顺序的提交,同一时间只会有一个有效的leader,所有的server也只是连接这一个leader.新leader记录下了前一个leader期间的所有提议,所以它总是持有最高的zxid的提议,这些提议都是被表决通过的;在前一个leader期间任何没有提交的的协议在新leader变得生效正式工作之前,都要首先被提交的。
比较
这个是不是很像multi-paxos算法呢?multi-paxos算法要求某种算法假设只有一个leader,我们不能依赖这种假设。相反我们使用leader激活过程去替换leader或者旧的leader确认它还是有效的。

那么这是不是就是paxos算法呢?激活消息的阶段是不很像paxos算法的阶段2。 实际上,消息激活就像paxos算法的第二个阶段,而且不必处理提议失败的情况。激活消息不会出现在两个算法中出现提议交叉这种情况。如果对于所有的package不维护严格的FIFO顺序,我们的算法就会分崩离析,不可靠的。我们的leader选举阶段也和这两种算法不同的。实际上,使用纪元的方法,就可以跳过未提交的提议而且不必担心一个zxid会有多个提议。

选票
投票特性保证了自动广播和leader选举的系统一致性。默认的,zoopeeker采用多数派投票机制,这就意味着每次提议的投票必须有多个server通过。典型的就是leader选举提案:leader会被确定一旦大部分投票都认可了这个提案。

如果需要从多数投票中提取重要的因素,那么zookeeper只需要保证通过投票保证某个提议的(比方leader选举提议)有效性就是每个投票中必须包含一个有效的server,多数投票保证这个因素。同时,还有其他不同于多数投票的方法,比方,可以对每个投票的server指定权重,这样,某些server的投票就更重要。获得一个有效的决议,我们只需要获得的投票分数大于总投票的分数。

在分层系统中,使用权重加权构造系统的结构被广泛使用。这种情况下,我们一般将所有的server分成几个组,然后给不同的组指定不同的权重。要形成决议,必须从主要的组G中得到足够server的支持,这样大组G中的每个小组g,只要从小组g中获得选票分数大于g总的选票分数总和。有趣的是,这种结构允许更小的投票确定一个提议。比方,如果我们有9个server,分成3组,然后每组指定权重为1 ,这样我们可以在只得到4票分数的情况下确定该提议有效了。具体就是有两组sever中各自有两个server同意。这种情况是有效的,某个小组中的大部分成员同意了,就表示在这个小组同意了。

在zookeeper中,提供了接口,配置zookeeper工作在多数投票,权重加权,或者分组结构的模式下。


原文http://zookeeper.apache.org/doc/trunk/zookeeperInternals.html
paxos算法http://zh.wikipedia.org/wiki/Paxos%E7%AE%97%E6%B3%95


最近在学习zookeeper,内部工作原理比较绕,我想想自己还是翻译一遍,加深理解。第一次翻译,有不对的,还请同行指出来。 后续我会自己写一些demo,写一些自己的理解给大家分享。
国内的大牛们其实也有很多人已经写了很多关于zookeeper的文章,但是大部分都是针对某一面,很多时候给我有些不识庐山真面目的感觉,本人喜欢到官网一遍一遍的看,了解清楚。
我也推荐大家到官网看相关介绍,翻译成中文,总觉得有点怪怪的...,英文不过关啊!

 

  • 大小: 14.8 KB
1
4
分享到:
评论
2 楼 孤独的心 2013-06-14  
panggezi 写道
怎么大家都踩,我觉得不错啊,不过其实zookeepr并没有使用paxos算法,使用了一种叫zookeeper atomic broadcast protocol的协议,比paxos要简单许多。

我翻译的没有说用了paxos算法吧,但是应该是paxos算法改变的吧。而且这个不算一种算法吧,只是在paxos算法上使用FIFO特性,TCP的特性屏蔽paxos或者muti-paxos算法的缺陷。
1 楼 panggezi 2013-06-14  
怎么大家都踩,我觉得不错啊,不过其实zookeepr并没有使用paxos算法,使用了一种叫zookeeper atomic broadcast protocol的协议,比paxos要简单许多。

相关推荐

    zookeeper linux版本

    标题“Zookeeper Linux版本”指的是适用于Linux操作系统的ZooKeeper软件包。ZooKeeper通常在分布式系统中用于命名服务、配置管理、集群同步、分布式锁等任务。在Linux环境下部署ZooKeeper,开发者或系统管理员可以...

    03_尚硅谷大数据之Zookeeper内部原理1

    【Zookeeper内部原理详解】 Zookeeper是一个分布式协调服务,它为分布式应用提供了高效且可靠的分布式一致性服务。在尚硅谷的大数据技术系列中,Zookeeper的内部原理主要涵盖以下几个关键知识点: 1. **选举机制**...

    zookeeper的通俗原理解释

    Zookeeper 的工作机制 在 Zookeeper 中,客户端可以向 ZKServer 发送请求,ZKServer 会将请求转发给 Leader,Leader 决定是否同意请求。Leader 将决定结果广播给所有 ZKServer,ZKServer 再将结果返回给客户端。...

    Zookeeper搭建和原理学习

    Zookeeper 搭建和原理学习 Zookeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现。它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理...

    从Paxos到Zookeeper分布式一致性原理与实践.pdf

    从Paxos到Zookeeper分布式一致性原理与实践.pdf从Paxos到Zookeeper分布式一致性原理与实践.pdf从Paxos到Zookeeper分布式一致性原理与实践.pdf从Paxos到Zookeeper分布式一致性原理与实践.pdf从Paxos到Zookeeper分布式...

    zookeeper-3.4.12版本

    Zookeeper是Apache软件基金会的一个开源项目,主要用于分布式协调服务,它是集群管理的基石,被广泛应用于大数据、云计算...对于Java开发者而言,理解并掌握Zookeeper的使用和原理,对于构建可靠的分布式系统至关重要。

    Zookeeper的原理及其应用

    Zookeeper入门及其原理介绍以及一些简单的应用

    Zookeeper概述、原理及应用汇总

    ### Zookeeper的核心原理 #### 分布式一致性解决方案 Zookeeper本质上是一个分布式数据一致性解决方案。它通过对复杂且容易出错的分布式一致性服务进行封装,形成一套高效可靠的操作原语集合,并通过简单易用的接口...

    zookeeper工作原理 小总结.doc

    ### ZooKeeper工作原理小结 #### 一、ZooKeeper基本概念 **1.1 角色** 在ZooKeeper中,服务器节点被称为Server,它主要有以下几种角色: - **Follower**:处理客户端非写请求,参与Leader选举投票过程。 - **...

    适用jdk7环境的,zookeeper3.4版本

    尽管它能正常工作,但考虑到软件的持续发展和安全性,新项目应优先选择与JDK 8或更高版本兼容的ZooKeeper更新版本。同时,了解并熟练掌握ZooKeeper的基本概念和操作对于管理和协调分布式系统至关重要。

    从PAXOS到ZOOKEEPER分布式一致性原理与实践

    《从PAXOS到ZOOKEEPER:分布式一致性原理与实践》是一本深入探讨分布式系统中一致性问题的著作。在当今大数据和云计算的时代背景下,分布式系统的应用越来越广泛,而其中的核心挑战之一就是如何保证数据的一致性。...

    从Paxos到Zookeeper分布式一致性原理与实践PDF

    《从Paxos到Zookeeper分布式一致性原理与实践》是一本深入探讨分布式系统一致性问题的著作,其中重点讲解了Paxos算法与Zookeeper在实际应用中的理论与实践。Paxos是分布式计算领域中著名的共识算法,为解决分布式...

    从Paxos到Zookeeper 分布式一致性原理与实践 PDF电子书下载 带目录书签 完整版.pdf

    Zookeeper在其实现中并没有直接使用Paxos算法,而是采用了一种简化版本的Paxos算法——Zab协议(Zookeeper Atomic Broadcast)。Zab协议结合了Paxos算法的优点,同时也考虑到了分布式系统中的网络延迟和故障恢复等...

    深入分析zookeeper实现原理

    ### 深入分析Zookeeper实现原理 #### 初识Zookeeper 在深入了解Zookeeper之前,我们先简要介绍下Zookeeper以及它所处的分布式环境的一些特点。 **分布式环境的特点:** - **分布性:** 系统由多个通过网络连接的...

    ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用

    ### ZooKeeper原理及其在Hadoop和HBase中的应用 #### ZooKeeper概述 ZooKeeper是一个由雅虎开发的开源分布式协调服务系统,旨在为分布式应用提供一致性和可靠性支持。它是Google Chubby系统的开源版本,主要功能...

    从Paxos到Zookeeper分布式一致性原理与实践包括源码

    《从Paxos到Zookeeper:分布式一致性原理与实践》这本书深入浅出地探讨了分布式系统中的一个重要概念——一致性,以及如何在实际操作中通过Paxos算法和Zookeeper实现这一概念。分布式一致性是分布式系统设计的核心,...

    从Paxos到Zookeeper 分布式一致性原理与实践 倪超

    从Paxos到Zookeeper 分布式一致性原理与实践 倪超,完整版

    dubbo2.6.0 + Zookeeper3.4.9 + Zookeeper3.8.0 + Zookeeper3.7.1

    Zookeeper的三个不同版本——3.4.9、3.8.0和3.7.1,每个都有其独特的特点和改进。Zookeeper 3.4.9是较老但稳定的一个版本,广泛应用于生产环境。它修复了一些已知的bug,并对性能进行了优化。3.8.0是一个更新的版本...

    hadoop、hbase、hive、zookeeper版本对应关系续(最新版)(2015)

    版本兼容性要求方面,文章明确指出HBase 1.0.0及以后版本需要ZooKeeper 3.4.x版本的支持。 从版本对应关系中,我们可以得出以下知识点: 1. Hadoop版本升级至1.x.y和2.x.y系列后,Hive的版本至少需更新至0.13.0...

Global site tag (gtag.js) - Google Analytics