zookeeper的数据存储和同步 -

kavy

浏览: 891409 次
性别:
来自: 上海

最近访客更多访客>>

15286802013

一往无前bhz

林祥纤

a13143457381

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

zookeeper的数据存储和同步

博客分类：

大数据

一，zookeeper中的文件存储及相关配置

zookeeper启动后，会将所有数据加载到内存中，但是也会在硬盘上留下数据文件和日志文件便于恢复。在配置文件中，有如下的一些参数与文件相关：

dataDir：保存内存快照数据的目录；
dataLogDir：保存 transaction log的目录；
globalOutstandingLimit ：单台服务器上未完成的最大客户端请求数(当客户端发送请求太快而集群来不及处理时)，默认1000.
preAllocSize：transaction log预设的文件大小，默认是64M，
snapCount：进行快照的阀值，默认10000；当transaction log条数达到 snapCount/2 + rand.nextInt(snapCount/2)时就做一次快照，使用随机数的原因是避免所有服务器会同时做快照

zookeeper的快照数据保存在$dataDir中，文件的命名格式为：snapshot.{16进制串}，其中16进制串是lastZxid转换后的值。相关序列化和反序列化的类可以看{org.apache.zookeeper.server.persistence.FileSnap}，快照文件中的内容包括文件头信息，DataTree数据及一些session数据。

事物日志则保存在$dataLogDir中，日志文件的命名格式类似与snapshot：log.{16进制串}，相关读写的类可以见{org.apache.zookeeper.server.persistence.FileTxnLog}。日志文件中的数据格式稍微复杂一点，如代码注释中所述：

* The format of a Transactional log is as follows:
*

<blockquote>

<pre> * LogFile:

*     FileHeader TxnList ZeroPad
*

* FileHeader: {

*     magic 4bytes (ZKLG)

*     version 4bytes

*     dbid 8bytes

*   }
*

* TxnList:

*     Txn || Txn TxnList
*

* Txn:

*     checksum Txnlen TxnHeader Record 0x42
*

* checksum: 8bytes Adler32 is currently used

*   calculated across payload -- Txnlen, TxnHeader, Record and 0x42
*

* Txnlen:

*     len 4bytes
*

* TxnHeader: {

*     sessionid 8bytes

*     cxid 4bytes

*     zxid 8bytes

*     time 8bytes

*     type 4bytes

*   }
*

* Record:

*     See Jute definition file for details on the various record types
*

* ZeroPad:

*     0 padded to EOF (filled during preallocation stage)

如果需要分析日志文件的话，可以考虑对FileTxnLog和FileTxnIterator做简单修改来暴露数据读取接口。
二，zookeeper的数据恢复过程

当进行一次快照时，就会重新生成一个新的日志文件，二者结合可以把数据恢复(断点+动作重放)，启动时数据恢复的具体的逻辑在{org.apache.zookeeper.server.persistence.FileTxnSnapLog}中：

snapLog.deserialize(dt, sessions);

FileTxnLog txnLog = new FileTxnLog(dataDir);

TxnIterator itr = txnLog.read(dt.lastProcessedZxid+1);

long highestZxid = dt.lastProcessedZxid;

代码中先读取快照数据生成断点映像，然后根据断点映像中最大zxid开始进行事务重放

三，zookeeper节点间的数据同步

当各个节点已经自我恢复并选举出leader后，leader就开始和follows进行数据同步了，具体的逻辑可以见{org.apache.zookeeper.server.quorum.LearnerHandler}中：

leader构建NEWLEADER包，内含leader最大数据的zxid, 广播给follows，然后leader根据follower数量为每个follower创建一个LearnerHandler线程来处理同步请求：leader主线程阻塞，等待超过半数follower同步完数据之后成为正式leader。
follower接收到NEWLEADER包后响应FOLLOWERINFO给leader，告知本方数据最大的zxid值； leader接收到回馈后开始判断：

如果follower和leader数据一致，则直接发送DIFF告知已经同步；
判断这一阶段内有无已经北提交的决议值，如果有，那么
a) 如果有部分数据没有同步，leader发送DIFF包将有差异的数据同步过去，同时将follower没有的数据逐个发送commit包给follower要求记录下来；
b) 如果follower数据zxid更大，发送TRUNC包给follower要求删除多余数据
如果这一阶段没有提交的决议，直接发送SNAP包将快照同步给follower

以上消息完毕后，LEADER发送UPTODATE包告知follower当前数据已同步，等待follower的ACK完成同步过程。

本文出自溪木镇的铁匠铺，转载时请注明出处及相应链接。

本文永久链接: http://www.zhouyoudao.com/zookeeper-data

分享到：

ZooKeepr日志清理 | Zabbix网络监控软件介绍

2014-09-22 13:12
浏览 7303
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

zookeeper的数据存储和同步

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

zookeeper的数据存储和同步

评论

发表评论

相关推荐

RocksDB数据库简介及使用分享

你用过Excel，却不知还有一款神器“FineReport”

Redis底部的几种存储结构（sds、dict、ziplist、intset、skiplist）

Structured Streaming + Kafka 集成 + Redis管理Offset（Kafka broker version 0.10.0 or h

LibSVM文件转换为csv格式

生成libSVM的数据格式及使用方法总结

hadoop、hbase、spark环境变量配置

本地文件上传hadoop再导入hbase

spark 将DataFrame所有的列类型改为double

spark– 如何定义DataFrame的分区？

Spark 创建RDD、DataFrame各种情况的默认分区数

spark的JDBC连接池（Scala版）

Spark中foreachRDD、foreachPartition和foreach

Spark读写Phoenix

HBase读写的几种方式（三）flink篇

HBase读写的几种方式（一）java篇

HBase读写的几种方式（二）spark篇

Hive教程

StructuredStreaming消费kafka的数据案例

理解Spark中Job-Stage-Task之间的关系

最近访客更多访客>>