浏览: 950427 次
性别:
来自: 重庆

最近访客更多访客>>

stingice

u014594108

f641385712

StartKeep

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Kafka数据可靠性与一致性解析

博客分类：

Kafka

1.Partition Recovery机制

每个Partition会在磁盘记录一个RecoveryPoint, 记录已经flush到磁盘的最大offset。当broker fail 重启时,会进行loadLogs。首先会读取该Partition的RecoveryPoint,找到包含RecoveryPoint的segment及以后的segment, 这些segment就是可能没有完全flush到磁盘segments。然后调用segment的recover,重新读取各个segment的msg,并重建索引

优点

1.以segment为单位管理Partition数据,方便数据生命周期的管理,删除过期数据简单
2.在程序崩溃重启时,加快recovery速度,只需恢复未完全flush到磁盘的segment
3.通过index中offset与物理偏移映射,用二分查找能快速定位msg,并且通过分多个Segment,每个index文件很小,查找速度更快。

2.Partition Replica同步机制

1.Partition的多个replica中一个为Leader,其余为follower
2.Producer只与Leader交互,把数据写入到Leader中
3.Followers从Leader中拉取数据进行数据同步
4.Consumer只从Leader拉取数据

ISR:所有不落后的replica集合, 不落后有两层含义:距离上次FetchRequest的时间不大于某一个值或落后的消息数不大于某一个值, Leader失败后会从ISR中选取一个Follower做Leader

关于replica复制详解请移步：Kafka副本同步机制理解

3.数据可靠性保证

当Producer向Leader发送数据时,可以通过acks参数设置数据可靠性的级别

1.0: 不论写入是否成功,server不需要给Producer发送Response,如果发生异常,server会终止连接,触发Producer更新meta数据;
2.1: Leader写入成功后即发送Response,此种情况如果Leader fail,会丢失数据
3.-1: 等待所有ISR接收到消息后再给Producer发送Response,这是最强保证
仅设置acks=-1也不能保证数据不丢失,当Isr列表中只有Leader时,同样有可能造成数据丢失。要保证数据不丢除了设置acks=-1, 还要保证ISR的大小大于等于2,具体参数设置:
1.request.required.acks:设置为-1 等待所有ISR列表中的Replica接收到消息后采算写成功;
2.min.insync.replicas: 设置为大于等于2,保证ISR中至少有两个Replica
Producer要在吞吐率和数据可靠性之间做一个权衡

4.数据一致性保证

一致性定义:若某条消息对Consumer可见,那么即使Leader宕机了,在新Leader上数据依然可以被读到

1.HighWaterMark简称HW: Partition的高水位，取一个partition对应的ISR中最小的LEO作为HW，消费者最多只能消费到HW所在的位置，另外每个replica都有highWatermark，leader和follower各自负责更新自己的highWatermark状态，highWatermark <= leader. LogEndOffset
2.对于Leader新写入的msg，Consumer不能立刻消费，Leader会等待该消息被所有ISR中的replica同步后,更新HW,此时该消息才能被Consumer消费，即Consumer最多只能消费到HW位置

这样就保证了如果Leader Broker失效,该消息仍然可以从新选举的Leader中获取。对于来自内部Broker的读取请求,没有HW的限制。同时,Follower也会维护一份自己的HW,Folloer.HW = min(Leader.HW, Follower.offset)

分享到：

Kafka Broker HA机制 | Kafka Consumer机制优化-保证每条消息至 ...

2017-02-06 10:21
浏览 3567
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Kafka数据可靠性与一致性解析

1.Partition Recovery机制

2.Partition Replica同步机制

3.数据可靠性保证

4.数据一致性保证

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Kafka数据可靠性与一致性解析

1.Partition Recovery机制

2.Partition Replica同步机制

3.数据可靠性保证

4.数据一致性保证

评论

发表评论

相关推荐

Kafka Offset Storage

Kafka文件存储机制那些事

Apache Kafka消息传递可靠性分析

消息队列中点对点与发布订阅区别

Consumer rebalance失败问题定位和解决思路

Kafka Consumer机制优化-保证每条消息至少消费一次

Kafka Broker HA机制

Kafka Producer机制优化-提高发送消息可靠性

mafka平台架构

Apache Kafka中Follower如何与Leader同步数据

如何在Kafka中修改Topic的preferred replica

apache kafka系列之迁移与扩容工具用法

apache kafka系列之客户端开发-java

apache kafka系列之Producer处理逻辑

apache kafka系列之kafka.common.ConsumerRebalanceFailedException异常解决办法

Kafka集群partitions/replicas默认分配解析

kafka参数配置详解

Kafka 设计与原理详解

Kafka命令行常用命令说明(二)

Kafka命令行常用命令说明(一)

最近访客更多访客>>