`
1028826685
  • 浏览: 939126 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
社区版块
存档分类

Kafka数据可靠性与一致性解析

 
阅读更多

1.Partition Recovery机制

每个Partition会在磁盘记录一个RecoveryPoint, 记录已经flush到磁盘的最大offset。当broker fail 重启时,会进行loadLogs。 首先会读取该Partition的RecoveryPoint,找到包含RecoveryPoint的segment及以后的segment, 这些segment就是可能没有 完全flush到磁盘segments。然后调用segment的recover,重新读取各个segment的msg,并重建索引

优点

  • 1.以segment为单位管理Partition数据,方便数据生命周期的管理,删除过期数据简单
  • 2.在程序崩溃重启时,加快recovery速度,只需恢复未完全flush到磁盘的segment
  • 3.通过index中offset与物理偏移映射,用二分查找能快速定位msg,并且通过分多个Segment,每个index文件很小,查找速度更快。

2.Partition Replica同步机制

  • 1.Partition的多个replica中一个为Leader,其余为follower
  • 2.Producer只与Leader交互,把数据写入到Leader中
  • 3.Followers从Leader中拉取数据进行数据同步
  • 4.Consumer只从Leader拉取数据

ISR:所有不落后的replica集合, 不落后有两层含义:距离上次FetchRequest的时间不大于某一个值或落后的消息数不大于某一个值, Leader失败后会从ISR中选取一个Follower做Leader

关于replica复制详解请移步:Kafka副本同步机制理解

3.数据可靠性保证

当Producer向Leader发送数据时,可以通过acks参数设置数据可靠性的级别

  • 1.0: 不论写入是否成功,server不需要给Producer发送Response,如果发生异常,server会终止连接,触发Producer更新meta数据;
  • 2.1: Leader写入成功后即发送Response,此种情况如果Leader fail,会丢失数据
  • 3.-1: 等待所有ISR接收到消息后再给Producer发送Response,这是最强保证 
    仅设置acks=-1也不能保证数据不丢失,当Isr列表中只有Leader时,同样有可能造成数据丢失。要保证数据不丢除了设置acks=-1, 还要保 证ISR的大小大于等于2,具体参数设置:

  • 1.request.required.acks:设置为-1 等待所有ISR列表中的Replica接收到消息后采算写成功;

  • 2.min.insync.replicas: 设置为大于等于2,保证ISR中至少有两个Replica 
    Producer要在吞吐率和数据可靠性之间做一个权衡

4.数据一致性保证

一致性定义:若某条消息对Consumer可见,那么即使Leader宕机了,在新Leader上数据依然可以被读到

  • 1.HighWaterMark简称HW: Partition的高水位,取一个partition对应的ISR中最小的LEO作为HW,消费者最多只能消费到HW所在的位置,另外每个replica都有highWatermark,leader和follower各自负责更新自己的highWatermark状态,highWatermark <= leader. LogEndOffset
  • 2.对于Leader新写入的msg,Consumer不能立刻消费,Leader会等待该消息被所有ISR中的replica同步后,更新HW,此时该消息才能被Consumer消费,即Consumer最多只能消费到HW位置

这样就保证了如果Leader Broker失效,该消息仍然可以从新选举的Leader中获取。对于来自内部Broker的读取请求,没有HW的限制。同时,Follower也会维护一份自己的HW,Folloer.HW = min(Leader.HW, Follower.offset)

分享到:
评论

相关推荐

    Kafka源码解析与实战

    ### Kafka源码解析与实战 #### 一、Kafka简介 Kafka是由Apache软件基金会开发的一款开源流处理平台,主要用于构建实时数据管道以及基于流的数据处理应用。它以分布式的方式运行,具有高吞吐量、低延迟的特点,适用...

    kafka源码解析与实战

    2. **数据存储**:深入解析Kafka如何将消息持久化到磁盘,包括Log文件的组织结构、Segment机制以及如何保证数据的可靠性和一致性。 3. **网络通信**:分析Kafka的Netty为基础的网络层实现,探讨Request/Response...

    kafka权威指南和源码解析实战

    5. **Kafka的数据持久化与复制**:深入理解Kafka如何保证数据的一致性和可靠性。 6. **Kafka与大数据生态的整合**:如Hadoop、Spark、Flink等,展示Kafka在大数据处理中的关键角色。 《Kafka源码解析与实战》则可能...

    C#kafka开发实例

    此外,Kafka的幂等性和Exactly-Once语义(通过Idempotent Producer和Transaction Support)确保了数据一致性。 4. **C#中的Kafka高级特性**: - **幂等性生产者**:启用幂等性可以防止重复消息。 - **事务支持**...

    【引领数据流动的未来:深度解析Kafka分布式消息系统】

    通过详尽的案例分析与实践指导,您将领略到Kafka如何以优雅的方式解决现代应用面临的数据一致性、负载均衡与故障恢复等难题。从基础安装配置到高级优化策略,从生产者消费者的精细控制到集群运维的最佳实践,本资源...

    kafka源码解析新手版本

    通过以上介绍,我们可以看出 Kafka 不仅是一个简单的消息中间件,更是一个高性能、高可靠性的数据传输平台。对于新手来说,通过逐步学习和理解 Kafka 的核心概念及其背后的实现原理,将有助于更好地利用 Kafka 解决...

    Kafka到底有多高可靠?(RNG NB).doc

    《Kafka的高可靠性解析》 Kafka,作为一款广泛使用的分布式消息中间件,以其卓越的性能、高并发处理能力和高可靠性赢得了业界的青睐。在深入探讨Kafka的高可靠性之前,我们需要理解“高可靠性”这一概念。在系统...

    有关kafka的三本电子书,电子文档

    书中会详细阐述如何设置和管理Kafka集群,以及如何确保数据的一致性和可靠性。此外,它还会深入讨论Kafka的内置特性,如Offset管理和Consumer Group机制,这些是理解Kafka工作原理的关键。 接着,《Kafka实战指南》...

    kafka权威指南中文版

    - **Zookeeper**:协调Kafka集群,管理元数据,确保集群的高可用性和一致性。 - **Producer API**:允许应用程序向Kafka发布消息。 - **Consumer API**:允许应用程序从Kafka订阅和消费消息。 - **Connect API**...

    excel数据抽取到kafka工具

    8. **监控与维护**:部署后,定期检查工具的运行状态,监控Kafka主题的消费情况,确保数据的完整性和一致性。 通过以上步骤,我们可以利用“excel2kafka”工具有效地将Excel数据集成到Kafka中,进而进行实时数据...

    kafka经典书籍

    通过源码分析,读者可以了解Kafka如何实现高效的I/O操作、如何处理分布式一致性问题,以及如何优化性能。此外,实战部分会给出具体的应用场景,帮助读者将理论知识转化为实际操作能力。 学习这两本书,你将能够: ...

    storm-kafka整合代码

    在分布式计算领域,Apache Storm 和 Apache Kafka 是两个非常重要的组件。Storm 用于实时数据处理,而 Kafka 则是一个...在实际开发中,还需要关注性能优化、容错机制、数据一致性等问题,以确保系统的稳定性和可靠性。

    zookeeper、kafka

    Zookeeper的强一致性模型使得它在分布式环境中特别可靠,能确保数据的一致性和准确性。在Linux或Windows环境下部署Zookeeper,通常需要下载如`zookeeper-3.4.8.tar.gz`这样的压缩包,解压后进行配置并启动服务,以便...

    ELK+KAFKA+FILEBEAT

    - **可靠性**:即使在高并发情况下,Kafka也能确保数据的一致性和可靠性。 - **可扩展性**:Kafka支持水平扩展,随着数据量的增长,可以通过增加更多的节点来提升处理能力。 #### 三、ELKF平台搭建步骤 下面将详细...

    kafka_2.13-2.8.1.tgz

    《深入理解Kafka:从kafka_2.13-2.8.1.tgz解压文件探索》 Apache Kafka是一款高...通过对源码的学习,我们可以更深入地了解Kafka如何实现高效的消息传递,如何保证数据的一致性和可靠性,以及如何优化性能和扩展性。

    kafka examples source code

    主题是逻辑上的分类,而分区是物理上的存储单位,确保了数据的顺序性和一致性。 在"Kafka-examples-0.10.1.0-sources.jar"中,我们可以找到丰富的示例代码,涵盖了以下几个关键知识点: 1. **生产者API**:生产者...

    jeek-Kafka核心技术与实战-全.zip

    5. **Kafka复制与容错**:介绍副本机制,理解Leader和Follower的角色,以及如何实现故障转移和数据一致性。 6. **Kafka消费者模型**:讲解消费者组、高水位标记和自动提交offset的概念,以及如何实现幂等性和 ...

    kafka +zookeper 官方包kafka_2.11-2.3.0.zip

    《Kafka与ZooKeeper深度解析:从官方包到实战应用》 Kafka与ZooKeeper是大数据领域中两个至关重要的组件,它们在分布式系统中扮演着数据流处理和集群协调的重要角色。本文将深入探讨这两个组件的核心概念、功能以及...

    kafka 3.x基础笔记,基础技术,环境搭建,外部集成,生产调优,源码解析

    生产调优涉及的主题包括:提高吞吐量、降低延迟、优化数据分布以及确保数据一致性。这可能需要调整配置参数,如增加分区数、调整批处理大小、使用高级 producer API 等。 5. **源码解析** 深入理解 Kafka 的源码...

    spring-kafka源代码

    此外,Spring Kafka还支持事务,允许开发者在一个事务中执行多个消息操作,确保消息的一致性。 六、消息转换与序列化 Spring Kafka支持多种消息转换器和序列化器,如JsonMessageConverter和StringSerializer。这些...

Global site tag (gtag.js) - Google Analytics