`

kafka简介

 
阅读更多

 

0 kafka的业务应用场景:

 

数据实时存在,但是在某点上会出现高峰,这些活跃数据无法确定大小,

比如随着商家促销,节假日打折,造成数据忽高忽低,

这些数据对系统有利,因此需要记录。

而对于活跃数据分析中:

a) 传统日志分析方式都是需要离线,而且操作起来比较复杂,根本无法满足实时的分析

b)  现有的消息队列系统,因为无法消费大量的持久化在队列系统上的信息 所以只能达到近似实时的分析

 

Kafka的目标就是能够成为一个高效的队列平台,无论是处理离线的信息还是在线的信息

从而结合了 a b的处理,以符合业务的需求。

 

 

 

 问题: 我用这个kafka在高吞吐下 对数据如何处理  怎么处理, 弄个应用场景 理解下???

双十一下 淘宝消费动态的消费数据在大屏幕下的汇总

 

1 体系结构

 



 

集群结构:

kafka集群在zookeeper上注册,告诉zookeeper,我们都是kafka的broker,

消息生产者向zookeeper问询,得到一个kakfa的节点,然后在向kafka的这个节点push message

消费者各式各样,消费数据时,向zookeeper问询,得到一个kakfa的节点,

然后在向kafka的这个节点pukk message

 

生产者和kafka  消费者和kafka 以及kafka各自节点之间 通过zookeeper来解耦

结构图如下:

 



 

 

核心概念:

 

topic: 相同性质的message会放在一个topic中

         网址访问PV

        电商交易数据 就应该放在两个topic中

 

partition: 分区,类似于elasticsearch,把数据分成好几份,每一份存储在不同节点上,

              比如双十二电商交易数据过多,存放在同一个topic上容易造成硬盘盛满,

              那么可以把这个topic分成三个(3个仅仅是举例而已)partiton,

              每一个partition存放在一个节点上,

              partition的存在好处是:a) 扩容,让每个节点可以存放更多topic b)负载均衡 访问的时候可以同时向

              这三个节点来得到电商交易数据

 

每个partition就是一个log quene, 保证了时间有序,

日志的生命周期不由是否消费了日志决定,而由系统设置的broker中暂存日志生命周期时间来确定。

因此日志数据会暂存一段时间,多消费者消费时仅仅过了读取存储的数据即可。

 

 

offset: 消息存储偏移量,消息进来的时候长度可大可小,因此用偏移量来定位每个消息的位置

 

consume group:  一个消息(电影)能被消费者(观众)共享

                            一个车票 对应一个人  非共享

                           同一consume group中的消费者只能有一个消费同一条消息 

                          不同consume group之间的消费者可以共享同一条消息。

 

 

 

 

 

 

 

 

  • 大小: 36.6 KB
  • 大小: 165.4 KB
  • 大小: 32.1 KB
分享到:
评论

相关推荐

    Kafka简介.ppt

    kafka简介架构说明 生产者消费者broker kafka使用命令 ppt

    kafka简介与kafka深入浅出两个资料.rar

    **Kafka简介** Apache Kafka是一款高吞吐量的分布式发布订阅消息系统,最初由LinkedIn开发,后成为Apache软件基金会的顶级项目。Kafka的设计目标是处理实时数据流,它能够处理大量的实时数据,并且提供了消息持久化...

    Kafka简介及使用PHP处理Kafka消息

    Kafka简介及使用PHP处理Kafka消息 Kafka 是一种高吞吐的分布式消息系统,能够替代传统的消息队列用于解耦合数据处理,缓存未处理消息等,同时具有更高的吞吐率,支持分区、多副本、冗余,因此被广泛用于大规模消息...

    Kafka学习思维导图-Kafka原理-kafka简介

    一.kafka简介 1.介绍 kafka是一个分步数据流平台,可以分布在单个服务器上,也可以分布在多个服务器上部署形成集群,提供了发布和订阅功能,使用者可以发送数据到kafka中,也可以从kafka中读出数据,kafka具有高吞吐...

    kafka简介.txt

    kafka kafka简介.txtkafka简介.txtkafka简介.txtkafka简介.txtkafka简介.txtkafka简介.txt

    kafka简介.docx

    【Kafka 简介】 Kafka 是一个高性能的分布式消息系统,最初由 LinkedIn 开发,现已成为 Apache 软件基金会的顶级项目。Kafka 以其可扩展性和高吞吐量著称,广泛应用于大数据处理、日志聚合、实时流处理等领域。...

    大数据采集技术-Kafka简介.pptx

    【大数据采集技术与Kafka简介】 Kafka是一个高效、可扩展的开源分布式事件流平台,主要应用于构建实时数据管道和流处理应用。它最初由LinkedIn开发,后来成为Apache基金会的顶级项目,被全球众多企业广泛采用,以...

    Kafka简介(入门篇).md

    Kafka简介,入门篇

    Kafka简介.pptx

    Kafka的PPT讲义,入门级 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作 流数据。 这种动作(网页浏览...

    一、Kafka简介.docx

    【Kafka】是一种分布式发布-订阅消息系统,由Apache开发,设计目的是为了处理大规模的数据流。Kafka将消息持久化到磁盘,并在集群中进行复制,以确保高可用性和容错性。它与ZooKeeper协同工作,提供了一个可靠且高...

    简介kafka简介

    **Kafka简介** Apache Kafka是一款高吞吐量、分布式、基于发布/订阅的消息系统,由LinkedIn开发并贡献给了Apache软件基金会。Kafka的设计目标是成为一个实时数据管道,能够可靠地在生产者和消费者之间传输大量数据...

    读书笔记:spark相关的应用和知识,包括scala编程,spark运行.scala文件和kafka简介..zip

    读书笔记:spark相关的应用和知识,包括scala编程,spark运行.scala文件和kafka简介.

    Go操作kafka—-kafka简介

    一.kafka简介 1.介绍 kafka是一个分步数据流平台,可以分布在单个服务器上,也可以分布在多个服务器上部署形成集群,提供了发布和订阅功能,使用者可以发送数据到kafka中,也可以从kafka中读出数据,kafka具有高吞吐...

    消息队列Kafka简介基本用法

    消息队列kafka的基本用法与介绍

    kafka资源下载kafka_2.11-2.0.0.tgz

    #### Kafka简介 Apache Kafka是一种开源的消息队列服务,它最初由LinkedIn开发,并于2011年成为Apache软件基金会的一个顶级项目。Kafka因其高性能、可扩展性和可靠性而受到广泛欢迎,被许多大型组织用于构建实时...

    kafka教程

    第1课 Kafka简介 第2课 Kafka架构 第3课 Kafka HA 第4课 Zookeeper与Kafka 第5课 Kafka领导选举 第6课 Consumer 第7课 Consumer offset管理 第8课 Consumer的stream接口 第9课 Kafka高性能之道 第10课 Kafka监控工具...

    springboot - 2.7.3版本 - (七)整合Kafka

    **Apache Kafka简介** Apache Kafka是一个分布式流处理平台,它被设计为一个高吞吐量、低延迟的消息中间件。Kafka支持发布/订阅模型,允许数据生产者发布消息到主题,而消费者则可以订阅这些主题并消费消息。 **...

    kafkatool 2.0.9 Windows & maxOS & Linux

    **一、Kafka 简介** Apache Kafka 是一个开源流处理平台,由 LinkedIn 开发并贡献给 Apache 软件基金会。Kafka 具有高吞吐量、低延迟、持久化、分区和复制等特性,广泛应用于实时数据管道和流式应用程序。Kafkatool...

Global site tag (gtag.js) - Google Analytics