Kafka

huangyongxing310

浏览: 508622 次
性别:
来自: 广州

最近访客更多访客>>

hiroada

lixiaoxin

u012363178

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

kafka

Kafka

Kafka

消息队列MQ技术的一种应用

kafka的构架：
1.Brocker：Kafka集群包含一个或多个服务器，这种服务器被称为broker。生产者向Brocker发送事件，消费者从Brocker中拿事件
2.Topic：可以将topic看成是一个消息队列，每个事件都必须指定其要存在在哪个topic中（这里倒是可以当成事件的分类来看待），
topic是存在于brocker之中的
3.Partition：每个topic都可以包含一个或者多个partition，可以将topic中的各个事件按照规则分开存放
4.Producer：即生产者，负责发送事件到kafka brocker
5.Consumer：即消费者，从kafka brocker读取事件
6.Consumer Group：每个Consumer属于一个特定的Consumer Group（可为每个Consumer指定group name，若不指定group name则属于默认的group）。
7.无论是kafka集群，还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。

kafka通过Consumer Group来实现消息的广播和单播，一个事件发送到一个Consumer Group中，那么这个Group中只能有一个Consumer消费这个事件，但是其他的Consumer Group也可以由其中的一个Consumer来消费这个事件

如果要实现广播，让每个Consumer都能收到某个Topic中的事件，只要让各个Consumer处在不同的Consumer Group中即可；单播则是
将所有的Consumer放在一个Consumer Group中

示意图：

kafka构架图：

图中的zk起到的作用就是负载均衡，将集群中的变化及时同步到各个节点中，保证集群是一致的

参考原文：http://blog.csdn.net/qq1010885678/article/details/47302557

相关功能描述：
对于传统的message queue而言，一般会删除已经被消费的消息，而Kafka集群会保留所有的消息，无论其被消费与否。当然，因为磁
盘限制，不可能永久保留所有数据（实际上也没必要），因此Kafka提供两种策略删除旧数据。一是基于时间，二是基于Partition文
件大小。

Producer发送消息到broker时，会根据Paritition机制选择将其存储到哪一个Partition。如果Partition机制设置合理，所有消息可
以均匀分布到不同的Partition里，这样就实现了负载均衡。

一个Topic可以认为是一类消息，每个topic将被分成多个partition(区),每个partition在存储层面是append log文件。任何发布到此
partition的消息都会被直接追加到log文件的尾部，每条消息在文件中的位置称为offset（偏移量），offset为一个long型数字，它
是唯一标记一条消息。它唯一的标记一条消息。kafka并没有提供其他额外的索引机制来存储offset，因为在kafka中几乎不允许对消
息进行“随机读写”。

对于consumer而言,它需要保存消费消息的offset,对于offset的保存和使用,有consumer来控制;当consumer正常消费消息时,offset
将会"线性"的向前驱动,即消息将依次顺序被消费.事实上consumer可以使用任意顺序消费消息,它只需要将offset重置为任意值..
(offset将会保存在zookeeper中)

partitions的设计目的有多个.最根本原因是kafka基于文件存储.通过分区,可以将日志内容分散到多个server上,来避免文件尺寸达
到单机磁盘的上限,每个partiton都会被当前server(kafka实例)保存;可以将一个topic切分多任意多个partitions,来消息保存/消费
的效率.此外越多的partitions意味着可以容纳更多的consumer,有效提升并发消费的能力.每个partition对应于一个文件夹，该文件
夹下存储该partition的数据和索引文件

一个Topic的多个partitions,被分布在kafka集群中的多个server上;每个server(kafka实例)负责partitions中消息的读写操作;此外
kafka还可以配置partitions需要备份的个数(replicas),每个partition将会被备份到多台机器上,以提高可用性.

基于replicated方案,那么就意味着需要对多个备份进行调度;每个partition都有一个server为"leader";leader负责所有的读写操作,
如果leader失效,那么将会有其他follower来接管(成为新的leader);follower只是单调的和leader跟进,同步消息即可..由此可见作为
leader的server承载了全部的请求压力,因此从集群的整体考虑,有多少个partitions就意味着有多少个"leader",kafka会将"leader"
均衡的分散在每个实例上,来确保整体的性能稳定.

本质上kafka只支持Topic.每个consumer属于一个consumer group;反过来说,每个group中可以有多个consumer.发送到Topic的消息,
只会被订阅此Topic的每个group中的一个consumer消费.

如果所有的consumer都具有相同的group,这种情况和queue模式很像;消息将会在consumers之间负载均衡.
如果所有的consumer都具有不同的group,那这就是"发布-订阅";消息将会广播给所有的消费者.
在kafka中,一个partition中的消息只会被group中的一个consumer消费;每个group中consumer消息消费互相独立;我们可以认为一个
group是一个"订阅"者,一个Topic中的每个partions,只会被一个"订阅者"中的一个consumer消费,不过一个consumer可以消费多个
partitions中的消息.kafka只能保证一个partition中的消息被某个consumer消费时,消息是顺序的.

kafka的设计原理决定,对于一个topic,同一个group中不能有多于partitions个数的consumer同时消费,否则将意味着某些consumer
将无法得到消息.

Kafka的消息是存放到磁盘的，因为中顺序读写所以效率是很高的，（随机读写因为磁头来回变动所以慢）

Kafka的消息存储格式：[Offset MessageSize Message]
Offset：消息偏移（不断增大（64位））
MessageSize:消息长度（（64位））
Message:消息数据
当然数据里是有数据的CRC校验的。

1.数据文件并不是只有一个文件，而是由多个文件（segment）组成的，每个segment名为该segment第一条消息的offset和“.kafka”组成。
2.另外会有一个索引文件，它标明了每个segment下包含的log entry的offset范围，因为每条消息都被append到该partition中，是顺序
写磁盘，因此效率非常高
3.每一条消息被发送到broker时，会根据paritition规则选择被存储到哪一个partition。如果partition规则设置的合理，所有消息可以
均匀分布到不同的partition里，这样就实现了水平扩展。（读取的时候可以先计算出到那个partition进行读索引文件找到数据，不用全
broker搜索）

主从复制备份原理
kafka将每个partition数据复制到多个server上,任何一个partition有一个leader和多个follower(可以没有);备份的个数可以通过
broker配置文件来设定.leader处理所有的read-write请求,follower需要和leader保持同步.Follower和consumer一样,消费消息并
保存在本地日志中;leader负责跟踪所有的follower状态

如果follower"落后"太多或者失效,leader将会把它从replicas同步列表中删除.当所有的follower都将一条消息保存成功,此消息才
被认为是"committed",那么此时consumer才能消费它.即使只有一个replicas实例存活,仍然可以保证消息的正常发送和接收,只要
zookeeper集群存活即可.

kafka支持一次读多个消息和copyfile提高主从复制的效率

主从同步中的维护了一个ISR(a set of in-sync replicas)表(集)，表中是数据同步的follower列表，一个消息发送到leader后，
消息必须要同步到了ISR中的所有列表时才会认为提交成功，当leader down掉了，就会从ISR中找出一个ID最小的作为Leader,ISR
中follower的数据是同步的.所以只要ISR中有一个follower是工作的还能正常提供服。

1) Producer端使用zookeeper用来"发现"broker列表,以及和Topic下每个partition leader建立socket连接并发送消息.
2) Broker端使用zookeeper用来注册broker信息,已经监测partitionleader存活性.
3) Consumer端使用zookeeper用来注册consumer信息,其中包括consumer消费的partition列表等,同时也用来发现broker列表,并和
partition leader建立socket连接,并获取消息.

Kafka通过Zookeeper实现它的功能的，只要配置好相关的配置文件，Kafka就会与Zookeeper合作完成集群功能的.Kafka会在Zookeeper中生成一堆的目录，每个应用都监控Zookeeper相关目录的变化而作出相应的处理.如：Broker发生变化，

参考原文：http://www.cnblogs.com/likehua/p/3999538.html