Apache Kafka 是一个高吞吐量分布式消息系统,由LinkedIn开源。引用官网对kafka的介绍:“Apache Kafka is publish-subscribe messaging rethought as a distributed commit log.” “publish-subscribe”是kafka设计的核心思想,也是kafka最具特色的地方。publish在kakfa中是一个producer的角色,subscribe是consumer,就像我们生活中的一样,生产商生产出来的产品,消费者一般不能够直接去工厂购买,还需要一个代理经销商,所以同样的在kafka的生态系统中,有一个broker的角色。所以kafka的生态系统大致可以表述如下:
"producer——>broker<——consumer"
大致的介绍就这么多,具体的大家可以移步官网:http://kafka.apache.org/
接下来是老生常谈的问题:为什么要用kafka?kafka适用什么样的场景?我先和大家分享一下自己再项目中的使用总结,有其他想法的同学欢迎补充:
使用kafka的理由:
1.分布式,高吞吐量,速度快(kafka是直接通过磁盘存储,线性读写,速度快:避免了数据在JVM内存和系统内存之间的复制,减少耗性能的对象创建和垃圾回收)
2.同时支持实时和离线两种解决方案(相信很多项目都有类似的需求,这也是Linkedin的官方架构,我们是一部分数据通过storm做实时计算处理,一部分到hadoop做离线分析)。
3.open source (open source 谁不喜欢呢)
4.源码由scala编写,可以运行在JVM上(笔者对scala很有好感,函数式语言一直都挺帅的,spark也是由scala写的,看来以后有空得刷刷scala)
使用场景:
笔者主要是用来做日志分析系统,其实Linkedin也是这么用的,可能是因为kafka对可靠性要求不是特别高,除了日志,网站的一些浏览数据应该也适用。(只要原始数据不需要直接存DB的都可以)
下面就简单的介绍一下kafka集群的搭建过程:
准备环境:至少3台的linux server(笔者是准备了5台redhat版本的cloud server)
第一步: 安装JDK/JRE
第二步: 安装Zookeeper(kafka自带有zookeeper服务,但是建议大家最好单独建立一个zookeeper集群,可以和其他应用共享,也便于管理)
zookeeper的安装,大家可以参考我的另一篇博文:http://bigcat2013.iteye.com/blog/2175538
第三步:下载kafka :http://kafka.apache.org/downloads.html(最好下载scala预编译好的package,例如我下的是kafka_2.10-0.8.1.1.tgz,意思就是用scala 2.10预编译好的0.8.1.1版本)
第四步:上传安装包到服务器(可以通过WinSCP等)
第五步:使用 "tar -xzvf kafka_2.10-0.8.1.1.tgz "来 解压安装包 :
解压后的目录结构:
第六步:修改配置文件
简答配置的话修改/config/server.properties 就可以了
需要配置的属性有:broker.id(标示当前server在集群中的id,从0开始),port,host.name(当前的server host name),zookeeper.connect(连接的zookeeper集群),log.dirs(log的存储目录,记得对应的去建立这个目录)等,其他的一些配置可以看相应的注释:
第七步:通过“scp -r ”把配置好的kafka目录copy到其他几台server上:
第八步:修改每台server对应的配置文件,主要是修改其中的broker.id 和 host.name 属性:
broker.id从0开始递增,每台server必须唯一
第九步: 先启动zookeeper集群,再启动kakfa集群
kafka启动命令: sudo nohup ./bin/kafka-server-start.sh config/server.properties &
第十步:集群启动成功后,可以试着创建topic,在一台server上创建producer,另外一台创建consumer,从producer上发送信息,看consumer是否能接收到,以验证集群对否成功。
创建topic : sudo ./bin/kafka-topics.sh -zookeeper server1:2181,server2:2181,server3:2181 -topic test -replication-factor 2 -partitions 5 -create
查看topic:sudo ./bin/kafka-topics.sh -zookeeper server1:2181,server2:2181,server3:2181 -list
创建producer:sudo ./bin/kafka-console-producer.sh -broker-list kafkaServer1:9092,kafkaServer2:9092,kafkaServer3:9092 -topic test
创建consumer:sudo ./bin/kafka-console-consumer.sh -zookeeper server1:2181,server2:2181,server3:2181 - from-begining -topic test
通过在创建好的producer控制台输入信息,在consumer的控制台检测输出来测试,如果可以同步接受到信息就说明简单的kakfa 集群搭好了,另外可以根据项目的实际需求进一步做配置。
相关推荐
本篇文档将详细介绍如何在Linux环境中搭建Kafka集群,同时结合Hadoop和Spark的分布式安装,构建一个完整的数据处理平台。 首先,搭建Kafka集群的基础条件包括: 1. 至少一台Linux服务器,但为了高可用性,推荐多台...
【Kafka集群搭建及测试】 Kafka是一种分布式流处理平台,常用于实时数据处理和大数据管道。本文档将详细介绍如何在三台Ubuntu 16虚拟机上搭建Kafka集群,并进行基本的测试,确保其正常运行。 **1. 准备工作** 在...
本教程将详细介绍如何搭建一个Kafka集群。 首先,我们需要理解Kafka集群的基础构成。一个Kafka集群通常包括多个服务器,称为Brokers,它们负责存储和传输消息。每个Broker都有自己的分区(Partitions),这些分区是...
本篇将详细解析如何在Linux环境下配置一个3节点的Kafka集群,特别关注`server.properties`配置文件中的`zookeeper.connect`设置。 首先,我们需要理解Kafka集群的基础架构。Kafka集群由多个Brokers(即服务器)组成...
从提供的内容来看,这本书由Nishant Garg编写,Packt Publishing出版,详细介绍了如何搭建Apache Kafka集群,并通过实用、动手的例子来开发自定义的消息生产者和消费者。Nishant Garg是一位拥有超过13年工作经验的...
### Kafka集群搭建 1. **安装依赖**: 首先,你需要在服务器上安装Java运行环境(JRE)和ZooKeeper,因为Kafka依赖ZooKeeper进行集群管理。 2. **下载Kafka**: 从Apache Kafka官方网站下载最新稳定版本的Kafka,...
**Kafka集群安装部署全量指南** Apache Kafka是一款开源流处理平台,由LinkedIn开发并贡献给了Apache软件基金会。它设计为一个高吞吐量、分布式的消息队列系统,用于处理实时数据流。Kafka通常与ZooKeeper一起使用...
Kafka作为一个高吞吐量、低延迟的发布/订阅消息系统,而Zookeeper则是一个分布式协调服务,用于管理Kafka集群的各种元数据。在这里,我们将深入探讨`kafka集群配置文件`以及它们与`zookeeper集群`的关系。 **1. ...
【标题】"kafka+zookeeper高可用集群搭建shell使用脚本"所涉及的知识点主要集中在构建高可用的Kafka和Zookeeper集群上,以及如何利用Shell脚本来自动化这个过程。Kafka是一个分布式流处理平台,而Zookeeper是Apache...
【Kafka集群搭建详解】 Apache Kafka是一个分布式流处理平台,常用于实时数据处理和消息传递。本教程将详细介绍如何在CentOS 6.5环境下搭建Kafka集群,使用的版本为kafka_2.10-0.10.0.0,依赖JDK 1.8.0_172。集群将...
Kafka集群搭建** Kafka集群提供高可用性和容错性。搭建步骤与单机类似,但需考虑以下几个关键点: 1. **多台机器**:至少需要两台机器来创建集群,每台机器上都需要部署Kafka。 2. **配置更改**:在`server....
第3章详细介绍了Kafka集群环境的搭建;第4、5章深入探讨了Kafka客户端的使用方法;第6章带领读者一览Kafka内部设计原理;第7~9章以实例的方式讲解了Kafka集群的管理、监控与调优;第10章介绍了Kafka新引入的流式处理...
Kafka 集群搭建与使用详解 Kafka 是一种分布式流媒体平台,由 Apache 开源项目提供。它主要用来构建实时数据管道和流媒体处理系统。本文档将详细介绍 Kafka 集群的搭建和使用,包括创建、删除、生产者、消费者等...
在这个环境中,我们将讨论如何搭建 Apache Kafka 0.10.20 的简单环境,并运行 Java Demo。 首先,我们需要下载 Kafka 0.10.20 的发行版,可以从 Apache 官方网站或者 Maven 存储库获取。解压缩后,你会看到一个包含...
1. **环境准备**:安装 Java 环境,因为 Kafka 基于 Java 开发,所以需要 Java 环境支持。 2. **下载 Kafka**:可以从官方网站或者其他可信源下载 Kafka 的最新版本。 3. **解压安装包**:将 Kafka 的安装包解压到...
在Linux环境中搭建Apache Kafka集群是一项重要的任务,尤其对于那些需要处理大量实时数据流的应用场景。Kafka是一个分布式消息系统,它允许高效地发布、订阅和存储数据流。Zookeeper是Apache的一个子项目,用于...
在本文中,我们将详细介绍如何在三个服务器(service1、service2、service3)上搭建一个基本的Kafka集群。 1. **创建Kafka目录**: 在每个服务器的根目录下创建一个名为`kafka`的文件夹,这将作为Kafka安装的位置...