Apache顶级项目介绍2－Kafka - erixhao - ITeye博客

`

erixhao

浏览: 16721 次
性别:
来自: ShangHai

最近访客更多访客>>

woodding2008

心若水寒

kuku2016

jinfan1115

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

2016-05 ( 5)
更多存档...

最新评论

Apache顶级项目介绍2－Kafka

博客分类：

Apache Hadoop Spark HBase Kafka

Hadoop Spark Kafka Zookeeper

阅读更多

Apache顶级项目介绍系列－1，我们从Kafka说起。why？流行＋名字cool。

Kafka官网是见过比较简单，直叙的网站，“kafka是一个高吞吐的分布式的消息系统”。 Kafka最初起家于LinkedIn，当时原本作为linkedin用来管理活动流(PV,用户行为分析，搜索情况)和运营数据处理的pipline的基础。

因为其分布式以及高吞吐被广泛使用，如与Cloudera, Hadoop, Storm, Spark etc.

kafka首先作为一个消息系统，提供了基本功能，如解耦，顺序性，异步性等。同时优质的设计理念支撑高吞吐，提供O(1)时间负责度持久化能力，数据级别达到TB/PB以上，支持离线与实时处理，即与hadoop，storm对接，支持水平scale out。

架构图：

可以看到，kafka是一个分布式架构设计(当然DT时代，不支持水平scale out无法生存)，前段producer并发（支持批量）push消息到kafka特定topic集群服务器broker，每个topic又包含多个partition便于水平扩展，消费者consumer通过consumer group向broker服务器pull获取消息。kafka通过zk管理集群配置，选举leader，以及rebalance。消息模式为push／pull。

我们来建一个kafka集群服务：

通过zk发送，消费消息：

用java来生产／消费消息：

比较直白，这里注意可以批量发送消息，不是所有消息中间件可以批量发送的，批量发送是高吞吐原因之一。

这里使用stream流来消费payload，消息流迭代器用不停止，类似监听消息一样。

kafka之所以高效或者其创新点：

消息删除管理通常消息中间件会消费一个消息，删除一个消息，这使得消息的使用代价非常高额。而kafka使用无状态管理，引入消息偏移量，消息基于时间的SLA应用保留策略，当消息超过一定时间后才被删除，这样按照官网的说法，消费Kafka消息就是非常轻量级：come and go. 听起来像外卖一样，take and go. 甚至，由于引入偏移量，消费者可以随意获取任意位置消息，包括重新获取已经消费过的消息。

2. Kafka利用linux sendfile从linux kernel复制文件

3.kafka引入zk，管理分布式协调，HA，容错。zk用来管理kafaka代理broker，当kafka新增或者某代理失效，zk服务将通知生产者与消费者。

4. 生产者性能，消息结构优化大小以及批量发送

5. 消费这性能：消息结构优化以及无状态引入便宜量，无需为何b＋树索引。

总体来说kafka表现异常突出，不失为通常消息中间件的代替品，如果管理hadoop，stream更是首推。另外如果处理网站日志，用户使用行为分析，或者离线处理log等都是不二之选。

好了，先到这里了，起个大早来写东西，果然不靠谱，时间紧任务重啊。望大家包涵，有些图借用自网络。

公众号：技术极客TechBooster

查看图片附件

分享到：

Apache顶级项目介绍系列3 - ZooKeeper | Apache顶级项目介绍系列1－概览

2016-05-28 11:05
浏览 575
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

开源项目-confluentinc-confluent-kafka-go.zip: 总的来说，开源项目-confluentinc-confluent-kafka-go.zip为Go开发者提供了一个强大、稳定的工具，以利用Apache Kafka进行实时数据处理和流应用的开发。通过这个库，开发者可以专注于业务逻辑，而无需过于关心底层...

confluent-kafka-donet: 【压缩包子文件的文件名称列表】"confluent-kafka-dotnet-master"：这个文件名表明了这是Confluent.Kafka.DotNet项目的源码仓库的主分支，通常包含项目的源代码、编译脚本、测试用例、文档和其他相关资源。...

PyPI 官网下载 | mypy-boto3-kafka-1.11.7.1.tar.gz: 它最初由LinkedIn设计，后来成为Apache顶级项目。Kafka作为一个分布式消息系统，其主要功能是处理实时数据流，它具有高吞吐量、持久化、分区和复制等特点，广泛应用于大数据处理、日志收集、实时分析等领域。 "Mypy...

flume-kafka-storm源程序: **Kafka**: Kafka是LinkedIn开源的一款高吞吐量、分布式的发布/订阅消息系统，现在也是Apache软件基金会的顶级项目。Kafka能够处理大量的实时数据，作为消息中间件，它提供了消息持久化、分区和复制功能，使得数据...

springboot-kafka: 接下来是Apache Kafka，这是一个分布式流处理平台，最初由LinkedIn开发，现在是Apache软件基金会的顶级项目。Kafka是一个高吞吐量的实时发布订阅消息系统，设计目标是处理海量数据，同时提供低延迟和高可靠性。Kafka...

camel-kafka:scala 2.11 为camel-kafka 构建: 2. **Kafka**：Kafka是一个高吞吐量、分布式的消息系统，最初由LinkedIn开发，现在是Apache软件基金会的顶级项目。它被设计为一个实时的数据管道，可以处理大量的实时数据流。 3. **Scala 2.11**：Scala是一种多...

linux-kafka-2.8.0.zip: Kafka最初由LinkedIn开发，后来成为Apache软件基金会的顶级项目，现在被广泛应用于大数据领域。这个压缩包包含了运行和管理Kafka 2.8.0版本所需的所有组件和配置文件。 1. **Kafka架构**： Kafka的核心概念包括...

千锋-kafka21: Apache Kafka是一款高吞吐量的分布式消息中间件，最初由LinkedIn开发，后成为Apache软件基金会的顶级项目。Kafka主要用于构建实时数据管道和流处理应用，它在大数据领域扮演着重要的角色。 1. **Kafka组件与架构** ...

kafka资源下载kafka_2.11-2.0.0.tgz: Apache Kafka是一种开源的消息队列服务，它最初由LinkedIn开发，并于2011年成为Apache软件基金会的一个顶级项目。Kafka因其高性能、可扩展性和可靠性而受到广泛欢迎，被许多大型组织用于构建实时数据管道和流处理...

kafka-manager 最新版本已经编译好，可直接使用: Kafka-Manager是一款开源的Apache Kafka管理工具，由Xiaomi公司开发并维护。它提供了一个用户友好的界面，使得Kafka集群的管理和监控变得更加直观和便捷。在本压缩包中，你获得的是kafka-manager的最新版本——1.3....

Apache-Kafka-Documentation:Apache Kafka中文文档: Apache Kafka 是一个开源的分布式流处理平台，由LinkedIn开发并在2011年开源，随后被Apache软件基金会接纳为顶级项目。Kafka设计目标是成为一个高吞吐量、低延迟的消息发布与订阅系统，同时支持实时数据流处理。它在...

apache-zookeeper-3.5.9、cmak-3.0.0.5、kafka-2.12-2.8.2: - **简介**: Kafka是由LinkedIn开发，现在是Apache软件基金会的顶级项目，是一个高吞吐量的分布式发布订阅消息系统。它可以处理大量的实时数据。 - **版本 2.12-2.8.2**: 这表明Kafka的Java库是针对Scala 2.12构建...

Kafka全套学习视频: - Apache Kafka是一种分布式流处理平台，它最初由LinkedIn开发，后来成为Apache软件基金会的一个顶级项目。 - Kafka被设计为一个高吞吐量、低延迟的消息系统，适用于实时数据流处理场景。 2. **特点**： - **...

Apache Kafka × Apache Flink Meetup-北京站20190512.zip: Apache Flink，则是一个用于处理无界和有界数据流的开源流处理框架，也是Apache顶级项目之一。Flink以其强大的流处理能力，支持事件时间处理和状态管理，使得它在实时分析和复杂事件处理上独具优势。Flink与Kafka的...

大数据采集技术-Kafka简介.pptx: 它最初由LinkedIn开发，后来成为Apache基金会的顶级项目，被全球众多企业广泛采用，以处理大规模的数据流和进行实时分析。 **Kafka的核心概念** 1. **生产者(Producer)**: 生产者是向Kafka集群发布消息的客户端。...

kafka-2.10-0.10.2.1.zip: Kafka是一款分布式流处理平台，由LinkedIn开发并开源，后来成为了Apache软件基金会的顶级项目。在本提供的资源“kafka-2.10-0.10.2.1.zip”中，包含的是Windows版的Kafka 0.10.2.1版本。这个版本适用于基于Java 2.10...

kafka_2.11-0.11.0.0 kafka_2.12-2.8.1 kafka_2.12-3.0.0: Kafka最初由LinkedIn开发，后来成为了Apache软件基金会的顶级项目。它主要用于实时数据流处理和大数据的存储，被广泛应用于日志收集、网站活动跟踪、流式数据处理、消息系统等多个场景。 Kafka的核心特性包括高吞吐...

Introduction to Apache Kafka.pdf: - 2013年从Apache孵化器毕业，成为顶级项目。 - 2014年被Cloudera实验室采纳。 - 2015年开始支持CDH中的生产使用。 - **核心特点**： - **可扩展性**：Kafka是一个分布式系统，支持多个节点。 - **容错性**：...

Apache Kafka实战epu.rar: Kafka是一个高吞吐量、低延迟的消息发布订阅系统，最初由LinkedIn开发，后来成为Apache软件基金会的顶级项目。首先，Kafka的核心概念包括生产者、消费者和主题（Topic）。生产者是数据的源头，负责发布消息到Kafka...

kafka_2.11-2.0.0.tgz: Apache Kafka是一款分布式流处理平台，由LinkedIn开发并开源，后来成为了Apache软件基金会的顶级项目。它被广泛用于构建实时数据管道和流应用，能够高效地处理大量实时数据。在本文中，我们将深入探讨Kafka的核心...

Global site tag (gtag.js) - Google Analytics