group.id 默认值:无
唯一的指明了consumer的group的名字,group名一样的进程属于同一个consumer group。
zookeeper.connect 默认值:无
指定了ZooKeeper的connect string,以hostname:port的形式,hostname和port就是ZooKeeper集群各个节点的hostname和port。 ZooKeeper集群中的某个节点可能会挂掉,所以可以指定多个节点的connect string。如下所式:
hostname1:port1,hostname2:port2,hostname3:port3
.
ZooKeeper也可以允许你指定一个"chroot"的路径,可以让Kafka集群将需要存储在ZooKeeper的数据存储到指定的路径下这可以让多个Kafka集群或其他应用程序公用同一个ZooKeeper集群。可以使用如下的connect string:
hostname1:port1,hostname2:port2,hostname3:port3/chroot/path
consumer.id 默认值:null
如果没有设置的话则自动生成。
socket.timeout.ms 默认值:30 * 1000
socket请求的超时时间。实际的超时时间为max.fetch.wait + socket.timeout.ms。
socket.receive.buffer.bytes 默认值:64 * 1024
socket的receiver buffer的字节大小。
fetch.message.max.bytes 默认值:1024 * 1024
每一个获取某个topic的某个partition的请求,得到最大的字节数,每一个partition的要被读取的数据会加载入内存,所以这可以帮助控制consumer使用的内存。这个值的设置不能小于在server端设置的最大消息的字节数,否则producer可能会发送大于consumer可以获取的字节数限制的消息。
auto.commit.enable 默认值:true
如果设为true,consumer会定时向ZooKeeper发送已经获取到的消息的offset。当consumer进程挂掉时,已经提交的offset可以继续使用,让新的consumer继续工作。
auto.commit.interval.ms 默认值:60 * 1000
consumer向ZooKeeper发送offset的时间间隔。
queued.max.message.chunks 默认值:10
缓存用来消费的消息的chunk的最大数量,每一个chunk最大可以达到fetch.message.max.bytes。
rebalance.max.retries 默认值:4
当一个新的consumer加入一个consumer group时,会有一个rebalance的操作,导致每一个consumer和partition的关系重新分配。如果这个重分配失败的话,会进行重试,此配置就代表最大的重试次数。
fetch.min.bytes 默认值:1
一个fetch请求最少要返回多少字节的数据,如果数据量比这个配置少,则会等待,知道有足够的数据为止。
fetch.wait.max.ms 默认值:100
在server回应fetch请求前,如果消息不足,就是说小于fetch.min.bytes时,server最多阻塞的时间。如果超时,消息将立即发送给consumer.。
rebalance.backoff.ms 默认值:2000
在rebalance重试时的backoff时间。
refresh.leader.backoff.ms 默认值:200
在consumer发现失去某个partition的leader后,在leader选出来前的等待的backoff时间。
auto.offset.reset 默认值:largest
在Consumer在ZooKeeper中发现没有初始的offset时或者发现offset不在范围呢,该怎么做:
* smallest : 自动把offset设为最小的offset。
* largest : 自动把offset设为最大的offset。
* anything else: 抛出异常。
consumer.timeout.ms 默认值:-1
如果在指定的时间间隔后,没有发现可用的消息可消费,则抛出一个timeout异常。
client.id 默认值: group id value
每一个请求中用户自定义的client id,可帮助追踪调用情况。
zookeeper.session.timeout.ms 默认值:6000
ZooKeeper的session的超时时间,如果在这段时间内没有收到ZK的心跳,则会被认为该Kafka server挂掉了。如果把这个值设置得过低可能被误认为挂掉,如果设置得过高,如果真的挂了,则需要很长时间才能被server得知。
zookeeper.connection.timeout.ms 默认值:6000
client连接到ZK server的超时时间。
zookeeper.sync.time.ms 默认值:2000
一个ZK follower能落后leader多久。
更多细节参见kafka.consumer.ConsumerConfig
类。
相关推荐
《Kafka 2.9.2-0.8.1:分布式消息系统详解》 Apache Kafka 是一个开源的分布式流处理平台,最初由 LinkedIn 开发并贡献给 Apache 软件基金会。它被设计为一个高吞吐量、低延迟的消息传递系统,支持发布和订阅模式的...
在集群管理方面,Kafka 0.8.1 提供了 ZooKeeper 集群协调,使得节点的添加、删除和配置更新变得更加平滑。ZooKeeper 负责存储和管理 Kafka 的元数据,帮助维持集群的稳定运行。 此外,这个版本还优化了性能。Kafka ...
在提供的压缩包文件`kafka_2.12-1.1.1`中,包含了Kafka的二进制发行版,你可以根据上述步骤配置并运行测试。注意,实际部署时,你需要替换配置中的用户名和密码,并考虑使用不同的端口和IP地址,以适应你的网络环境...
创建`KafkaConsumer`实例时,我们需要配置各种参数,例如bootstrap服务器列表、组ID等。这些可以通过`rd_kafka_conf_t`对象来设置: ```cpp rd_kafka_conf_t *conf = rd_kafka_conf_new(); rd_kafka_conf_set(conf,...
在标题"pentaho-kafka-consumer.zip"中,我们看到的是一个专门为Pentaho Kettle定制的Kafka消费者插件的压缩包。 这个压缩包的描述提到了如何在Pentaho环境中安装和使用这个插件。首先,你需要在你的Pentaho Kettle...
### Kafka学习之路——详解Kafka原理与架构 #### 一、Kafka简介 Kafka是一款由LinkedIn开发并开源的消息队列系统,它主要用于处理实时数据流,并能够支持在线和离线的日志处理需求。Kafka的基本特性包括高吞吐量、...
1. **创建Consumer实例**:首先,我们需要配置一个`Properties`对象,设置必要的参数如bootstrap servers、group id等,然后使用`KafkaConsumer`类的构造函数创建消费者实例。 2. **订阅主题**:消费者通过调用`...
【标题】"kafka_hdfs_consumer"涉及到的关键技术是将数据从Kafka消费并存储到HDFS(Hadoop Distributed File System)中。这个过程通常在大数据处理和流处理场景下非常常见,它允许实时或近实时的数据从消息队列流向...
Kafka是一个高吞吐量、分布式的发布/订阅消息系统,而Spring框架是Java开发中最广泛使用的应用框架之一。通过将两者结合,我们可以构建高效、可扩展的微服务架构。 首先,我们需要在Spring项目中引入Kafka相关的...
CDH大数据平台kafka配置文件以及相关操作
消费者应用需要实现Kafka的Consumer接口,设置正确的消费组ID和偏移量管理策略,以确保数据的正确消费。 总结一下,这个配置流程涵盖了以下几个关键技术点: 1. Canal的安装与配置,用于捕获MySQL的binlog事件。 2....
**Kafka与Zookeeper集群配置详解** 在大数据处理和实时流计算领域,Apache Kafka和Apache Zookeeper是两个不可或缺的组件。Kafka作为一个高吞吐量的分布式消息系统,用于处理实时数据流,而Zookeeper则作为一个...
**Kafka 2.11 安装与配置详解** Kafka是一款开源的分布式流处理平台,由LinkedIn开发并贡献给Apache基金会。它主要用于构建实时数据管道和流应用,能够高效地处理大量实时数据。本篇文章将围绕Kafka 2.11版本的安装...
- 学习文档将详细介绍Kafka的架构、配置、操作以及最佳实践,帮助初学者快速上手。 - 心得总结通常包含了实际使用中的经验教训和技巧,对于提升Kafka应用水平非常有价值。 6. **安装与配置** - 安装包提供了...
Kafka 配置调优实践 Kafka 配置调优实践是指通过调整 Kafka 集群的参数配置来提高其吞吐性能。下面是 Kafka 配置调优实践的知识点总结: 一、存储优化 * 数据目录优先存储到 XFS 文件系统或者 EXT4,避免使用 EXT...
5. **消费者配置**:消费者使用`consumer.properties`文件进行配置,包括`bootstrap.servers`、`group.id`(消费组ID,用于消费分区分配)以及`auto.offset.reset`(当没有初始偏移量时,如何处理)。 6. **日志...
大数据,kafka
Kafka的Consumer Group是其核心特性之一,它允许将消费者分为不同的组,每个组内的消费者可以并行消费一个主题的分区,保证了消息的有序性和无丢失。Go-consumergroup库实现了这一机制,用户可以通过设置group name...
使用Kafka提供的命令行工具,如`kafka-console-producer.sh`和`kafka-console-consumer.sh`,可以方便地测试生产和消费功能。 在实际应用中,Kafka常与Spark、Storm等大数据处理框架结合,实现复杂的数据流处理任务...
2. Kafka Streams:轻量级库,用于在Kafka之上构建复杂的应用程序。 3. KSQL:SQL-like查询语言,使Kafka数据流处理更加直观。 总之,Kafka以其高效、可靠和灵活的特性,已经成为大数据领域不可或缺的一部分。通过...