`
qindongliang1922
  • 浏览: 2184054 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117537
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:125922
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59912
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71301
社区版块
存档分类
最新评论

SparkStreamingj集成Kafka的几个重要参数

阅读更多



sparkstreaming集成kafka时的maven的pom依赖:
      <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
            <version>0.8.2.1/version>
        </dependency>



使用SparkStreaming集成kafka时有几个比较重要的参数:

(1)spark.streaming.stopGracefullyOnShutdown (true / false)默认fasle

确保在kill任务时,能够处理完最后一批数据,再关闭程序,不会发生强制kill导致数据处理中断,没处理完的数据丢失


(2)spark.streaming.backpressure.enabled  (true / false)  默认false

开启后spark自动根据系统负载选择最优消费速率

(3)spark.streaming.backpressure.initialRate (整数)  默认直接读取所有

在(2)开启的情况下,限制第一次批处理应该消费的数据,因为程序冷启动
队列里面有大量积压,防止第一次全部读取,造成系统阻塞

(4)spark.streaming.kafka.maxRatePerPartition  (整数) 默认直接读取所有

限制每秒每个消费线程读取每个kafka分区最大的数据量



注意:

只有(4)激活的时候,每次消费的最大数据量,就是设置的数据量,如果不足这个数,就有多少读多少,如果超过这个数字,就读取这个数字的设置的值


只有(2)+(4)激活的时候,每次消费读取的数量最大会等于(4)设置的值,最小是spark根据系统负载自动推断的值,消费的数据量会在这两个范围之内变化根据系统情况,但第一次启动会有多少读多少数据。此后按(2)+(4)设置规则运行


(2)+(3)+(4)同时激活的时候,跟上一个消费情况基本一样,但第一次消费会得到限制,因为我们设置第一次消费的频率了。



除此之外,还应该考虑程序容错性,这个跟checkpoint有关系散仙在前面的文章已经描述过具体请参考:http://qindongliang.iteye.com/


有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。
技术债不能欠,健康债更不能欠, 求道之路,与君同行。


  • 大小: 65.4 KB
0
0
分享到:
评论

相关推荐

    springboot集成kafka实战项目,kafka生产者、消费者、创建topic,指定消费分区

    在本项目中,我们将深入探讨如何使用Spring Boot与Kafka进行集成,实现一个实战项目,包括Kafka的生产者、消费者以及如何创建Topic,并且特别关注指定消费分区这一高级特性。Kafka是一款高吞吐量的分布式消息系统,...

    spring-boot集成kafka

    Kafka作为一个分布式流处理平台,常被用于构建实时数据管道和流应用,它具有高吞吐量、低延迟和可扩展性等特性。本文将详细讲解如何在Spring Boot项目中集成Kafka,实现消息的发送与接收。 首先,我们需要在Spring ...

    CDH 5.13.2集成 Kafka manager已编译(正式环境已测试)

    标题中的"CDH 5.13.2集成 Kafka Manager已编译(正式环境已测试)",意味着我们讨论的是一个已经成功与Cloudera Data Hub (CDH) 5.13.2版本集成的Kafka管理工具——Kafka Manager,并且这个版本已经在正式环境中经过了...

    springboot集成kafka推送的简单例子

    通过这个简单的例子,你已经掌握了如何在SpringBoot应用中集成Kafka进行消息推送的基本流程。随着对Spring和Kafka的进一步了解,你可以实现更复杂的功能,比如消息分组、幂等性消费、事务支持等。这只是一个起点,但...

    StormStorm集成Kafka 从Kafka中读取数据

    2. **性能优化**:根据实际需求调整`KafkaSpout`的批处理大小、重试间隔和消费者组大小等参数,以优化性能。 3. **数据一致性**:理解并正确处理Kafka的分区和offset管理,确保数据处理的准确性和顺序性。 4. **监控...

    kafka参数配置详解

    Kafka参数配置详解 Kafka是一种流行的分布式流处理平台,用于构建实时数据管道和事件驱动的架构。为了确保Kafka集群的稳定运行和高性能,需要正确地配置Kafka参数。本文将详细介绍Kafka的参数配置,包括系统参数、...

    Spring 集成 Kafka的配置文件及代码讲解

    在本文中,我们将深入探讨如何将Spring框架与Apache Kafka集成,以便实现在Spring应用中发送和接收消息。Kafka是一个高吞吐量、分布式的发布/订阅消息系统,而Spring框架是Java开发中最广泛使用的应用框架之一。通过...

    SpringBoot项目集成kafka

    在本文中,我们将深入探讨如何将Kafka集成到SpringBoot项目中,并且会涉及SpringBoot版本与Swagger版本匹配的重要性,以避免出现访问Swagger文档时的空指针异常。Kafka作为一个分布式流处理平台,常被用于构建实时...

    spring boot集成kafka

    在这个项目中,Spring Boot通过其内置的自动配置能力与Kafka进行集成。以下是一些关键点: 1. **依赖管理**:在`pom.xml`中,我们需要添加Spring Boot对Kafka的依赖。这通常包括`spring-boot-starter-data-jpa`和`...

    springboot集成kafka简单入门案例

    Kafka是一个分布式流处理平台,广泛用于构建实时数据管道和流应用。Spring Boot则是一个流行的Java开发框架,简化了创建独立、生产级别的微服务应用。将两者结合,我们可以构建一个强大的消息系统。 首先,确保您...

    kafka配置文件zookeeper参数.md

    kafka配置文件zookeeper参数.md

    storm集成kafka插demo.zip

    【标题】"storm集成kafka插demo.zip"指的是一个演示如何将Apache Storm与Apache Kafka集成的实例项目。这个压缩包包含了一个示例,用于展示如何在Storm拓扑中消费和处理Kafka的消息。 【描述】"storm集成kafka插件...

    jstorm集成kafka插件demo

    在IT行业中,分布式计算系统和实时数据处理是关键领域,其中JStorm和Kafka都是重要的组件。本示例探讨了如何将JStorm与Kafka进行集成,以实现高效的数据流处理。下面,我们将深入理解这两个工具,以及它们结合使用的...

    StormStorm集成Kafka 写数据到Kafka

    Storm集成Kafka 一、整合说明 二、写入数据到Kafka 三、从Kafka中读取数据 整合说明 Storm 官方对 Kafka 的整合分为两个版本,官方说明文档分别如下: Storm Kafka Integration : 主要是针对 0.8.x 版本的 Kafka ...

    springboot集成kafka

    在本文中,我们将深入探讨如何将Spring Boot与Apache Kafka集成,以构建一个高效的消息传递系统。Spring Boot简化了Java应用程序的开发,而Kafka则是一个强大的分布式消息中间件,广泛用于实时数据流处理。让我们...

    springboot - 2.7.3版本 - (七)整合Kafka

    集成Spring Boot和Kafka主要涉及以下几个步骤: 1. **添加依赖** 在`pom.xml`文件中,我们需要引入Spring Boot的`spring-boot-starter-web`和`spring-kafka`依赖。确保以下依赖项存在: ```xml &lt;groupId&gt;org....

    Kafka3.0详解,客户端命令,核心配置文件详解。spring集成、webflux集成、集群搭建

    Kafka3.0是一个在分布式系统中广泛使用的消息队列系统,主要用于构建实时数据管道和流式应用程序。它的客户端命令以及核心配置文件是其操作的核心,而spring集成和webflux集成则可以将Kafka3.0与主流的Java开发框架...

    springboot集成kafka进行消息发布和订阅jar

    综上所述,这个名为`kafkaDemo`的项目实现了Spring Boot与Kafka的集成,能够轻松地发布和订阅消息,同时也支持动态修改Kafka配置和适应不同JDK版本,是构建分布式系统中的理想组件。通过理解和实践这个项目,开发者...

    SpringBoot集成kafkaDemo

    在本文中,我们将深入探讨如何将Kafka集成到SpringBoot应用程序中,以便构建高效的数据流处理系统。首先,我们需要理解SpringBoot和Kafka的基本概念。 **SpringBoot** 是由Pivotal团队提供的一个用于简化Spring应用...

    kafka原理介绍及参数.pptx

    kafka原理优化及参数。 可恢复性  系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。 顺序保证  在...

Global site tag (gtag.js) - Google Analytics