`
m635674608
  • 浏览: 5027953 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

Storm Topology的并发度

 
阅读更多

概念

  

一个Topology可以包含一个或多个worker(并行的跑在不同的machine上), 所以worker process就是执行一个topology的子集, 并且worker只能对应于一个topology

  

一个worker可用包含一个或多个executor, 每个component (spout或bolt)至少对应于一个executor, 所以可以说executor执行一个compenent的子集, 同时一个executor只能对应于一个component

  

Task就是具体的处理逻辑对象, 一个executor线程可以执行一个或多个tasks      
但一般默认每个executor只执行一个task, 所以我们往往认为task就是执行线程, 其实不然      
task代表最大并发度, 一个component的task数是不会改变的, 但是一个componet的executer数目是会发生变化的      
当task数大于executor数时, executor数代表实际并发数      

  

worker process executes a subset of a topology.     
A worker process belongs to a specific topology and may run one or more executors for one or more components (spouts or bolts) of this topology.     
A running topology consists of many such processes running on many machines within a Storm cluster.

  

An executor is a thread that is spawned by a worker process. It may run one or more tasks for the same component (spout or bolt).

  

task performs the actual data processing — each spout or bolt that you implement in your code executes as many tasks across the cluster.     
The number of tasks for a component is always the same throughout the lifetime of a topology, but the number of executors (threads) for a component can change over time. This means that the following condition holds true: #threads ≤ #tasks.     
By default, the number of tasks is set to be the same as the number of executors, i.e. Storm will run one task per thread.

  

image 

  

 

  

Configuring the parallelism of a topology, 并发度的配置

  

The following sections give an overview of the various configuration options and how to set them in your code. There is more than one way of setting these options though, and the table lists only some of them. 

  

Storm currently has the following order of precedence for configuration settings

  

defaults.yaml < storm.yaml < topology-specific configuration < internal component-specific configuration < external component-specific configuration

  

 

  

对于并发度的配置, 在storm里面可以在多个地方进行配置, 优先级如上面所示...      
具体包含, 

  

worker processes的数目, 可以通过配置文件和代码中配置, worker就是执行进程, 所以考虑并发的效果, 数目至少应该大于machines的数目

  

executor的数目, component的并发线程数,只能在代码中配置(通过setBolt和setSpout的参数), 例如, setBolt("green-bolt", new GreenBolt(), 2

  

tasks的数目, 可以不配置, 默认和executor1:1, 也可以通过setNumTasks()配置

  

Number of worker processes

  

  • Description: How many worker processes to create for the topology across machines in the cluster. 
  • Configuration option: TOPOLOGY_WORKERS 
  • How to set in your code (examples):          

  

Number of executors (threads)

  

  • Description: How many executors to spawn per component
  • Configuration option: ? 
  • How to set in your code (examples):          

  

Number of tasks

  

  

Here is an example code snippet to show these settings in practice:

  

topologyBuilder.setBolt("green-bolt", new GreenBolt(), 2)
               .setNumTasks(4)
               .shuffleGrouping("blue-spout);

In the above code we configured Storm to run the bolt GreenBolt with an initial number of two executors and four associated tasks. Storm will run two tasks per executor (thread). If you do not explicitly configure the number of tasks, Storm will run by default one task per executor.

 

Example of a running topology

The following illustration shows how a simple topology would look like in operation.   
The topology consists of three components: one spout called BlueSpout and two bolts called GreenBolt and YellowBolt.   
The components are linked such that BlueSpout sends its output to GreenBolt, which in turns sends its own output to YellowBolt.

image 

 

  
Config conf = new Config();
conf.setNumWorkers(2); // use two worker processes

topologyBuilder.setSpout("blue-spout", new BlueSpout(), 2); // set parallelism hint to 2

topologyBuilder.setBolt("green-bolt", new GreenBolt(), 2) 
               .setNumTasks(4)                   //set tasks number to 4
               .shuffleGrouping("blue-spout");

topologyBuilder.setBolt("yellow-bolt", new YellowBolt(), 6)
               .shuffleGrouping("green-bolt");

StormSubmitter.submitTopology(
        "mytopology",
        conf,
        topologyBuilder.createTopology()
    );

图和代码, 很清晰, 通过setBolt和setSpout一共定义2+2+6=10个executor threads     
并且同setNumWorkers设置2个workers, 所以storm会平均在每个worker上run 5个executors     
而对于green-bolt, 定义了4个tasks, 所以每个executor中有2个tasks

 

How to change the parallelism of a running topology, 动态的改变并发度

Storm支持在不restart topology的情况下, 动态的改变(增减)worker processes的数目和executors的数目, 称为rebalancing.     
通过Storm web UI, 或者通过storm rebalance命令, 见下面的例子

A nifty feature of Storm is that you can increase or decrease the number of worker processes and/or executors without being required to restart the cluster or the topology. The act of doing so is called rebalancing.

You have two options to rebalance a topology:

  1. Use the Storm web UI to rebalance the topology. 
  2. Use the CLI tool storm rebalance as described below. 

Here is an example of using the CLI tool:

# Reconfigure the topology "mytopology" to use 5 worker processes,
# the spout "blue-spout" to use 3 executors and
# the bolt "yellow-bolt" to use 10 executors.

$ storm rebalance mytopology -n 5 -e blue-spout=3 -e yellow-bolt=10
http://www.51studyit.com/html/notes/20140329/45.html
分享到:
评论

相关推荐

    java开发的基于kafka、xlog的web日志实时分析storm topology.zip

    本项目"java开发的基于kafka、xlog的web日志实时分析storm topology"聚焦于使用Java编程语言,结合Kafka消息队列、Xlog日志处理库以及Apache Storm流处理框架,构建了一个能够实时分析Web日志的系统。下面我们将深入...

    大数据平台Storm入门到精通

    01.Storm基础知识02.Storm集群安装-1-new .avi.baiduyun.p05.Storm配置文件配置项讲解07.Storm基本API介绍08.Storm Topology的并发度09.Strom消息机制原理讲解10.Storm DRPC实战讲解

    Storm实战:构建大数据实时计算

    第4章和第5章阐述了Storm的并发度、可靠处理的特性;第6章~第8章详细而系统地讲解了几个高级特性:事务、DRPC和Trident;第9章以实例的方式讲解了Storm在实际业务场景中的应用;第10章总结了几个在大数据场景应用...

    IT十八掌_Storm阶段学习笔记(课堂笔记与原理图解)

    IT十八掌第三期配套资料! 1、Storm介绍及特点 2、storm的优势与应用 ...4、配置storm并发度 5、配置storm完全分布式集群 6、storm开发环境与生产环境 7、storm的topology再平衡 8、分组、自定义分组

    Storm的文档详解

    在 Storm 中,用户可以指定每个 Spout 和 Bolt 的并发度,即运行这些组件的 Task 的数量。并发度决定了数据处理的并行程度。高并发度意味着更多的并行处理能力,但也可能增加资源消耗。 **1.4 Worker 与 Topology**...

    Storm 源码分析

    2. **Topology构建**:Topology是Storm的核心,它的构建方式非常灵活。通过配置文件和Java API可以方便地定义复杂的计算逻辑。 3. **消息传递机制**:Storm通过Tuple来表示数据流中的单个元素,Tuple在Spout和Bolt...

    storm企业应用 实战 运维和调优

    - 理解并优化Spout和Bolt的并发度(parallelism hint)来提高资源的利用率。 - 调整批处理大小和超时时间以适应不同的业务场景和数据处理需求。 4. 性能调优: - 对消息的序列化和反序列化方式进行优化,减少CPU...

    storm程序代码示例

    Apache Storm是一个开源的分布式实时计算系统,它能够处理无界数据流,确保每个事件都得到正确的处理,即使在高并发和大规模数据输入的情况下也能保持高效。 **一、Storm简介** Apache Storm的核心概念包括:拓扑...

    从零开始学Storm.pdf

    Storm中的Topology负责消耗数据流,并以任意复杂的方式处理这些流,处理完毕后可以将结果流分发到客户端。Storm主要使用Java和Clojure进行开发,其中Java用于定义骨架,Clojure用于编写核心逻辑。不过,Storm同样...

    基于Storm流计算天猫双十一作战室项目实战

    - **并发度与线程安全**:深入分析并发度设置的重要性以及如何保证线程安全,避免数据处理过程中的错误和异常。 - **批处理事务**:介绍Storm Trident提供的批处理事务机制,提高数据处理的一致性和可靠性。 - **...

    大数据分析架构师顶级培训课程storm课程 Trident理论与应用 Trident基础理论与实战 共35页.pptx

    这一机制涉及到Topology的组件配置、并发度设置等多个方面。 **1.1 Topology运行组件配置** - **Worker进程**:Storm集群中的工作单元,负责运行具体的Topology实例。 - **Executor线程**:在Worker进程中运行,...

    Getting Started with Storm

    **启动循环并读写元组**:实现非 JVM 语言的 Spout 或 Bolt 如何读取元组并发送到 Storm 集群中。 #### 第八章 事务性 Topologies **设计**:事务性 Topologies 用于处理需要高度一致性的场景,确保数据处理的完整...

    Storm笔记-PPT

    2. **Topology**:一个Storm应用由多个Spout和Bolt组成,它们通过Tuples连接形成拓扑结构,定义数据流的处理逻辑。 3. **Stream Grouping**:数据流分组策略,包括字段分组、全局分组、shuffle分组等,决定Tuples...

    storm实时计算

    提交过程中,Topology会被序列化并发送给Nimbus。 2. **任务分配**:Nimbus根据集群状态将任务分配给各个Supervisor节点。这个过程涉及到Zookeeper的交互。 3. **任务执行**:Supervisor接收到任务后,会启动...

    storm_webservice.zip

    拓扑(Topology)是Storm的基本工作单元,定义了数据流的处理逻辑。 3. **Spout**:Storm中的数据源,负责生成数据流。这可以是读取Kafka消息队列,或者其他数据源。 4. **Bolt**:处理数据的组件,执行过滤、聚合...

    storm调试webservice

    Storm的核心组件包括Spouts(数据源)、Bolts(处理逻辑)和Topology(拓扑结构)。在调试Web Service的场景下,Spout可能负责从Web Service接口获取请求或发送请求,然后将数据流广播到Bolts。Bolts则执行具体的...

    Apache+Storm+快速起步.pdf 亲测 好评哦

    在这些项目中,Storm成功地处理了海量实时数据,并且在高并发和大数据量的场景下,Storm展现出了出色的性能。 Storm的快速起步还包括与周边系统的集成。例如,Storm与Hadoop的集成可以用于大规模的数据处理,可以将...

Global site tag (gtag.js) - Google Analytics