`
kabike
  • 浏览: 609467 次
  • 性别: Icon_minigender_1
  • 来自: 大连
社区版块
存档分类
最新评论

storm实现迷你批量提交

 
阅读更多
storm中有种应用场景,是迷你批量,比如积攒一定数量的tuple,超过一定时间或者数量之后,把这些tuple统一处理.
想到了以下三种思路
1 在bolt中额外启动一个线程.不过在bolt中启动线程就要考虑并发的问题
2 定义另一个command stream,根据需要向这个command stream发tuple.bolt根据tuple的sourceStreamId判断是正常的stream
还是command stream.
这样需要在建立拓扑时有一些额外操作,比如为command stream建立一个spout,每个bolt用allGrouping从command stream的spout来接收命令
3 如果只是单纯想获得定时tick,可以设置Config.TOPOLOGY_TICK_TUPLE_FREQ_SECS,这样bolt就会在指定的间隔下收到特定的tuple
分享到:
评论

相关推荐

    storm实现井字棋游戏源码

    标题 "storm实现井字棋游戏源码" 涉及的核心技术是Apache Storm,这是一个分布式实时计算系统,常用于处理大规模的数据流。井字棋游戏(Tic-Tac-Toe)是一个简单的两人对战游戏,这里用Storm实现,可能是为了展示...

    Storm API实现词频统计

    生成的JAR文件(如`storm_demo.jar`)可以用Storm的命令行工具提交到本地或远程的Storm集群上运行,例如`storm jar storm_demo.jar WordCountTopology wordcount`。 5. **监控与调试** Storm提供了Web UI,可以...

    Storm实现的应用模型研究

    ### Storm实现的应用模型研究 #### 一、Storm概述 Storm是一种开源的分布式实时计算框架,由Twitter公司开发并开源。它能够高效、可靠地处理大量的数据流,适用于实时数据分析、在线机器学习、持续计算、ETL(提取...

    批量下载】storm环境搭建v1等.zip

    【标题】:“批量下载】storm环境搭建v1等.zip”表明这是一个关于Storm环境搭建的教程或资源包,可能包含了从v1版本开始的各种版本的安装和配置步骤。 【描述】:“strom hadoop,批量下载】storm环境搭建v1等.zip...

    使用Storm实现实时大数据分析.doc

    【使用Storm实现实时大数据分析】 在大数据领域,实时处理能力变得越来越重要,尤其是在面对TB级别数据时。Apache Storm作为一种开源的实时计算框架,由Twitter开发,为解决大规模实时数据分析提供了有效工具。与...

    细细品味Storm_Storm简介及安装

    - **快速处理**:通过使用ØMQ作为底层消息传递机制,Storm能够实现快速的数据处理速度。 **1.2 基本概念** - **Topology**:Storm中的数据处理逻辑被封装在Topology中,它定义了数据流如何在组件之间流动。 - **...

    Storm入门到精通

    * 最后,配置 Storm 的操作模式,提交拓扑结构。 结论 Storm 是一个功能强大且灵活的分布式实时计算系统。通过本文档,读者可以了解 Storm 的基础知识,并掌握基本的应用方法。从这里开始,您可以继续学习 Storm ...

    StormStorm集成Kafka 从Kafka中读取数据

    5. 启动拓扑:提交拓扑到Storm集群,开始从Kafka读取和处理数据。 在处理数据时,Storm会维护一个内部offset(偏移量)来跟踪在Kafka中的位置,保证数据不丢失。`KafkaSpout`会自动处理容错和幂等性,确保在出现...

    storm-ui:Apache Storm 的用户界面

    主分支: ##包裹包战 mvn clean package -DskipTests=true -Dwarcp ./target/storm-ui.war $TOMCAT_HOME/webapps/包装罐 mvn clean package -DskipTests=truecp ./target/storm-ui-*.jar $STORM_HOME/external/...

    storm提交topology的过程共1页.pdf.zip

    【标题】"storm提交topology的过程"涉及到的是Apache Storm这一分布式实时计算系统中的核心操作——部署和运行流处理任务,即topology。Apache Storm被广泛应用于实时数据处理、在线机器学习、持续计算以及大规模...

    使用Storm实现实时大数据分析!

    简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据...

    storm入门.pdf

    Storm是一个分布式实时计算系统,能够有效地处理大量数据流。它由Twitter公司开发,最初的目的是为了处理大规模的数据,如社交网络上的实时信息更新。Storm的基本单位是“topology”(拓扑结构),它可以理解为一个...

    storm的jar包

    在实际使用中,开发人员会创建自定义的Storm拓扑(Topology),定义数据流的处理逻辑,然后使用`storm jar`命令提交这个拓扑到Storm集群上运行。这个过程可能涉及到编写Bolt(处理数据的组件)和Spout(产生数据的源...

    storm开发jar包以及storm例子源码

    5. **提交拓扑**:将jar包上传到Storm集群,然后使用`storm jar`命令提交拓扑。例如,`storm jar my-storm-topology.jar com.exampleTopology.WordCountTopology`会启动名为WordCountTopology的拓扑。 描述中提到的...

    Storm入门教程 之Storm原理和概念详解

    3、分享积累的经验和技巧,从架构的角度剖析场景和设计实现方案; 4、讲师Cloudy具有丰富的电商云平台架构经验,对流计算更是涉足早、沉淀深,课程依然沿用重实践、重实战的风格。 学习此课程需要具有: Java基础...

    storm chm文档

    storm chm文档 ,使用Storm实现实时大数据分析,storm源码学习

    从零开始学Storm.pdf

    Storm可以与Hadoop进行类比,但相较于Hadoop处理批量数据的批处理方式,Storm更专注于处理实时数据流。 Storm具有以下几个关键特征: 1. 用例广泛:Storm适用于各种数据处理场景,包括实时分析、在线机器学习、连续...

    storm0.9.0jar包

    开发Storm应用时,你需要编写Spout和Bolt的实现,然后将它们组装成Topology,并提交到Storm集群。同时,还需要配置Storm的集群设置,如Nimbus和Supervisor的地址、ZooKeeper的连接信息等。最后,使用`storm jar`命令...

Global site tag (gtag.js) - Google Analytics