`

Strom学习(二)----Storm计算模型

 
阅读更多

Storm计算模型是一个DAG的计算模型,而且Storm是把DAG和流式计算结合起来。

在Storm的DAG模型里面,最关键的点是Topology,Topology是Storm计算模型DAG的一个体现,也是Storm里面DAG的实现。DAG是一个有向无环图结构。

 

一个Topology和一个job相似,是一个app的打包运行实例,Topology会被提交到Storm平台上去运行,Storm上跑的是一个一个的Topology。Topology的生命周期是永远不会结束的,只有在运行kill命令时才会结束。

在Topology里面有spout,bolt,tuple,stream,grouping

spout是数据的来源,从storm系统外面把数据搞进来。spout是数据源和storm整个系统的一个交接的地方,是把外部数据和storm流式处理衔接起来的桥梁。

 

bolt实际上就是处理spout里拿过来的数据,bolt的处理的数据实际上是一个一个tuple,tuple是storm中数据处理的最基本的单元。

spout拿到数据后生成tuple交给bolt进行处理,处理完后生成新的tuple交个下一个bolt处理。

Tuple的通道是streaming

grouping是tuple的路由的策略,决定tuple流向哪个bolt的实例

 

 

 

 

分享到:
评论

相关推荐

    apache-storm-2.0.0-src.tar.gz

    Apache Storm 是一个分布式实时计算系统,它允许开发者处理无界数据流,就像处理有界数据集一样简单。这个压缩包 "apache-storm-2.0.0-src.tar.gz" 包含了 Apache Storm 的源代码,版本号为 2.0.0,这通常意味着它是...

    storm1.2.1-wangzs-jms-v4.0-完成

    在大数据处理领域,Apache Storm以其实时计算的强大功能而备受关注。本次我们聚焦于Storm 1.2.1版本,结合wangzs的JMS(Java Message Service)实现,探索如何构建一个高效、稳定的实时数据流处理系统。"storm1.2.1-...

    skyfree-storm-hbase

    描述中的 "#storm计算结果保存到HBase中" 表明项目的核心功能是处理通过Storm生成的数据,并将这些结果存储到HBase数据库中。这涉及到两个关键的技术点:一是Storm的实时流处理机制,二是HBase的数据模型和写入操作...

    Strom+kafka整合jar包汇总

    在分布式计算领域,Apache Storm和Apache Kafka是两个非常重要的组件。Storm是一个实时处理系统,而Kafka是一个高吞吐量的分布式消息系统。两者结合使用,可以构建强大的实时数据流处理解决方案。本压缩包提供了...

    Storm整合Druid进行实时分析源码

    Storm是一个开源的分布式实时计算系统,它可以持续处理数据流,确保每个消息只被处理一次,适用于实时数据分析和事件驱动的应用。而Druid则是一个高性能、分布式的数据存储和查询引擎,特别适合实时分析和大数据聚合...

    中国移动storm项目代码

    4. **数据流模型**:Storm的数据流是以拓扑结构表示的,其中Spouts和Bolts之间通过数据流连接。理解如何设计和优化这种拓扑结构是提高性能的关键。 5. **容错机制**:Storm提供了一种强大的容错机制,确保即使在...

    stroem-io_github_io-源码.rar

    通过对strom-io源码的深入学习,开发者可以了解其内部实现细节,理解数据流处理的工作原理,从而更好地定制和优化自己的实时数据处理系统。同时,源码分析也能帮助开发者解决遇到的问题,提高对分布式系统的理解。

    大数据课程体系

    - **使用Strom开发一个WordCount例子**:通过一个简单的WordCount示例学习Storm的使用。 - **Storm程序本地模式debug、Storm程序远程debug**:调试Storm程序的技巧。 - **Storm事物处理**:实现事务性的数据处理流程...

    分布式集群技术.pdf

    Storm 常用组件和编程 API 是分布式集群技术的基础,Topology、Spout、Bolt、Storm 分组策略(stream groupings)、Storm 项目 maven 环境搭建、使用 Strom 开发一个 WordCount 例子、Storm 程序本地模式 debug、...

    大数据之Storm/实时数据处理视频教程

    大数据Storm实时数据处理视频培训课程:Strom是一个老牌的实时数据处理框架,在Spark Streaming流行前,Storm统治者整个流式计算的江湖。更详细的说,Storm是一个实时数据处理框架,具有低延迟/高可用/易扩展/数据不...

    21春南开大学《大数据开发技术(一)》在线作业-2参考答案.docx

    大数据开发技术涉及到一系列的框架和工具,其中MapReduce是一种重要的分布式计算模型。在MapReduce中,Map任务和Reduce任务是由Job Tracker启动的,它负责任务调度和资源管理。Map任务是对数据进行初步处理,Reduce...

    2020年hadoop简历模板.doc

    6. **Storm实时处理**:Apache Storm是一个用于实时处理的开源计算系统,能保证消息至少被处理一次。设计Storm实时处理方案和数据落地完整性需求,意味着具备实时数据流处理和数据完整性保障的知识。 7. **HBase...

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 22.Zookeeper(共28页).pptx

    而云计算则是一种基于互联网的计算方式,通过共享计算资源(硬件、软件和服务)来实现按需获取、灵活扩展。 【Hadoop核心组件】 Hadoop是大数据处理的基石,由Apache基金会开发。它的核心组件包括HDFS(Hadoop ...

Global site tag (gtag.js) - Google Analytics