`
zhouwei064
  • 浏览: 27413 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类

Storm流式实时计算开源框架(一)

阅读更多
      本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以注意事项的形式给出。Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。其分别对应的角色如下:
  • 主控节点(Master Node)上运行一个被称为Nimbus的后台程序,它负责在Storm集群内分发代码,分配任务给工作机器,并且负责监控集群运行状态。Nimbus的作用类似于HadoopJobTracker的角色。

  • 每个工作节点(Work Node)上运行一个被称为Supervisor的后台程序。Supervisor负责监听从Nimbus分配给它执行的任务,据此启动或停止执行任务的工作进程。每一个工作进程执行一个Topology的子集;一个运行中的Topology由分布在不同工作节点上的多个工作进程组成。

 

 

 

Storm集群组件

 

      NimbusSupervisor节点之间所有的协调工作是通过Zookeeper集群来实现的。此外,NimbusSupervisor进程都是快速失败(fail-fast)和无状态(stateless)的;Storm集群所有的状态要么在Zookeeper集群中,要么存储在本地磁盘上。这意味着你可以用kill -9来杀死NimbusSupervisor进程,它们在重启后可以继续工作。这个设计使得Storm集群拥有不可思议的稳定性。
  • 大小: 31.4 KB
分享到:
评论

相关推荐

    storm流式计算(实时系统)

    总的来说,Storm流式计算与Kafka、Redis相结合,构建了一个强大的实时数据处理平台,能够处理各种实时业务场景,如日志分析、交易处理等,为企业提供了实时决策支持和业务优化的可能性。同时,实时系统中的安全问题...

    实时计算平台STORM流式数据核心技术与报文系统.pdf

    - Storm作为实时计算的领先框架,为企业提供了处理流式数据的强大工具。未来,随着实时处理需求的持续增长,Storm可能与其他技术如Kafka、Flink等进一步融合,以应对更复杂的实时业务挑战。 通过对Storm的深入理解...

    基于zookeeper和storm的车载流式计算框架

    为了实时处理这些数据并从中提取有价值的信息,一种基于Zookeeper和Storm的车载流式计算框架被提出。本文将详细介绍这一框架的设计原理、关键技术以及应用场景。 #### 二、Zookeeper简介 Apache Zookeeper是一个...

    Storm Executor Task QuartzJob流式框架定时任务处理框架

    Apache Storm是一个开源的分布式实时计算系统,它可以持续地处理数据流,确保每个消息都被正确处理。Storm的核心概念包括Spouts(数据源)、Bolts(数据处理逻辑)和拓扑结构(定义Spout和Bolt之间的数据流)。在...

    基于storm的实时计算架构

    Storm是一个由Twitter开源的实时数据流处理架构,它在业界常用于实现兴趣推送、日志提醒等实时计算功能。Storm的设计旨在解决Bigdata数据量膨胀、业务快速变化以及用户对于个性化和实时化的需求。相比于传统的离线...

    流式计算Storm

    《深入理解流式计算框架Storm》 Storm,作为Twitter开源的一款实时数据处理框架,源自BackType,后来在Twitter的推动下成为了实时数据分析的核心工具。它弥补了Hadoop在实时处理领域的不足,为需要快速响应和处理...

    实时计算Storm核心技术及其在报文系统中的应用.pdf

    Apache Storm作为一款流行的实时计算框架,被广泛应用于各种实时服务,包括报文系统。本篇文章将深入探讨Storm的核心技术和它在报文系统中的具体应用。 1.1 流式数据与Storm的诞生 流式数据是指源源不断、持续输入...

    01_流式计算基础_第1天(Storm是什么、Storm核心组件、Storm编程模型).docx

    Apache Storm是一个开源的分布式实时计算系统,设计用于处理无界数据流,保证每个消息至少被处理一次(at-least-once语义)。Storm的核心特性包括低延迟、高可用性和可扩展性,确保数据不丢失,并提供了直观易用的...

    流式处理框架stormspark和samza的对比共5页

    Apache Storm是一个开源的分布式实时计算系统,它能够处理无界数据流,确保每个事件都得到一次且仅被处理一次(Exactly-Once语义)。Storm的核心组件包括Spouts(数据源)和Bolts(处理逻辑),用户可以通过定义这些...

    基于移动互联网大数据的异构实时计算框架分析.pdf

    Spark同样是开源框架,支持迭代开发,并已形成独立的生态系统。用户可以将Spark与Hadoop的部分组件相结合使用,提高计算性能,适用于交互查询和迭代计算等大数据场景。 各种技术有其各自的优势和局限性。Hadoop适合...

    基于Storm的实时大数据处理.docx

    Storm是一个分布式、容错的实时流计算系统,它能够在数据流经过系统时进行实时处理,而无需像Hadoop那样将数据写入磁盘再进行处理,从而大大提高了效率。 1. Storm的基本概念与优势 Storm的核心理念是提供一个可靠...

    轻量级分布式实时计算框架light_drtc.pdf

    本文将深入探讨一种轻量级的分布式实时计算框架——light_drtc,以及它与主流流式计算框架如Storm和Spark Streaming的区别与优势。 一、主流流式计算框架概述 1. Storm:由Twitter开源的实时处理系统,它能够保证...

    实时计算在点评

    实际案例,例如1号店电商在双11期间使用流式计算解决方案处理高峰流量和实时数据,能够显著提高服务质量。这说明了实时计算技术在提升用户体验和业务表现方面的实际应用价值。 通过分析文档内容,我们得以了解实时...

    基于Storm的实时大数据处理.pdf

    Storm的设计目标是提供一个分布式、容错的实时计算系统,与Hadoop相比,Storm处理数据的方式不同。Hadoop依赖HDFS进行数据存储,适合批量处理历史数据,而Storm则保持数据在内存中流动,减少了磁盘I/O的开销,从而...

    基于Storm的分布式实时信号处理系统.pdf

    Storm系统由Twitter公司开发,它是一个开源的分布式实时计算系统,提供了实时处理数据流的高效平台。Storm系统的特点包括低开发成本、高可用性、可扩展性强,以及对多种编程语言的支持。 传统基于数字信号处理器...

    基于storm海量数据的实时聚类

    Storm是一个免费、开源的分布式实时计算系统,由BackType开发并维护。它提供了简单易用的API,可以方便地创建复杂的流处理应用。Storm的设计目标是提供一个高度可扩展、容错性好且易于使用的实时数据处理框架。其...

Global site tag (gtag.js) - Google Analytics