`
501311837
  • 浏览: 18460 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Storm分布式实时计算框架

阅读更多

Storm

1. 信息流处理{Stream processing} 

Storm可用来实时处理新数据和更新数据库,兼具容错性和可扩展性。 

2. 连续计算{Continuous computation} 

Storm可进行连续查询并把结果即时反馈给客户端。比如把Twitter上的热门话题发送到浏览器中。 

3. 分布式远程程序调用{Distributed RPC} 

Storm可用来并行处理密集查询。Storm的拓扑结构是一个等待调用信息的分布函数,当它收到一条调用信息后,会对查询进行计算,并返回查询结果。  举个例子Distributed RPC可以做并行搜索或者处理大集合的数据。

       

 

Storm集群的组件介绍:

        storm集群是表面上类似于Hadoop集群。而在Hadoop上运行“MapReduce作业”,在storm运行“topologies”。 “jobs”和“topologies”本身有很大的不同 - 一个关键的区别是,一个MapReduce作业最终完成,而一个永远的拓扑信息进行处理(或直到你杀了它)。

        有两种类型的节点运行在Storm集群中:

(1)主节点(master)主节点运行着一个守护进程“Nimbus“,这个类似于hadoop的jobtracker,Nimbus 负责将任务分配给worker机器,并监视故障。

(2)工作节点(worker)运行着一个守护进程"Supervisor",他主管侦听分配给它的机器和启动工作,并停止工作进程在必要时依据"Nimbus"已经分配给它的任务。

        Storm cluster

        Nimbus与supervisor之间的所有通信都是通过ZK来传递的,另外Nimbus的守护进程和监事守护进程快速失败和无状态的。所有的状态都是保存在ZK中或者本地的磁盘中的。这就意味着你可以通过Kill -9来杀死 Nimbus与supervisor进程,然后他们启动就像没发生过任何事情一样。这样的设计使得storm集群非常稳定。

        如何将你的storm程序在storm集群中跑呢?

storm jar all-my-code.jar backtype.storm.MyTopology arg1 arg2

all-my-code.jar(包名)   backtype.storm.MyTopology(类名-默认是定位到main方法)   arg1 arg2(参数) 

           Streams

一个stream是一个没有边界的tuples.storm将一个流分成以分布式和可靠的方式的新的流。提供了一个数据流的转换:“spouts”,“bolts”。spouts和bolts有你实现运行的应用程序特定的逻辑接口。spouts其实就是一个数据源,一个spout去读取数据源,以tuples的形式通过emit()发射出去,然后bolts接受tuples。实际应用中可以有多个spout发射数据,并且由多个bolts接收数据,bolts也可以将接收到的数据再发射给其他bolts。

 

结构如下图所示:

A Storm topology

这个拓扑将永远运行下去,或者直到你杀死它。storm将自动重新分配任何失败的任务。此外,Storm保证不会有数据丢失,即使宕机。

一个简单的例子拓扑:

1、SimpleSpout类继承BaseRichSpout类,用来产生数据并且向topology里面发出消息:tuple。

 

package com.ljq.helloword;

import java.util.Map;
import java.util.Random;

import backtype.storm.spout.SpoutOutputCollector;
import backtype.storm.task.TopologyContext;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseRichSpout;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Values;

/**
 * Spout起到和外界沟通的作用,他可以从一个数据库中按照某种规则取数据,也可以从分布式队列中取任务
 * 
 * @author Administrator
 *
 */
@SuppressWarnings("serial")
public class SimpleSpout extends BaseRichSpout{
    //用来发射数据的工具类
    private SpoutOutputCollector collector;
    private static String[] info = new String[]{
        "comaple\t,12424,44w46,654,12424,44w46,654,",
        "lisi\t,435435,6537,12424,44w46,654,",
        "lipeng\t,45735,6757,12424,44w46,654,",
        "hujintao\t,45735,6757,12424,44w46,654,",
        "jiangmin\t,23545,6457,2455,7576,qr44453",
        "beijing\t,435435,6537,12424,44w46,654,",
        "xiaoming\t,46654,8579,w3675,85877,077998,",
        "xiaozhang\t,9789,788,97978,656,345235,09889,",
        "ceo\t,46654,8579,w3675,85877,077998,",
        "cto\t,46654,8579,w3675,85877,077998,",
        "zhansan\t,46654,8579,w3675,85877,077998,"};
    
    Random random=new Random();
    
    /**
     * 初始化collector
     */
    public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
        this.collector = collector;
    }
    
    /**
     * 在SpoutTracker类中被调用,每调用一次就可以向storm集群中发射一条数据(一个tuple元组),该方法会被不停的调用
     */
    @Override
    public void nextTuple() {
        try {
            String msg = info[random.nextInt(11)];
            // 调用发射方法
            collector.emit(new Values(msg));
            // 模拟等待100ms
            Thread.sleep(100);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }

    /**
     * 定义字段id,该id在简单模式下没有用处,但在按照字段分组的模式下有很大的用处。
     * 该declarer变量有很大作用,我们还可以调用declarer.declareStream();来定义stramId,该id可以用来定义更加复杂的流拓扑结构
     */
    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("source")); //collector.emit(new Values(msg));参数要对应
    }

}

 2、SimpleBolt类继承BaseBasicBolt类,处理一个输入tuple。

package com.ljq.helloword;

import backtype.storm.topology.BasicOutputCollector;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseBasicBolt;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Tuple;
import backtype.storm.tuple.Values;

/**
 * 接收喷发节点(Spout)发送的数据进行简单的处理后,发射出去。
 * 
 * @author Administrator
 * 
 */
@SuppressWarnings("serial")
public class SimpleBolt extends BaseBasicBolt {

    public void execute(Tuple input, BasicOutputCollector collector) {
        try {
            String msg = input.getString(0);
            if (msg != null){
                //System.out.println("msg="+msg);
                collector.emit(new Values(msg + "msg is processed!"));
            }
                
        } catch (Exception e) {
            e.printStackTrace(); 
        }
    }

    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("info"));
    }

}

 3、SimpleTopology类包含一个main函数,是Storm程序执行的入口点,包括一个数据喷发节点spout和一个数据处理节点bolt。

package com.ljq.helloword;

import backtype.storm.Config;
import backtype.storm.LocalCluster;
import backtype.storm.StormSubmitter;
import backtype.storm.topology.TopologyBuilder;

/**
 * 定义了一个简单的topology,包括一个数据喷发节点spout和一个数据处理节点bolt。
 * 
 * @author Administrator
 *
 */
public class SimpleTopology {
    public static void main(String[] args) {
        try {
            // 实例化TopologyBuilder类。
            TopologyBuilder topologyBuilder = new TopologyBuilder();
            // 设置喷发节点并分配并发数,该并发数将会控制该对象在集群中的线程数。
            topologyBuilder.setSpout("SimpleSpout", new SimpleSpout(), 1);
            // 设置数据处理节点并分配并发数。指定该节点接收喷发节点的策略为随机方式。
            topologyBuilder.setBolt("SimpleBolt", new SimpleBolt(), 3).shuffleGrouping("SimpleSpout");
            Config config = new Config();
            config.setDebug(true);
            if (args != null && args.length > 0) {
                config.setNumWorkers(1);
                StormSubmitter.submitTopology(args[0], config, topologyBuilder.createTopology());
            } else {
                // 这里是本地模式下运行的启动代码。
                config.setMaxTaskParallelism(1);
                LocalCluster cluster = new LocalCluster();
                cluster.submitTopology("simple", config, topologyBuilder.createTopology());
            }
            
        } catch (Exception e) {
            e.printStackTrace(); 
        }
    }
}

 运行结果效果如下:

 

 

 

 

分享到:
评论

相关推荐

    基于分布式实时计算框架的电能量数据异常特征提取在线预警系统.pdf

    数据分析层通过Storm分布式计算框架,运用异常数据识别模型进行在线计算。为提高效率,设计了分布式缓存来加速静态数据的处理。分析结果直接存储于数据库,无需中间存储环节。 3. 预警流程与电能量异常判断 预警...

    轻量级分布式实时计算框架light_drtc.pdf

    为了满足这一需求,各种分布式实时计算框架应运而生,如Apache Storm和Apache Spark Streaming。然而,这些主流框架在特定场景下可能存在一些不足,因此出现了轻量级的自研框架——light_drtc。本文将深入探讨light_...

    基于Storm的分布式实时数据流密度聚类算法.pdf

    此外,DBS-Stream算法在实现分布式计算时,通过Storm平台能够有效处理数据流的高速性和实时性要求,同时通过DBSCAN算法降低了时间复杂度和空间复杂度,提高了处理数据流中噪声数据的能力。 总体而言,DBS-Stream...

    java8stream源码-light_drtc:这是一个轻量级分布式实时计算框架。可以帮助您快速搭建自己定义的分布式实时计算平台

    它主要参考当前流行的实时计算框架Storm的任务分发和Spark Streaming的Mini-Batch处理思想设计,设计目的是为了降低当前大数据时代的分布式实时计算入门门槛,方便初中级学者上手,快速实现企业所需计算实时性要求...

    基于STORM分布式计算的海量数据统计系统设计方法研究.pdf

    本文研究了如何利用STORM分布式计算框架和KAFKA消息系统来设计一个能够处理海量数据的实时统计系统。STORM是一个开源的分布式实时计算系统,由Twitter开发并捐赠给了Apache软件基金会,主要用于对大量数据流进行实时...

    基于Storm的分布式实时信号处理系统.pdf

    Storm系统由Twitter公司开发,它是一个开源的分布式实时计算系统,提供了实时处理数据流的高效平台。Storm系统的特点包括低开发成本、高可用性、可扩展性强,以及对多种编程语言的支持。 传统基于数字信号处理器...

    基于Storm的分布式流计算集群详细配置

    分布式流计算是一种实时数据处理技术,Apache Storm是其中的代表性框架,它能够处理大规模数据流并提供低延迟的处理能力。本配置指南将详细阐述如何在多台服务器上搭建一个基于Storm的分布式流计算集群。 ### 一、...

    分布式流处理框架功能对比及性能评估.pdf

    分布式流处理框架作为大数据处理领域的一个重要分支,近年来得到了广泛的关注和应用。其主要任务是实现实时数据的高效处理,提供从数据采集、流式计算到数据存储的一整套解决方案。在分布式流处理框架的比较和性能...

    基于大数据跨平台的分布式实时数据采集技术实现.pdf

    同时,对于高实时性的数据需求,需要利用流处理框架进行实时计算和监控,确保数据的实时性。 最后,数据采集技术的实施必须考虑数据的非结构化特点。在电网企业中,非结构化数据包括用户行为文本数据、图片数据等。...

    华为大数据认证: Streaming分布式流计算引擎.pptx

    华为大数据认证涵盖了实时流处理技术,重点在于 Streaming,这是一种基于开源项目 Storm 的分布式、实时计算框架。Streaming 的核心特性包括实时响应能力、低延迟、数据不存储直接计算、连续查询以及事件驱动模式。...

    面向大型装备状态分析的分布式实时数据仓库构建技术.pdf

    2. 引入分布式消息队列和分布式流式计算框架,相比传统数据仓库,改进了数据仓库在数据生命周期的处理方法。 3. 提出了一种适用于多数据场景、可快速迭代、具有高扩展性和数据可靠性的分布式实时数据仓库构建方法。 ...

    分布式实时日志密度数据流聚类算法及其基于Storm的实现.pdf

    Storm是一个开源的分布式实时计算系统,由Nathan Marz于2011年创建,并被Twitter采用。Storm能够可靠且高效地处理持续不断的流数据,非常适合用于实时数据分析。在本文中,作者提出了一种名为RL-DSCA(Real-time Log...

    基于zookeeper和storm的车载流式计算框架

    为了实时处理这些数据并从中提取有价值的信息,一种基于Zookeeper和Storm的车载流式计算框架被提出。本文将详细介绍这一框架的设计原理、关键技术以及应用场景。 #### 二、Zookeeper简介 Apache Zookeeper是一个...

    分布式计算——原理、算法和系统

    1. **Hadoop**:一个开源的分布式计算框架,包括HDFS(分布式文件系统)和MapReduce(分布式计算模型)。 2. **Spark**:基于内存计算的分布式计算引擎,支持批处理、交互式查询、实时流处理等多种计算模式。 3. *...

Global site tag (gtag.js) - Google Analytics