`
dalan_123
  • 浏览: 87047 次
  • 性别: Icon_minigender_1
  • 来自: 郑州
社区版块
存档分类
最新评论

jstorm源码之 RichSpoutBatchExecutor

 
阅读更多
一、作用
RichSpoutBatchExecutor是IRichSpout及其子类Spout的executor执行器;主要包括:
        1、RichSpoutEmitter :用户tuple的emit
        2、RichSpoutCoordinator:用于spout的调度
        3、CaptureCollector: 用于获取spout的collect的field的

二、
package storm.trident.spout;

import backtype.storm.Config;

public class RichSpoutBatchExecutor implements ITridentSpout {
    public static final String MAX_BATCH_SIZE_CONF = "topology.spout.max.batch.size";

    IRichSpout _spout;
    // 构造RichSpouBatchExecutor 初始化Spout
    public RichSpoutBatchExecutor(IRichSpout spout) {
        _spout = spout;
    }

    // 获取Spout配置信息
    @Override
    public Map getComponentConfiguration() {
        return _spout.getComponentConfiguration();
    }

    // 获取向下级投递的stream fields
    @Override
    public Fields getOutputFields() {
        return TridentUtils.getSingleOutputStreamFields(_spout);

    }
    // 构建batch的调度器
    @Override
    public BatchCoordinator getCoordinator(String txStateId, Map conf, TopologyContext context) {
        return new RichSpoutCoordinator();
    }

   //  构建emitter
    @Override
    public Emitter getEmitter(String txStateId, Map conf, TopologyContext context) {
        return new RichSpoutEmitter(conf, context);
    }

    // Emitter的实现
    //  指定emit的参数
    class RichSpoutEmitter implements ITridentSpout.Emitter<Object> {
        // batch的大小
        int _maxBatchSize;
        // 是否完成初始化
        boolean prepared = false;
        // filed collect
        CaptureCollector _collector;
        // 记录fail的id
        RotatingMap<Long, List<Object>> idsMap;
        //  spout 的配置
        Map _conf;
        // topology的上下文
        TopologyContext _context;
        // 记录emit上一次的时间
        long lastRotate = System.currentTimeMillis();
        //  记录emit的当前时间  主要是根据message timeout进行计算
        long rotateTime;

        public RichSpoutEmitter(Map conf, TopologyContext context) {
            _conf = conf;
            _context = context;
             // spout的batch的size 根据配置文件中max_batch_size的内容得来的
            Number batchSize = (Number) conf.get(MAX_BATCH_SIZE_CONF);
            //  默认大小为1000
            if (batchSize == null)
                batchSize = 1000;
            _maxBatchSize = batchSize.intValue();            
            _collector = new CaptureCollector();
            idsMap = new RotatingMap(3);
            rotateTime = 1000L * ((Number) conf.get(Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS)).intValue();
        }

        // batch执行emit操作
        //  获取batch对应的transaction的id 和 当前系统时间与lastRotate的差值 
       //   若是超过timeout指定的时间即认为batch的emit的操作失败  通过循环遍历idsMap中最后一个桶中 并将对应桶中的id执行fail   最后更新lastRotate对应的时间  同时也要将这一batch的txId执行fail
        //   若是没有超时或者提出超时的那部分id 
        @Override
        public void emitBatch(TransactionAttempt tx, Object coordinatorMeta, TridentCollector collector) {
            long txid = tx.getTransactionId();

            long now = System.currentTimeMillis();
            if (now - lastRotate > rotateTime) {
                Map<Long, List<Object>> failed = idsMap.rotate();
                for (Long id : failed.keySet()) {
                    // TODO: this isn't right... it's not in the map anymore
                    fail(id);
                }
                lastRotate = now;
            }

            if (idsMap.containsKey(txid)) {
                fail(txid);
            }
             // 重置collect 使用batch的collector  同时ids重置
            _collector.reset(collector);
             //  判断当前spout是否已经完成初始化 否则执行初始化  调整状态
            if (!prepared) {
                _spout.open(_conf, _context, new SpoutOutputCollector(_collector));
                prepared = true;
            }
            //  循环判断batchs中的batch是否处理完成  根据collect中的emitted的个数和当前的下标进行比对 若是小于当前下标则为后续的batch未处理
            //  最终将当前完成的id存放idsMap
            for (int i = 0; i < _maxBatchSize; i++) {
                _spout.nextTuple();
                if (_collector.numEmitted < i) {
                    break;
                }
            }
            idsMap.put(txid, _collector.ids);

        }

        // batch指定成功后 执行ack
        @Override
        public void success(TransactionAttempt tx) {
            ack(tx.getTransactionId());
        }
        // 循环执行spout的ack
        private void ack(long batchId) {
            List<Object> ids = (List<Object>) idsMap.remove(batchId);
            if (ids != null) {
                for (Object id : ids) {
                    _spout.ack(id);
                }
            }
        }
       // 循环执行spout的fail
        private void fail(long batchId) {
            List<Object> ids = (List<Object>) idsMap.remove(batchId);
            if (ids != null) {
                for (Object id : ids) {
                    _spout.fail(id);
                }
            }
        }

        // 关闭spout
        @Override
        public void close() {
            _spout.close();
        }

    }

    // spout的coordinator
    class RichSpoutCoordinator implements ITridentSpout.BatchCoordinator {
         // 事务初始化
        @Override
        public Object initializeTransaction(long txid, Object prevMetadata, Object currMetadata) {
            return null;
        }
        // 事务完成
        @Override
        public void success(long txid) {
        }
        //  是否已经准备
        @Override
        public boolean isReady(long txid) {
            return true;
        }
         //  关闭
        @Override
        public void close() {
        }
    }

    //  spout的collect  主要是针对batch的操作 进行collect的
    static class CaptureCollector implements ISpoutOutputCollector {
      
        TridentCollector _collector;
        public List<Object> ids;
        public int numEmitted;

        public void reset(TridentCollector c) {
            _collector = c;
            ids = new ArrayList<Object>();
        }

        @Override
        public void reportError(Throwable t) {
            _collector.reportError(t);
        }

        @Override
        public List<Integer> emit(String stream, List<Object> values, Object id) {
            if (id != null)
                ids.add(id);
            numEmitted++;
            _collector.emit(values);
            return null;
        }

        @Override
        public void emitDirect(int task, String stream, List<Object> values, Object id) {
            throw new UnsupportedOperationException("Trident does not support direct streams");
        }

    }

}
分享到:
评论

相关推荐

    jstorm源码解析之bolt异常处理方法.docx

    在JStorm的源码中,我们可以看到Bolt执行的核心逻辑位于`BasicBoltExecutor`类的`execute()`方法。该方法首先设置上下文,然后尝试执行Bolt的业务逻辑,最后确认处理成功。如果在执行过程中抛出`FailedException`,...

    Storm 源码分析

    - **Nimbus**:Nimbus是Storm集群的核心组件之一,负责整个集群的管理和协调工作,包括任务调度、故障恢复等。Nimbus通过Zookeeper来实现状态同步和集群协调。 - **Supervisor**:Supervisor运行在每个Worker节点上...

    jstorm源码解析之bolt异常处理方法

    在本篇文章中,我们将深入探讨JStorm源码中关于Bolt异常处理方法的实现细节。首先,我们了解到如果在Bolt代码中出现未被捕获的异常,所在的工作进程会直接退出。这一点与Storm的设计相似,旨在避免问题被掩盖而无法...

    JStorm:JStorm原始码学习-源码包

    JStorm原始码学习:主要包含Storm重新启动,Nimbus启动,Supervisor启动,Executor创建和启动 风暴编程模型 Nimbus:负责资源分配和任务调度。 主管:负责接受nimbus分配的任务,启动和停止属于自己管理的worker...

    jstorm storm入门demo

    1. **JStorm与Storm的关系**:讲解JStorm与Apache Storm的关系,包括JStorm的诞生背景、主要改进和优化之处。 2. **JStorm的核心概念**:介绍Spout、Bolt、拓扑等核心概念,解释它们在实时数据处理中的作用。 3. *...

    大数据技术分享 JStorm介绍 JStorm-分布式实时计算引擎 共40页.pptx

    **JStorm介绍** JStorm是由阿里巴巴开发的分布式实时计算引擎,它是基于Apache Storm的一个增强版本。JStorm的设计目标是提供比Storm更高的稳定性、更强的功能和更快的计算性能。这个技术分享主要涵盖了JStorm的...

    jstorm集成kafka代码实例

    本示例将探讨如何将Apache JStorm与Kafka进行集成,以利用它们各自的优势。JStorm是一款分布式实时计算系统,它允许用户处理数据流,而Kafka则是一个高吞吐量的分布式消息系统,用于实时数据传递。接下来,我们将...

    阿里中间件性能挑战赛初赛-RocketMQ+JStorm+Tair实时统计双11交易金额源码+学习说明.zip

    阿里中间件性能挑战赛初赛-RocketMQ+JStorm+Tair实时统计双11交易金额源码+学习说明.zip阿里中间件性能挑战赛初赛-RocketMQ+JStorm+Tair实时统计双11交易金额源码+学习说明.zip阿里中间件性能挑战赛初赛-RocketMQ+...

    jstorm集成kafka插件demo

    在IT行业中,分布式计算系统和实时数据处理是关键领域,其中JStorm和Kafka都是重要的组件。本示例探讨了如何将JStorm与Kafka进行集成,以实现高效的数据流处理。下面,我们将深入理解这两个工具,以及它们结合使用的...

    jstorm 阿里巴巴官方文档 pdf

    接着,文档会详细阐述JStorm的安装与配置过程,包括下载源码、编译、部署以及设置环境变量。对于初学者,这部分内容至关重要,因为正确配置JStorm环境是后续开发和运行的基础。 在JStorm的使用方法部分,你会了解到...

    JStorm 2.1.1 API

    **JStorm 2.1.1 API 深度解析** JStorm是阿里巴巴开源的一款分布式实时计算系统,它基于Apache Storm并进行了大量的优化,提供了一种高效、稳定且易用的流处理框架。JStorm 2.1.1是其一个重要的版本,此版本的API为...

    jstorm example

    **JStorm简介** JStorm是阿里巴巴开源的一款分布式实时计算系统,它是基于Apache Storm的一个高性能、高可用、热扩展的实时处理框架。JStorm的核心设计理念是简单、高效和稳定,能够处理大规模的数据流处理任务,...

    jstorm文档

    JStorm是中国淘宝团队开发的一款分布式实时计算系统,它是基于Apache Storm的设计理念,但在性能、稳定性和易用性上进行了大量的优化。本文档将详细介绍JStorm的基础知识,包括其核心概念、工作原理、安装配置以及...

    jstorm课程

    标题"jstorm课程"指的是关于JStorm的教育课程,JStorm是阿里巴巴开源的一个分布式实时计算框架,它是Apache Storm的Java版本,主要用于处理大规模数据流的实时计算。 描述中提到的"全套storm资料初学者必备 比较...

    jstorm-2.2.1

    《JStorm 2.2.1:分布式流处理框架详解》 JStorm是阿里巴巴开源的一款高性能、高可靠的分布式实时计算系统,它基于Apache Storm并针对大规模数据处理进行了优化。JStorm 2.2.1是该框架的一个稳定版本,提供了许多...

    storm-core源码

    storm-core-1.0.3-sources.jar 源码文件,1.0.3版本

    Jstorm 到 Apache Flink 的迁移实践.pdf

    1. **内存隔离与资源管理**:Flink作业运行在YARN之上,提供了内存隔离,确保了作业间的资源独立,同时YARN的队列机制便于进行资源分配和预算审核。 2. **统一资源管理**:通过YARN管理资源,减轻了运维负担,实现了...

    Jstorm介绍

    jstorm框架介绍,包含架构图、jstorm安装部署以及配置、如何在jstorm框架里写业务代码。

    alibaba-jstorm

    阿里巴巴JStorm是一款由阿里巴巴开源的分布式实时计算系统,它基于Apache Storm,但在性能、稳定性、易用性等多个方面进行了优化,是大数据处理领域的重要工具之一。JStorm的设计理念是“简单、稳定、低延迟”,旨在...

    JStorm 2.2.1下载 (百度网盘提取链接和密码)

    JStorm 2.2.1 百度网盘下载,Alibaba JStorm 是一个强大的企业级流式计算引擎

Global site tag (gtag.js) - Google Analytics