- 浏览: 87816 次
- 性别:
- 来自: 郑州
文章分类
- 全部博客 (69)
- java (28)
- linux (6)
- redis (4)
- C# (3)
- 架构 (10)
- java ee (1)
- web (1)
- 操作系统 (7)
- sqlserver (1)
- android (2)
- Hadoop (12)
- 大数据 (21)
- 分布式 事务 消息 (10)
- linux mysql (1)
- 数据库 (3)
- 关于hadoop之bootshell使用 (2)
- 关于hbase---HTableInterfaceFactory (1)
- Spring (3)
- Hbase (5)
- jstorm (10)
- nginx (1)
- 分布式 (1)
- 区块链 (3)
- dubbo (1)
- nacos (1)
- 阿里 (1)
- go (3)
- 缓存 (1)
- memcached (1)
- ssdb (1)
- 源码 (1)
最新评论
-
想个可以用的名字:
楼主,能不能给发一份源代码,1300246542@qqq.co ...
spring+websocket的使用 -
wahahachuang5:
web实时推送技术使用越来越广泛,但是自己开发又太麻烦了,我觉 ...
websocket -
dalan_123:
前提是你用的是spring mvc 才需要加的1、在web.x ...
spring+websocket的使用 -
string2020:
CharacterEncodingFilter这个filter ...
spring+websocket的使用
一、作用
RichSpoutBatchExecutor是IRichSpout及其子类Spout的executor执行器;主要包括:
1、RichSpoutEmitter :用户tuple的emit
2、RichSpoutCoordinator:用于spout的调度
3、CaptureCollector: 用于获取spout的collect的field的
二、
package storm.trident.spout;
import backtype.storm.Config;
public class RichSpoutBatchExecutor implements ITridentSpout {
public static final String MAX_BATCH_SIZE_CONF = "topology.spout.max.batch.size";
IRichSpout _spout;
// 构造RichSpouBatchExecutor 初始化Spout
public RichSpoutBatchExecutor(IRichSpout spout) {
_spout = spout;
}
// 获取Spout配置信息
@Override
public Map getComponentConfiguration() {
return _spout.getComponentConfiguration();
}
// 获取向下级投递的stream fields
@Override
public Fields getOutputFields() {
return TridentUtils.getSingleOutputStreamFields(_spout);
}
// 构建batch的调度器
@Override
public BatchCoordinator getCoordinator(String txStateId, Map conf, TopologyContext context) {
return new RichSpoutCoordinator();
}
// 构建emitter
@Override
public Emitter getEmitter(String txStateId, Map conf, TopologyContext context) {
return new RichSpoutEmitter(conf, context);
}
// Emitter的实现
// 指定emit的参数
class RichSpoutEmitter implements ITridentSpout.Emitter<Object> {
// batch的大小
int _maxBatchSize;
// 是否完成初始化
boolean prepared = false;
// filed collect
CaptureCollector _collector;
// 记录fail的id
RotatingMap<Long, List<Object>> idsMap;
// spout 的配置
Map _conf;
// topology的上下文
TopologyContext _context;
// 记录emit上一次的时间
long lastRotate = System.currentTimeMillis();
// 记录emit的当前时间 主要是根据message timeout进行计算
long rotateTime;
public RichSpoutEmitter(Map conf, TopologyContext context) {
_conf = conf;
_context = context;
// spout的batch的size 根据配置文件中max_batch_size的内容得来的
Number batchSize = (Number) conf.get(MAX_BATCH_SIZE_CONF);
// 默认大小为1000
if (batchSize == null)
batchSize = 1000;
_maxBatchSize = batchSize.intValue();
_collector = new CaptureCollector();
idsMap = new RotatingMap(3);
rotateTime = 1000L * ((Number) conf.get(Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS)).intValue();
}
// batch执行emit操作
// 获取batch对应的transaction的id 和 当前系统时间与lastRotate的差值
// 若是超过timeout指定的时间即认为batch的emit的操作失败 通过循环遍历idsMap中最后一个桶中 并将对应桶中的id执行fail 最后更新lastRotate对应的时间 同时也要将这一batch的txId执行fail
// 若是没有超时或者提出超时的那部分id
@Override
public void emitBatch(TransactionAttempt tx, Object coordinatorMeta, TridentCollector collector) {
long txid = tx.getTransactionId();
long now = System.currentTimeMillis();
if (now - lastRotate > rotateTime) {
Map<Long, List<Object>> failed = idsMap.rotate();
for (Long id : failed.keySet()) {
// TODO: this isn't right... it's not in the map anymore
fail(id);
}
lastRotate = now;
}
if (idsMap.containsKey(txid)) {
fail(txid);
}
// 重置collect 使用batch的collector 同时ids重置
_collector.reset(collector);
// 判断当前spout是否已经完成初始化 否则执行初始化 调整状态
if (!prepared) {
_spout.open(_conf, _context, new SpoutOutputCollector(_collector));
prepared = true;
}
// 循环判断batchs中的batch是否处理完成 根据collect中的emitted的个数和当前的下标进行比对 若是小于当前下标则为后续的batch未处理
// 最终将当前完成的id存放idsMap
for (int i = 0; i < _maxBatchSize; i++) {
_spout.nextTuple();
if (_collector.numEmitted < i) {
break;
}
}
idsMap.put(txid, _collector.ids);
}
// batch指定成功后 执行ack
@Override
public void success(TransactionAttempt tx) {
ack(tx.getTransactionId());
}
// 循环执行spout的ack
private void ack(long batchId) {
List<Object> ids = (List<Object>) idsMap.remove(batchId);
if (ids != null) {
for (Object id : ids) {
_spout.ack(id);
}
}
}
// 循环执行spout的fail
private void fail(long batchId) {
List<Object> ids = (List<Object>) idsMap.remove(batchId);
if (ids != null) {
for (Object id : ids) {
_spout.fail(id);
}
}
}
// 关闭spout
@Override
public void close() {
_spout.close();
}
}
// spout的coordinator
class RichSpoutCoordinator implements ITridentSpout.BatchCoordinator {
// 事务初始化
@Override
public Object initializeTransaction(long txid, Object prevMetadata, Object currMetadata) {
return null;
}
// 事务完成
@Override
public void success(long txid) {
}
// 是否已经准备
@Override
public boolean isReady(long txid) {
return true;
}
// 关闭
@Override
public void close() {
}
}
// spout的collect 主要是针对batch的操作 进行collect的
static class CaptureCollector implements ISpoutOutputCollector {
TridentCollector _collector;
public List<Object> ids;
public int numEmitted;
public void reset(TridentCollector c) {
_collector = c;
ids = new ArrayList<Object>();
}
@Override
public void reportError(Throwable t) {
_collector.reportError(t);
}
@Override
public List<Integer> emit(String stream, List<Object> values, Object id) {
if (id != null)
ids.add(id);
numEmitted++;
_collector.emit(values);
return null;
}
@Override
public void emitDirect(int task, String stream, List<Object> values, Object id) {
throw new UnsupportedOperationException("Trident does not support direct streams");
}
}
}
RichSpoutBatchExecutor是IRichSpout及其子类Spout的executor执行器;主要包括:
1、RichSpoutEmitter :用户tuple的emit
2、RichSpoutCoordinator:用于spout的调度
3、CaptureCollector: 用于获取spout的collect的field的
二、
package storm.trident.spout;
import backtype.storm.Config;
public class RichSpoutBatchExecutor implements ITridentSpout {
public static final String MAX_BATCH_SIZE_CONF = "topology.spout.max.batch.size";
IRichSpout _spout;
// 构造RichSpouBatchExecutor 初始化Spout
public RichSpoutBatchExecutor(IRichSpout spout) {
_spout = spout;
}
// 获取Spout配置信息
@Override
public Map getComponentConfiguration() {
return _spout.getComponentConfiguration();
}
// 获取向下级投递的stream fields
@Override
public Fields getOutputFields() {
return TridentUtils.getSingleOutputStreamFields(_spout);
}
// 构建batch的调度器
@Override
public BatchCoordinator getCoordinator(String txStateId, Map conf, TopologyContext context) {
return new RichSpoutCoordinator();
}
// 构建emitter
@Override
public Emitter getEmitter(String txStateId, Map conf, TopologyContext context) {
return new RichSpoutEmitter(conf, context);
}
// Emitter的实现
// 指定emit的参数
class RichSpoutEmitter implements ITridentSpout.Emitter<Object> {
// batch的大小
int _maxBatchSize;
// 是否完成初始化
boolean prepared = false;
// filed collect
CaptureCollector _collector;
// 记录fail的id
RotatingMap<Long, List<Object>> idsMap;
// spout 的配置
Map _conf;
// topology的上下文
TopologyContext _context;
// 记录emit上一次的时间
long lastRotate = System.currentTimeMillis();
// 记录emit的当前时间 主要是根据message timeout进行计算
long rotateTime;
public RichSpoutEmitter(Map conf, TopologyContext context) {
_conf = conf;
_context = context;
// spout的batch的size 根据配置文件中max_batch_size的内容得来的
Number batchSize = (Number) conf.get(MAX_BATCH_SIZE_CONF);
// 默认大小为1000
if (batchSize == null)
batchSize = 1000;
_maxBatchSize = batchSize.intValue();
_collector = new CaptureCollector();
idsMap = new RotatingMap(3);
rotateTime = 1000L * ((Number) conf.get(Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS)).intValue();
}
// batch执行emit操作
// 获取batch对应的transaction的id 和 当前系统时间与lastRotate的差值
// 若是超过timeout指定的时间即认为batch的emit的操作失败 通过循环遍历idsMap中最后一个桶中 并将对应桶中的id执行fail 最后更新lastRotate对应的时间 同时也要将这一batch的txId执行fail
// 若是没有超时或者提出超时的那部分id
@Override
public void emitBatch(TransactionAttempt tx, Object coordinatorMeta, TridentCollector collector) {
long txid = tx.getTransactionId();
long now = System.currentTimeMillis();
if (now - lastRotate > rotateTime) {
Map<Long, List<Object>> failed = idsMap.rotate();
for (Long id : failed.keySet()) {
// TODO: this isn't right... it's not in the map anymore
fail(id);
}
lastRotate = now;
}
if (idsMap.containsKey(txid)) {
fail(txid);
}
// 重置collect 使用batch的collector 同时ids重置
_collector.reset(collector);
// 判断当前spout是否已经完成初始化 否则执行初始化 调整状态
if (!prepared) {
_spout.open(_conf, _context, new SpoutOutputCollector(_collector));
prepared = true;
}
// 循环判断batchs中的batch是否处理完成 根据collect中的emitted的个数和当前的下标进行比对 若是小于当前下标则为后续的batch未处理
// 最终将当前完成的id存放idsMap
for (int i = 0; i < _maxBatchSize; i++) {
_spout.nextTuple();
if (_collector.numEmitted < i) {
break;
}
}
idsMap.put(txid, _collector.ids);
}
// batch指定成功后 执行ack
@Override
public void success(TransactionAttempt tx) {
ack(tx.getTransactionId());
}
// 循环执行spout的ack
private void ack(long batchId) {
List<Object> ids = (List<Object>) idsMap.remove(batchId);
if (ids != null) {
for (Object id : ids) {
_spout.ack(id);
}
}
}
// 循环执行spout的fail
private void fail(long batchId) {
List<Object> ids = (List<Object>) idsMap.remove(batchId);
if (ids != null) {
for (Object id : ids) {
_spout.fail(id);
}
}
}
// 关闭spout
@Override
public void close() {
_spout.close();
}
}
// spout的coordinator
class RichSpoutCoordinator implements ITridentSpout.BatchCoordinator {
// 事务初始化
@Override
public Object initializeTransaction(long txid, Object prevMetadata, Object currMetadata) {
return null;
}
// 事务完成
@Override
public void success(long txid) {
}
// 是否已经准备
@Override
public boolean isReady(long txid) {
return true;
}
// 关闭
@Override
public void close() {
}
}
// spout的collect 主要是针对batch的操作 进行collect的
static class CaptureCollector implements ISpoutOutputCollector {
TridentCollector _collector;
public List<Object> ids;
public int numEmitted;
public void reset(TridentCollector c) {
_collector = c;
ids = new ArrayList<Object>();
}
@Override
public void reportError(Throwable t) {
_collector.reportError(t);
}
@Override
public List<Integer> emit(String stream, List<Object> values, Object id) {
if (id != null)
ids.add(id);
numEmitted++;
_collector.emit(values);
return null;
}
@Override
public void emitDirect(int task, String stream, List<Object> values, Object id) {
throw new UnsupportedOperationException("Trident does not support direct streams");
}
}
}
发表评论
-
nacos单机源码调试
2018-12-17 11:35 1233首先从github上获取对应的源码Nacos源码git cl ... -
关于实时消息推送系统的架构之浅见
2016-04-26 10:37 5510最近,有一个朋友问了 ... -
jstorm源码之TransactionalState
2016-03-21 19:31 899一、作用 主要是通过结合zookeeper,在zookee ... -
jstorm源码之RotatingTransactionalState
2016-03-21 19:29 589一、作用 构建一个Rotationg transacti ... -
jstorm源码之PartitionedTridentSpoutExecutor
2016-03-21 19:28 896一、作用 Partition Spout对应的exec ... -
jstorm源码之 RichSpoutBatchExecutor
2016-03-21 19:28 0一、作用 RichSpoutBatchExecutor是IRi ... -
jstorm源码之RotatingMap
2016-03-21 19:27 888一、作用 基于LinkedList + HashM ... -
jstorm源码之TridentTopology
2016-03-16 18:12 2368在jstorm中对应TridentTopology的源码如下, ... -
jstorm操作命令
2016-03-15 18:04 2745启动ZOOPKEEPER zkServer.sh start ... -
JStorm之Supervisor简介
2016-03-15 18:02 1261一、简介Supervisor是JStorm中的工作节点,类似 ... -
JStorm介绍
2016-03-15 17:56 924一、简介Storm是开源的 ... -
mycat的使用---sqlserver和mysql
2016-01-11 14:33 8629数据库中间件mycat的使 ... -
nginx tcp的使用
2015-12-24 12:39 740安装说明 系统环境:CentOS-6.7 软件:nginx-1 ... -
jstorm安装
2015-12-03 19:43 1759关于jstorm单机安装可以 ... -
HBase系列一
2015-11-30 16:17 719关于hbase 一、客户端类 HTable 和 HTabl ... -
spring hadoop系列(六)---HbaseSystemException
2015-11-30 09:13 518一、源码 /** * HBase Data Access e ... -
spring hadoop系列(五)---spring hadoop hbase之HbaseSynchronizationManager
2015-11-27 18:16 877一、源码如下 /** * Synchronization m ... -
spring hadoop 系列(二)
2015-11-27 15:26 602一、源码分析 /** * * HbaseAccesso ... -
spring hadoop之batch处理(二)
2015-11-24 18:10 1529一、测试 public class MrBatchApp { ... -
spring hadoop之mapreduce batch
2015-11-24 15:51 638一、测试 // 定义hadoop configuration ...
相关推荐
在JStorm的源码中,我们可以看到Bolt执行的核心逻辑位于`BasicBoltExecutor`类的`execute()`方法。该方法首先设置上下文,然后尝试执行Bolt的业务逻辑,最后确认处理成功。如果在执行过程中抛出`FailedException`,...
- **Nimbus**:Nimbus是Storm集群的核心组件之一,负责整个集群的管理和协调工作,包括任务调度、故障恢复等。Nimbus通过Zookeeper来实现状态同步和集群协调。 - **Supervisor**:Supervisor运行在每个Worker节点上...
在本篇文章中,我们将深入探讨JStorm源码中关于Bolt异常处理方法的实现细节。首先,我们了解到如果在Bolt代码中出现未被捕获的异常,所在的工作进程会直接退出。这一点与Storm的设计相似,旨在避免问题被掩盖而无法...
JStorm原始码学习:主要包含Storm重新启动,Nimbus启动,Supervisor启动,Executor创建和启动 风暴编程模型 Nimbus:负责资源分配和任务调度。 主管:负责接受nimbus分配的任务,启动和停止属于自己管理的worker...
1. **JStorm与Storm的关系**:讲解JStorm与Apache Storm的关系,包括JStorm的诞生背景、主要改进和优化之处。 2. **JStorm的核心概念**:介绍Spout、Bolt、拓扑等核心概念,解释它们在实时数据处理中的作用。 3. *...
**JStorm介绍** JStorm是由阿里巴巴开发的分布式实时计算引擎,它是基于Apache Storm的一个增强版本。JStorm的设计目标是提供比Storm更高的稳定性、更强的功能和更快的计算性能。这个技术分享主要涵盖了JStorm的...
本示例将探讨如何将Apache JStorm与Kafka进行集成,以利用它们各自的优势。JStorm是一款分布式实时计算系统,它允许用户处理数据流,而Kafka则是一个高吞吐量的分布式消息系统,用于实时数据传递。接下来,我们将...
在IT行业中,分布式计算系统和实时数据处理是关键领域,其中JStorm和Kafka都是重要的组件。本示例探讨了如何将JStorm与Kafka进行集成,以实现高效的数据流处理。下面,我们将深入理解这两个工具,以及它们结合使用的...
阿里中间件性能挑战赛初赛-RocketMQ+JStorm+Tair实时统计双11交易金额源码+学习说明.zip阿里中间件性能挑战赛初赛-RocketMQ+JStorm+Tair实时统计双11交易金额源码+学习说明.zip阿里中间件性能挑战赛初赛-RocketMQ+...
接着,文档会详细阐述JStorm的安装与配置过程,包括下载源码、编译、部署以及设置环境变量。对于初学者,这部分内容至关重要,因为正确配置JStorm环境是后续开发和运行的基础。 在JStorm的使用方法部分,你会了解到...
**JStorm 2.1.1 API 深度解析** JStorm是阿里巴巴开源的一款分布式实时计算系统,它基于Apache Storm并进行了大量的优化,提供了一种高效、稳定且易用的流处理框架。JStorm 2.1.1是其一个重要的版本,此版本的API为...
**JStorm简介** JStorm是阿里巴巴开源的一款分布式实时计算系统,它是基于Apache Storm的一个高性能、高可用、热扩展的实时处理框架。JStorm的核心设计理念是简单、高效和稳定,能够处理大规模的数据流处理任务,...
JStorm是中国淘宝团队开发的一款分布式实时计算系统,它是基于Apache Storm的设计理念,但在性能、稳定性和易用性上进行了大量的优化。本文档将详细介绍JStorm的基础知识,包括其核心概念、工作原理、安装配置以及...
标题"jstorm课程"指的是关于JStorm的教育课程,JStorm是阿里巴巴开源的一个分布式实时计算框架,它是Apache Storm的Java版本,主要用于处理大规模数据流的实时计算。 描述中提到的"全套storm资料初学者必备 比较...
《JStorm 2.2.1:分布式流处理框架详解》 JStorm是阿里巴巴开源的一款高性能、高可靠的分布式实时计算系统,它基于Apache Storm并针对大规模数据处理进行了优化。JStorm 2.2.1是该框架的一个稳定版本,提供了许多...
storm-core-1.0.3-sources.jar 源码文件,1.0.3版本
1. **内存隔离与资源管理**:Flink作业运行在YARN之上,提供了内存隔离,确保了作业间的资源独立,同时YARN的队列机制便于进行资源分配和预算审核。 2. **统一资源管理**:通过YARN管理资源,减轻了运维负担,实现了...
jstorm框架介绍,包含架构图、jstorm安装部署以及配置、如何在jstorm框架里写业务代码。
阿里巴巴JStorm是一款由阿里巴巴开源的分布式实时计算系统,它基于Apache Storm,但在性能、稳定性、易用性等多个方面进行了优化,是大数据处理领域的重要工具之一。JStorm的设计理念是“简单、稳定、低延迟”,旨在...
JStorm 2.2.1 百度网盘下载,Alibaba JStorm 是一个强大的企业级流式计算引擎