转载:http://xumingming.sinaapp.com/727/twitter-storm-code-analysis-tuple-send-proc/
这篇文章里面我们来看一下Storm里面的tuple到底是如何从一个tuple是怎么从一个bolt到另一个bolt上去的。
首先Bolt在发射一个tuple的时候是调用OutputCollector的emit或者emitDirect方法,
而这两个方法最终调用的是clojure代码里面的mk-transfer-fn方法:
帮助123456 ; worker.clj (defn mk-transfer-fn [transfer-queue] (fn [task ^Tuple tuple] (.put ^LinkedBlockingQueue transfer-queue [task tuple]) ))
这个方法其实只是往一个LinkedBlockingQueue里面放入一条新记录(task-id, tuple)
然后这个queue里面的内容会被下面这段代码处理
帮助010203040506070809101112131415161718192021222324252627 ; worker.clj ; 这里面的这个socket到底是什么东西? (async-loop (fn [^ArrayList drainer ^KryoTupleSerializer serializer] ; 从transfer-queue里面取出一个任务来 ; 这个任务其实就是(task, tuple) (let [felem (.take transfer-queue)] (.add drainer felem) (.drainTo transfer-queue drainer)) (read-locked endpoint-socket-lock ; 获取从node+port到socket的映射 (let [node+port->socket @node+port->socket ; 获取从task-id到node+port的映射 task->node+port @task->node+port] (doseq [[task ^Tuple tuple] drainer] ; 获取task对应的socket (let [socket (node+port->socket (task->node+port task)) ; 序列化这个tuple ser-tuple (.serialize serializer tuple)] ; 发送这个tuple (msg/send socket task ser-tuple) )) )) )
从上面代码可见,tuple最终是被序列化之后由msg/send方法通过socket发送给指定的task的。注意上面代码里面的async-loop表示会创建一个单独的线程来执行这些代码。可以storm会起一个独立线程来专门发送待发送的消息的。
我们来看下这个socket到底是个怎么样的东西。这个socket是在worker.clj里面被初始化的,看下面的代码:
帮助01020304050607080910111213 ; socket(worker.clj) (swap! node+port->socket merge (into {} (dofor [[node port :as endpoint] new-connections] [endpoint (msg/connect mq-context ((:node->;host assignment) node) port) ] )))
从上面代码可以看出socket其实是msg/connect创建出来的。那 msg/connect到底在做什么呢? 这个方法是定义在protocol.clj里面的:
帮助123456 (defprotocol Context (bind [context virtual-port]) (connect [context host port]) (send-local-task-empty [context virtual-port]) (term [context]) )
这里定义的只是一个接口而已,具体的实现是在zmq.clj里面。zmq是ZeroMQ的缩写, 可见storm的supervisor之间就是利用zeromq来传递tuple的。
zmq.clj里面的ZMQCOntext实现了Context接口:
帮助01020304050607080910111213141516171819202122232425262728293031323334 (deftype ZMQContext [context linger-ms ipc?] ; 实现Context接口 Context ; 从给定的virtual-port拉消息 (bind [this virtual-port] (->; context (mq/socket mq/pull) (mqvp/virtual-bind virtual-port) (ZMQConnection.) )) ; 给给定的host,port推送消息(push) (connect [this host port] (let [url (if ipc? (str "ipc://" port "ipc") (str "tcp://" host ":" port))] (->; context (mq/socket mq/push) (mq/set-linger linger-ms) (mq/connect url) (ZMQConnection.)))) ; 给本地的virtual-port发送一条空消息 (send-local-task-empty [this virtual-port] (let [pusher (->; context (mq/socket mq/push) (mqvp/virtual-connect virtual-port))] (mq/send pusher (mq/barr)) (.close pusher))) (term [this] (.term context)) ; 实现ZMQContextQuery接口 ZMQContextQuery (zmq-context [this] context))
总结一些Twitter Storm对于tuple的处理/创建过程:
Bolt创建一个tuple。
Worker把tuple, 以及这个tuple要发送的地址(task-id)组成一个对象(task-id, tuple)放进待发送队列(LinkedBlockingQueue).
一个单独的线程(async-loop所创建的线程)会取出发送队列里面的每个tuple来处理
Worker创建从当前task到目的task的zeromq连接。
序列化这个tuple并且通过这个zeromq的连接来发送这个tuple。
分享到:
相关推荐
Storm是一个开源的分布式实时计算系统,它是由Nathan Marz等人在Twitter工作期间开发的。Storm的主要优势在于简单、可靠、可以线性扩展到大量的机器上。它的设计目标是能简单、可靠地处理大量数据,并且可以无缝地...
综上所述,"storm之Tuple元组分词操作Java代码"这个主题涵盖了Storm的核心概念,如tuples、Bolts、Spouts以及在Java环境中实现分词处理的细节,对于理解和实践Storm实时流处理具有重要意义。通过学习和理解这些代码...
《Java源码剖析:Twitter Storm实时数据处理平台》 Twitter Storm是一个开源的分布式实时计算系统,它被设计用于处理和汇总大规模的数据流。这个压缩包包含的是Nathan Marz开发的Storm项目的源代码,版本号为9a3e1...
这个版本可能包含了源代码、文档、示例以及编译和部署所需的配置文件,供开发者研究和使用。通过深入研究这些代码和文档,开发者可以更深入地理解Storm的工作原理,并利用它来构建自己的实时数据处理系统。
- **DataSource**:外部数据源,如 Kafka、Twitter 等。 - **Spout**:数据源组件,负责读取外部数据并将数据转换为 Tuple 形式,传递给下游的 Bolt 处理。 - **Bolt**:数据处理组件,接收来自 Spout 或上游 Bolt ...
Storm是一个开源的分布式实时计算系统,由Twitter开发并开源,其设计目标是让实时处理变得简单、强大且可靠。在Storm中,数据流被抽象为持续不断的Tuple(元组)序列,这些Tuple在网络中的worker节点间进行分布式...
源码版本的Apache Storm允许开发者查看和修改源代码,以便进行以下操作: - **自定义行为**:根据特定需求调整核心组件或实现新的功能。 - **性能优化**:分析和改进代码以提高处理速度或降低资源消耗。 - **调试和...
### Storm 从零到精通知识点解析 #### 一、Storm简介 **1.1 什么是Storm** Apache Storm 是一个开源的分布式实时计算系统,能够处理大量实时数据流。Storm 的设计目的是为了实现实时处理,它能够确保每个事件都能...
这个名为"apache-storm-2.1.0.tar.gz"的压缩包包含了Apache Storm的2.1.0版本,这是一个非源码的发行版,意味着它包含了编译后的二进制文件,可以直接在Linux环境中运行。该版本是由Apache软件基金会维护的,最初由...
- 开源免费:遵循Apache许可证,用户可以自由使用和修改源代码。 2. Storm设计思想: - Nimbus:作为主控节点,负责任务调度和资源分配,确保集群的正常运行。 - Supervisor:工作节点,接收Nimbus的指令,管理...
Storm提供了多种组群策略,例如全shuffle(所有数据均匀分布到每个bolt)、字段分组(基于特定字段值进行分发)和局部字段分组(保持字段值相同的tuple在同一worker中处理)等,这些策略影响着系统的并行性和性能。...
- **编译打包**:将源代码编译成JAR文件,通常会包含拓扑结构、依赖库等。 - **配置参数**:根据实际需求,配置拓扑运行参数,如worker数量、执行器(Executor)线程数等。 - **提交Job**:通过命令行工具`storm ...
对于子发布匹配算法,Spout可以从数据库、消息队列或其他数据源读取发布和订阅信息,并将其转换为Storm的数据结构(Tuple)。 3. **编写Bolt组件**:Bolt是处理数据的逻辑单元,可以执行过滤、聚合、计算等操作。在...
Storm是一个开源的分布式实时计算系统,由Twitter开发并贡献给Apache软件基金会。它被设计用来处理无界数据流,能够持续地处理数据,而不仅仅是批量处理。在本篇文章中,我们将深入探讨Strom的核心概念、优化策略...
2. "Stormѧϰ":可能是一份进阶资料,如源码分析或高级应用,帮助理解Strom内部机制和优化技巧。 通过深入理解和掌握这些基础知识,开发者可以构建出强大的实时数据处理系统,满足各种复杂的业务需求。在实际应用...