Storm On YARN

m635674608

浏览: 5054973 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

分布式计算

1. 背景知识

（1）Storm：一个实时计算框架，与MapReduce离线计算框架互补，分别用于解决不同场景下的问题，Storm的官方网站是：http://storm-project.net/，如果想快速了解，推荐阅读淘宝的这篇文章：Storm简介。

（2）YARN：YARN是Hadoop 2.0中新引入的资源管理系统，可看做Hadoop操作系统中的资源管理组件，所有应用程序和框架，比如MapReduce、Storm和Spark等，均可运行在YARN之上，关于YARN，可阅读我的一系列文章：Hadoop-YARN。

（3）Storm On YARN：尝试将Storm运行在YARN上，这将来众多好处，具体本文将详细介绍。Storm On YARN最有名是Yahoo！的开源实现，具体参考：Storm On YARN。将Storm运行在YARN上并不是一件难事，但重要的是，它给我们开了一扇窗，我们可通过该项目实现HBase On YARN, Spark On YARN，Kafka On YARN等有意义的工作，具体参考我的这篇文章：汇总运行在Hadoop YARN上的开源系统。

2. Storm On YARN带来的好处

相比于将Storm部署到一个独立的集群中，Storm On YARN带来的好处很多，主要有以下几个：

(1) 弹性计算资源。将Storm运行到YARN上后，Storm可与其他应用程序（比如MapReduce批处理应用程序）共享整个集群中的资源，这样，当Storm负载骤增时，可动态为它增加计算资源，而当负载减小时，可释放部分资源，从而将这些资源暂时分配给负载更重的批处理应用程序。

(2) 共享底层存储。 Storm可与运行在YARN上的其他框架共享底层的一个HDFS存储系统，可避免多个集群带来的维护成本，同时避免数据跨集群拷贝带来的网络开销和时间延迟。

(3) 支持多版本。可同时将多个Storm版本运行YARN上，避免一个版本一个集群带来的维护成本。

3. Storm On YARN架构

在文章“如何编写YARN应用程序”一文中，我已经介绍了如何在YARN上开发一个应用程序，通常而言，需要开发两个组件，分别是客户端和ApplicationMaster，其中，客户端的主要作用是将应用程序提交到YARN上，并与YARN和ApplicationMaster交互，完成用户发送的一些指令；而ApplicationMaster则负责向YARN申请资源，并与NodeManager通信，以启动任务。

为了不修改Storm任何源代码的情况下，让Storm运行在YARN上，最简单的实现方法是将Storm的各个服务组件（包括Nimbus和Supervisor），作为单独的任务运行在YARN上，而Zookeeper则作为一个公共的服务运行在YARN集群之外的几个节点上。

当前比较有名的“Storm On YARN”实现是由yahoo！开源的，它基本实现了上述描述的功能，下面具体进行说明：

（1） YARN-Storm Client

提供了一系列Shell命令供用户控制YARN上的Storm服务，比如构建一个Storm集群命令如下：

storm-yarn launch <storm-yarn-config>

其中，<storm-yarn-config>是Storm配置信息，包括启动的Supervisor个数、Storm ApplicationMaster占用的内存等。

启动Storm之后，用户可通过以下命令控制Storm：

storm-yarn [command] –appId [appId] –output [file] [–supervisors [n]]

其中，Command为具体命令，具体见下表，参数“-appId”为启动的Storm的应用程序Id，“-supervisors”为需增加的Supervisor服务个数，该参数只对命令“addSupervisors”有效。

结合使用startNimbus/stopNimbus、startUI/stopUI和startSupervisors/ stopSupervisors等命令，可完成对Storm集群的升级。

（2） YARN-Storm ApplicationMaster

Storm ApplicationMaster初始化时，将在同一个Container中启动Storm Nimbus和Storm Web UI两个服务，然后根据待启动的Supervisor数目向ResourceManager申请资源，在目前实现中，ApplicationMaster将请求一个节点上所有资源然后启动Supervisor服务，也就是说，当前Supervisor将独占节点而不会与其他服务共享节点资源，这种情况下可避免其他服务对Storm集群的干扰。

除了运行Storm Nimbus和Web UI外，Storm ApplicationMaster还会启动一个Thrift Server以处理来自YARN-Storm Client端的各种请求，在此不再赘述。

4. 当前Storm On YARN存在的问题

由于YARN本身的不完善，导致Storm On YARN设计存在诸多缺陷，以下是几个典型问题：

（1）难以将所有Storm服务运行在相邻的节点上，比如同一个机架上，这是由于YARN自身不支持资源组调度，只能实现指定一个rack，然后增量获取资源，以期望所有资源来自这个rack，但是当该rack空闲资源不足时，YARN也无能为力。

（2）由于Nimbus服务运行在ApplicationMaster上，而一旦ApplicationMaster失败后，YARN会将它运行在另外一个节点上，这意味着Nimbus服务可能神不知鬼不觉的在另一个节点上启动了，这给用户使用带来诸多不便，YARN需要提供一个ApplicationMaster或Nimbus位置获取服务，客户端直接通过该服务获取Nimbus位置即可。社区目前正在推荐一个基于Zookeeper的方案，你可以使用最新开源项目Weave完成该功能。

（3）NodeManager本身无法支持动态升级，这意味着，如果NodeManager升级，则它上面运行的服务将全部被杀死，这将给运行在YARN上的服务带来诸多不稳定因素。如果能够将更广泛的服务，比如Web server、Mysql等，运行在YARN上，需要让NodeManager支持动态升级，像YARN的同质项目Mesos那样。

http://ju.outofmemory.cn/entry/65485

http://dongxicheng.org/mapreduce-nextgen/storm-on-yarn/

分享到：

开源搜索引擎评估:lucene sphinx elasticse ... | 15:39:52.027 [ActiveMQ InactivityMonitor ...

2015-07-31 11:52
浏览 906
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Storm On YARN

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Storm On YARN

评论

发表评论

相关推荐

滑动窗口在storm中的实现

Geode/Gemfire学习笔记（一）环境搭建、快速上手

利用hadoop mapreduce 做数据排序

《BIG DATA大数据日知录 架构和算法》读书笔记

Apache Mahout 简介

Apache Tez：一个运行在YARN之上支持DAG作业的计算框架

开源分布式计算框架(DC4C)

spark RDD的理解

开源IMDG之GridGain

Hazelcast: Java分布式内存网格框架(平台)

大数据架构师：hadoop、Storm该选哪一个

hadoop storm 区别

分布式多副本一致性问题

Storm 实现滑动窗口计数和TopN排序

Storm: Transactional Topolgoy简介

Storm的并行度、Grouping策略以及消息可靠处理机制简介

Storm消息机制

Storm Topology的并发度

流式大数据处理的三种框架：Storm，Spark和Samza

Spark与Flink：对比与分析

最近访客更多访客>>

《BIG DATA大数据日知录架构和算法》读书笔记