参考:
[1] http://hi.baidu.com/clockfly/item/f977cad1239bd94fddf9beea
[2] http://blog.csdn.net/jiushuai/article/details/18729367
1. 已有的环境
a. 安装有HDFS文件系统 b. 安装有YARN,且YARN服务已经开启 c. JAVA_HOME
注:本次安装实验是基于hadoop2.2.0的,jdk1.7,因此a,b,c全部满足。
2. Storm on Yarn的安装准备
a. 从GitHub上下载Storm on Yarn wget https://github.com/yahoo/storm-yarn/archive/master.zip b. Unzip master unzip master c. Edit pom.xml,修改Hadoop的版本号,改成对应的版本号
3. Maven安装(使用Maven来build工程)
wget http://mirror.symnds.com/software/Apache/maven/maven-3/3.1.1/binaries/apache-maven-3.1.1-bin.tar.gz tar –zxvf apache-maven-3.1.1-bin.tar.gz
4. 配置Storm的工作环境
a. 解压缩storm.zip unzip storm.zip b. 添加storm-0.9.0-wip21和storm-yarn-master的bin到Path环境变量 export PATH=${PATH}:${STORM_HOME}/storm-0.9.0-wip21/bin export PATH=${PATH}:${STORM_HOME}/storm-yarn-master/bin c. 添加Storm工程需要的额外Jar包到storm-0.9.0-wip21的lib下,重新压缩成storm.zip文件,上传至HDFS的指定目录中(非常重要,集群中通过访问hdfs中的storm.zip获取工作环境) zip –r storm.zip storm-0.9.0-wip21 hadoop fs –put storm.zip /lib/storm/0.9.0-wip21/
5. 安装并运行Storm
a. 使用maven来build工程 cd storm-yarn-master mvn package b. 修改storm.yaml文件 vi storm-0.9.0-wip21/conf/storm.yaml 注:只修改了zookeeper的servers信息,其余没有改动。
c. 提交运行storm on yarn,并得到一个ApplicationId storm-yarn launch storm.yaml 注:因为storm是作为一个yarn程序运行在集群上的,所以会有一个AppId,如下图所示
d. 存储storm.yaml文件到.storm,这样使用storm命令提交jobs时,会找到该文件
storm-yarn getStormConfig -appId application_1381089732797_0025 -output ~/.storm/storm.yaml e. 通过以下命令得到Nimbus host cat ~/.storm/storm.yaml | grep nimbus.host
6. 测试Storm
a. 提交Topology storm jar lib/storm-starter-0.0.1-SNAPSHOT.jar storm.starter.WordCountTopology WordCountTopology -c nimbus.host=<your nimbus host> b. 监控Topology 查看Storm ui,地址是:http://<your nimbus host>:7070 c. 关闭Topology storm kill [Topology_name] d. 关闭Storm on yarn集群 storm-yarn shutdown –appId [applicationId]
相关推荐
Kafka作为另一种流处理平台,课程涵盖了其基本概念、体系结构、配置详解和安装过程,还讲解了如何在Storm中结合Kafka进行编程。Storm作为实时计算框架,课程深入讨论了其常用组件、编程API、分组策略、消息可靠性、...
YARN(Yet Another Resource Negotiator)模式是Hadoop的资源管理组件,允许在同一个平台上运行MapReduce、Storm等不同计算框架。Spark在YARN模式下有两种提交模式:YARN Client和YARN Cluster。前者中,Driver运行...
Flink on Yarn的部署有两种类型:Session共享Dispatcher和Resource ManagerDispatcher和Resource Manager共享资源。Session模式需要先启动集群,然后在提交作业,而Resource Manager模式可以按照需求申请资源。如果...
4. **Flink兼容Storm作业**,简化了迁移过程。 5. **Flink提供高阶API**,如SQL和操作符,提高了开发效率。 6. **Flink的窗口和checkpoint机制**,增强了流处理的准确性和容错性。 **构建Flink Cluster** 为了构建...
然而,他也提到在使用Yarn过程中遇到的一些问题,例如子队列不生效的bug和Pig对HistoryServer的依赖导致的问题。此外,他还提到了容器内存限制的机制,以及如何根据实际需求调整spark.yarn.executor.memoryOverhead...
1. **大规模部署方式**:Twitter Heron采用了类似于storm-on-mesos的设计思路,而JStormTurbo则采用了JStorm-on-YARN方案。 2. **核心组件**:两者都实现了Topology Master,但在具体实现细节上有所不同。 3. **监控...
通过Flink on YARN,可以更有效地管理集群资源,利用nodelabel和cgroup机制,无需维护多个独立集群,同时,Flink的状态管理、SQL支持、多样化的窗口功能以及Exactly once语义,保证了高吞吐和低延迟。 总的来说,...
以上内容涵盖了大数据领域的关键技术点,包括但不限于分布式计算框架、资源调度、数据分析步骤、Hive、Hadoop HA、Hadoop联邦机制、Storm、Kafka以及HBase等,旨在帮助读者全面了解大数据领域的核心技术及其实现细节...
此外,Storm用于实时流处理,Solr用于全文检索和搜索,而YARN和Zookeeper则确保资源管理和集群协调。 安全管理是大数据中心的重要组成部分,通过YARN和Zookeeper实现集群资源的管理和监控,确保服务的稳定运行。...
3. **Spark-on-YARN的模式**:Spark可以在YARN上运行,有Cluster和Client两种模式。在Cluster模式下,Driver运行在ApplicationMaster上,由YARN管理;在Client模式下,Driver运行在提交应用的客户端,与...
在演进的进一步阶段,TalkingData采用Flink on YARN的方式,让Flink JobManager和TaskManager在YARN环境下运行,从而实现了多租户分发/调度。通过注册资源、请求AppMaster容器、分配AppMaster和Worker容器,使得资源...
- CDH 5.3.x 的特性与安装部署过程。 - 大数据平台的监控与性能优化策略。 - 安全性和数据保护机制的实现。 #### 四、课程价值与就业前景 - **学习目标明确:** 通过实战项目驱动的方式,使学员能够迅速掌握...
2018年,腾讯进一步推进Flink的产品化进程,构建了Oceanus平台,这是一个全面集成、流程化的实时流计算平台,旨在降低业务构建实时应用的复杂度和运维成本,主要运行模式为Flink on YARN。 随着Oceanus平台的发展,...
针对不同的数据处理需求,AdMaster提供了多种数据处理工具,包括但不限于Online(HBase)、Batch(MapReduce)、Streaming(Storm、S4)、In-Memory(Spark)、Interactive(Tez)等。 在数据存储方面,AdMaster...
- **YARN**:Flink可以运行在Hadoop的YARN集群上,实现资源管理和调度。 - **HDFS**:兼容Hadoop的分布式文件系统,方便数据读写。 - **Kafka**:可以直接从Kafka消费数据,也可将结果写入Kafka。 - **HBase**:...
8. **Sqoop**:用于在关系型数据库与Hadoop之间迁移数据,简化数据导入导出过程。 9. **Flume**:Cloudera开发的数据收集系统,可高效、可靠地收集、聚合和移动大量日志数据。 10. **Oozie**:工作流管理系统,...
5. **大数据技术体系**:大数据技术不仅仅包括Hadoop,还包括了数据采集(如Flume、Kafka)、数据处理(如Storm、Flink)、数据存储(如Cassandra、MongoDB)、数据挖掘(如Mahout、TensorFlow)和数据可视化(如...