简介: 最新的Cloudera CDH5.0.0 beta版本已经支撑RM的HA, 笔者为此简单验证了RM HA的功能. 后续将持续解析其HA的道理,以及其与社区RM HA的差别.
集群属下与RM failover功能性验证
-
硬件筹办
四台机械, bj1, bj3, bj4, bj5 筹办好响应的景象(包含ssh互通, java景象).
角色申明, bj1为rm1, bj3为rm2, bj4和bj4为slave.
Zookeeper属下在bj1上.
-
Hadoop版本筹办http://archive.cloudera.com/cdh5/cdh/5/ 响应的CDH5版本hadoop-2.2.0-cdh5.0.0-beta-1.tar.gz(包含属下包和原代码),然后属下到每台slave中.
-
Zookeeper安装在bj1, 最新Zookeeper, 解压后设备 conf/zoo.cfg文件, 然后启动.
[yuling.sh@v125050024 ~]¥ cd zookeeper-3.4.3/
[yuling.sh@v125050024 zookeeper-3.4.3]¥ cp conf/zoo_sample.cfg conf/zoo.cfg
[yuling.sh@v125050024 zookeeper-3.4.3]¥ bin/zkServer.sh start
-
设备文件筹办,参考(https://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-High-Availability-Guide/cdh5hag_cfg_RM_HA.html).
-
etc/hadoop/slaves
bj4
bj5
-
etc/hadoop/hdfs-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://bj1:9000</value>
</property>
-
etc/hadoop/mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
-
etc/hadoop/yarn-site.xml设备如下
除了yarn.resourcemanager.ha.id须要稍作批改外, 其它设备都可以一样.
<!-- Resource Manager Configs -->
<property>
<name>yarn.resourcemanager.connect.retry-interval.ms</name>
<value>2000</value>
</property>
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<property>
<name>yarn.resourcemanager.ha.id</name>
<value>rm2</value> <!—注释, rm1上设备为rm1, rm2上设备rm2-->
</property>
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
<property>
<name>yarn.resourcemanager.zk.state-store.address</name>
<value>bj1:2181</value>
</property>
?<property>
<name>ha.zookeeper.quorum</name>
<value>bj1:2181</value>
</property>
?<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms</name>
<value>5000</value>
</property>
<!-- RM1 configs -->
<property>
<name>yarn.resourcemanager.address.rm1</name>
<value>bj1:23140</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address.rm1</name>
<value>bj1:23130</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address.rm1</name>
<value>bj1:23188</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm1</name>
<value>bj1:23125</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address.rm1</name>
<value>bj1:23141</value>
</property>
<property>
<name>yarn.resourcemanager.ha.admin.address.rm1</name>
<value>bj1:23142</value>
</property>
<!-- RM2 configs -->
<property>
<name>yarn.resourcemanager.address.rm2</name>
<value>bj3:23140</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address.rm2</name>
<value>bj3:23130</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address.rm2</name>
<value>bj3:23188</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm2</name>
<value>bj3:23125</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address.rm2</name>
<value>bj3:23141</value>
</property>
<property>
<name>yarn.resourcemanager.ha.admin.address.rm2</name>
<value>bj3:23142</value>
</property>
<!-- Node Manager Configs -->
<property>
<description>Address where the localizer IPC is.</description>
<name>yarn.nodemanager.localizer.address</name>
<value>0.0.0.0:23344</value>
</property>
<property>
<description>NM Webapp address.</description>
<name>yarn.nodemanager.webapp.address</name>
<value>0.0.0.0:23999</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.nodemanager.local-dirs</name>
<value>/tmp/pseudo-dist/yarn/local</value>
</property>
<property>
<name>yarn.nodemanager.log-dirs</name>
<value>/tmp/pseudo-dist/yarn/log</value>
</property>
<property>
<name>mapreduce.shuffle.port</name>
<value>23080</value>
</property>
-
-
起首启动HDFS
bin/hadoop namenode –format
sbin/start-dfs.sh
网页上查看Namenode: http://bj1:50070/dfshealth.jsp
-
启动Yarn
rm1上启动resourcemanager
sbin/yarn-daemon.sh start resourcemanager
rm2上启动resourcemanager
sbin/yarn-daemon.sh start resourcemanager
?
slave启动NodeManager
????sbin/yarn-daemons.sh start nodemanager
查看rm1和mr2的网页. http://bj1:23188/cluster 和 http://bj3:23188/cluster 此中active RM的网页可以查看, stanby的RM无法查看网页.
注: 若是yarn.resourcemanager.ha.automatic-failover.enabled设置为false, 则须要手动设置此中一个RM为active,负责两个RM都为standby.
-
提交一个sleep功课测试
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.2.0-cdh5.0.0-beta-1.jar sleep -m 1000
然后可以到网页上查看功课运行景象
-
在功课运行过程中kill掉active的RM过程, 这时辰打开standby RM的网页,可以看到刚才提交的功课持续运行.
[yuling.sh@v125050024 hadoop-2.2.0-cdh5.0.0-beta-1]¥ jps
31333 ResourceManager
31671 Jps
29502 NameNode
25375 QuorumPeerMain
[yuling.sh@v125050024 hadoop-2.2.0-cdh5.0.0-beta-1]¥ kill 31333
相关推荐
《Cloudera CDH集群运维手册》是一份深入解析Cloudera CDH集群管理与运维的详尽指南,尤其适合已经或计划使用Cloudera CDH进行大数据处理的团队参考。Cloudera CDH(Cloudera Distribution Including Apache Hadoop...
大数据集群 cloudera CDH 安装手册 在服务器上安装CDH的实验 亲测可用
此外,Cloudera CDH4的安装文档还包括了各种组件和工具的介绍,比如HDFS的分布式文件存储功能,MapReduce用于处理大规模数据集的编程模型,HBase作为NoSQL数据库的应用,Hive数据仓库工具,Oozie工作流调度器,Sqoop...
在IT领域,特别是大数据处理平台的构建与维护中,Cloudera CDH4的安装与配置是一项关键技能。CDH4(Cloudera's Distribution Including Apache Hadoop)是Cloudera公司提供的一款基于Apache Hadoop的发行版,它集成...
Cloudera CDH 安装和配置的知识点覆盖了系统规划、Linux系统配置、CDH Manager安装、高可用配置以及监控设置。为了便于系统管理员和Hadoop用户安装和管理Cloudera CDH,文档详细介绍了从机器规划到各组件的安装与...
Cloudera Manager 安装 CDH 搭建大数据集群核心知识点 一、Cloudera Manager 安装方法 Cloudera Manager 安装 CDH 集群有多种方法,主要分为 Server 端和 Agent 端安装。 1. Server 端安装: * 使用 yum 安装 cm...
cloudera CDH v5.16.2完整安装包,包含cm和parcel
通过以上步骤,可以成功在Ubuntu 14.04 LTS环境下通过Cloudera CDH 5.4.8搭建出一个功能完备的Hadoop集群。在整个过程中,关键是要仔细遵循官方指南和最佳实践,确保每个环节的准确性,从而避免潜在的问题和错误。
Cloudera Manager是一款基于大数据管理平台,用于管理Hadoop集群和CDH(Cloudera Distribution of Hadoop)集群。该手册详细介绍了Cloudera Manager的产品介绍、基本功能、监控功能等内容。 产品介绍 Cloudera ...
在大数据处理领域,Cloudera Distribution Including Apache Hadoop (CDH) 是一个广泛使用的平台,它不仅包含Hadoop的核心组件,还提供了丰富的附加服务。为了确保系统的稳定性和可靠性,采用CDH进行HA(高可用性)...
CDH提供了Hadoop的核心元素 - 可扩展的存储和分布式计算 - 以及基于Web的用户界面和重要的企业功能。 CDH是Apache许可的开放源码,是唯一提供统一批处理,交互式SQL和交互式搜索以及基于角色的访问控制的Hadoop解决...
### Cloudera CDH4快速入门指南 #### 关于本指南 Cloudera CDH4 快速入门指南是为那些希望快速上手并熟悉Cloudera Distribution Including Apache Hadoop (CDH4)的用户而设计的。此文档提供了安装、配置以及运行CDH...
在本文中,我们将深入探讨如何在CentOS 6.2环境下安装Cloudera's Hadoop Distribution (CDH) 4.3版本。CDH是Cloudera公司提供的一款开源大数据处理平台,它集成了Hadoop生态系统中的多个组件,如Hadoop、Zookeeper和...
使用所有CDH组件创建docker 此目录中的Docker脚本会生成CentOS 6 Docker VM并安装所有CDH组件(Hadoop,Spark,Hbase,Hive,Impala,Hue,Zookeeper,Oozie等)。 如何建立cdh容器? docker build -t docker-cdh...
### CDH7.5 Cloudera Manager 安装全套软件及视频推荐知识点解析 #### 一、Cloudera Data Platform (CDP) 概述 根据所提供的内容,“CDH7及以上版本已经更名为CDP”,这表明Cloudera对其产品线进行了调整。Cloudera...
我在 5 个 EC2 实例的集群上运行了 Cloudera CDH 5.3 的开发/测试/POC 安装。 我只在需要时才启动集群,其余时间保持停止。 要启动或停止集群,我必须登录 AWS EC2 控制台和 Cloudera Manager (CM) 控制台并执行...
通过深入理解 `cloudera-hive-cdh6.3.2` 的源码,开发者可以更好地定制 Hive 功能、优化查询性能,甚至开发新的组件以满足特定业务需求。同时,这也为理解大数据处理流程、掌握分布式计算原理提供了宝贵的资料。
Cloudera的CDH安装文档是一个全面而详尽的资源,它不仅提供了详细的步骤和指导,用于帮助用户在生产环境中高效地安装和配置Cloudera软件,包括Cloudera Manager、CDH(Cloudera Distribution Including Apache ...
1. 本手册仅适用于 Cloudera Manager 5 以及 CDH5 以上的版本 2. Cloudera Enterprise 的是通过 parcel 包的形式进行安装的 3. Cloudera Enterprise 安装是基于外部数据库的 4. 若是由 CDH 5.3 升级至 CDH 5.4,则...
8. **监控与管理**:CDH5集群运行后,Cloudera Manager提供实时监控功能,包括资源使用情况、服务状态、日志查看等,便于问题排查和性能优化。 9. **数据导入与查询**:利用Hive、Impala等工具,可以方便地导入和...