`
jin8000608172
  • 浏览: 141374 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Hadoop高可用集群(HA)

阅读更多

一、集群的规划
Zookeeper集群:
192.168.157.12 (bigdata12)
192.168.157.13 (bigdata13)
192.168.157.14 (bigdata14)

Hadoop集群:
192.168.157.12 (bigdata12)   NameNode1      ResourceManager1     Journalnode
192.168.157.13 (bigdata13)   NameNode2      ResourceManager2     Journalnode
192.168.157.14 (bigdata14)   DataNode1      NodeManager1
192.168.157.15 (bigdata15)   DataNode2      NodeManager2

二、准备工作
1、安装JDK
2、配置环境变量
3、配置免密码登录
4、配置主机名

三、配置Zookeeper(在192.168.157.12安装)
在主节点(hadoop112)上配置ZooKeeper
(*)配置/root/training/zookeeper-3.4.6/conf/zoo.cfg文件
dataDir=/root/training/zookeeper-3.4.6/tmp

server.1=bigdata12:2888:3888
server.2=bigdata13:2888:3888
server.3=bigdata14:2888:3888

(*)在/root/training/zookeeper-3.4.6/tmp目录下创建一个myid的空文件
echo 1 > /root/training/zookeeper-3.4.6/tmp/myid

(*)将配置好的zookeeper拷贝到其他节点,同时修改各自的myid文件
scp -r /root/training/zookeeper-3.4.6/ bigdata13:/root/training
scp -r /root/training/zookeeper-3.4.6/ bigdata14:/root/training

四、安装Hadoop集群(在bigdata12上安装)
1、修改hadoo-env.sh
export JAVA_HOME=/root/training/jdk1.8.0_144

2、修改core-site.xml
<configuration>
<!-- 指定hdfs的nameservice为ns1 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://ns1</value>
</property>

<!-- 指定hadoop临时目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/training/hadoop-2.7.3/tmp</value>
</property>

<!-- 指定zookeeper地址 -->
<property>
<name>ha.zookeeper.quorum</name>
<value>bigdata12:2181,bigdata13:2181,bigdata14:2181</value>
</property>
</configuration>

3、修改hdfs-site.xml(配置这个nameservice中有几个namenode)
<configuration>
    <!--指定hdfs的nameservice为ns1,需要和core-site.xml中的保持一致 -->
<property>
<name>dfs.nameservices</name>
<value>ns1</value>
</property>

<!-- ns1下面有两个NameNode,分别是nn1,nn2 -->
<property>
<name>dfs.ha.namenodes.ns1</name>
<value>nn1,nn2</value>
</property>

<!-- nn1的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.ns1.nn1</name>
<value>bigdata12:9000</value>
</property>
<!-- nn1的http通信地址 -->
<property>
<name>dfs.namenode.http-address.ns1.nn1</name>
<value>bigdata12:50070</value>
</property>

<!-- nn2的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.ns1.nn2</name>
<value>bigdata13:9000</value>
</property>
<!-- nn2的http通信地址 -->
<property>
<name>dfs.namenode.http-address.ns1.nn2</name>
<value>bigdata13:50070</value>
</property>

<!-- 指定NameNode的日志在JournalNode上的存放位置 -->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://bigdata12:8485;bigdata13:8485;/ns1</value>
</property>
<!-- 指定JournalNode在本地磁盘存放数据的位置 -->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/root/training/hadoop-2.7.3/journal</value>
</property>

<!-- 开启NameNode失败自动切换 -->
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>

<!-- 配置失败自动切换实现方式 -->
<property>
<name>dfs.client.failover.proxy.provider.ns1</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>

<!-- 配置隔离机制方法,多个机制用换行分割,即每个机制暂用一行-->
<property>
<name>dfs.ha.fencing.methods</name>
<value>
sshfence
shell(/bin/true)
</value>
</property>

<!-- 使用sshfence隔离机制时需要ssh免登陆 -->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property>

<!-- 配置sshfence隔离机制超时时间 -->
<property>
<name>dfs.ha.fencing.ssh.connect-timeout</name>
<value>30000</value>
</property>
</configuration>

4、修改mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

5、修改yarn-site.xml
<configuration>
    <!-- 开启RM高可靠 -->
<property>
   <name>yarn.resourcemanager.ha.enabled</name>
   <value>true</value>
</property>

        <!-- 指定RM的cluster id -->
<property>
   <name>yarn.resourcemanager.cluster-id</name>
   <value>yrc</value>
</property>

<!-- 指定RM的名字 -->
<property>
   <name>yarn.resourcemanager.ha.rm-ids</name>
   <value>rm1,rm2</value>
</property>

<!-- 分别指定RM的地址 -->
<property>
   <name>yarn.resourcemanager.hostname.rm1</name>
   <value>bigdata12</value>
</property>
<property>
   <name>yarn.resourcemanager.hostname.rm2</name>
   <value>bigdata13</value>
</property>

<!-- 指定zk集群地址 -->
<property>
   <name>yarn.resourcemanager.zk-address</name>
   <value>bigdata12:2181,bigdata13:2181,bigdata14:2181</value>
</property>

<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>
</configuration>

6、修改slaves
bigdata14
bigdata15

7、将配置好的hadoop拷贝到其他节点
scp -r /root/training/hadoop-2.7.3/ root@bigdata13:/root/training/
scp -r /root/training/hadoop-2.7.3/ root@bigdata14:/root/training/
scp -r /root/training/hadoop-2.7.3/ root@bigdata15:/root/training/

五、启动Zookeeper集群

六、在bigdata12和bigdata13上启动journalnode
hadoop-daemon.sh start journalnode

七、格式化HDFS(在bigdata12上执行)
1. hdfs namenode -format
2. 将/root/training/hadoop-2.7.3/tmp拷贝到bigdata13的/root/training/hadoop-2.7.3/tmp下
3. 格式化zookeeper
   hdfs zkfc -formatZK
   日志:17/07/13 00:34:33 INFO ha.ActiveStandbyElector: Successfully created /hadoop-ha/ns1 in ZK.
 
  
八、在bigdata12上启动Hadoop集群
    start-all.sh

日志:
Starting namenodes on [bigdata12 bigdata13]
bigdata12: starting namenode, logging to /root/training/hadoop-2.4.1/logs/hadoop-root-namenode-hadoop113.out
bigdata13: starting namenode, logging to /root/training/hadoop-2.4.1/logs/hadoop-root-namenode-hadoop112.out
bigdata14: starting datanode, logging to /root/training/hadoop-2.4.1/logs/hadoop-root-datanode-hadoop115.out
bigdata15: starting datanode, logging to /root/training/hadoop-2.4.1/logs/hadoop-root-datanode-hadoop114.out

bigdata13: starting zkfc, logging to /root/training/hadoop-2.7.3/logs/hadoop-root-zkfc-bigdata13.out
bigdata12: starting zkfc, logging to /root/training/hadoop-2.7.3/logs/hadoop-root-zkfc-bigdata12.out


bigdata13上的ResourceManager需要单独启动
命令:yarn-daemon.sh start resourcemanager










  • 大小: 75.4 KB
分享到:
评论

相关推荐

    Hadoop HA高可用集群搭建(Hadoop+Zookeeper+HBase)

    Hadoop HA高可用集群搭建(Hadoop+Zookeeper+HBase) 一、Hadoop HA高可用集群概述 在大数据处理中,高可用集群是非常重要的,Hadoop HA高可用集群可以提供高可靠性和高可用性,确保数据处理不中断。该集群由...

    Hadoop高可用HA集群3.x以上版本安装.docx

    Hadoop高可用集群安装是指在四个节点上安装Hadoop完全分布式集群,包括zookeeper、Kafka、mysql、Hive、Spark等相关组件。以下是安装过程中的关键步骤和知识点: 1. 安装Hadoop分布式集群:Hadoop分布式集群是指将...

    hadoop 高可用集群一键启动脚本

    hadoop 高可用启动脚本,运行启动zookeeper集群和hadoop ha集群

    hadoop HA高可用性完全分布式集群安装

    ### hadoop HA高可用性完全分布式集群安装 在大数据处理领域,Hadoop作为一个开源软件框架,主要用于分布式存储和处理大规模数据集。为了提高系统的稳定性和可靠性,Hadoop提供了高可用性(High Availability,简称...

    手动搭建hadoop高可用

    ### 手动搭建Hadoop高可用集群教程 #### 一、前言 本文将详细介绍如何从零开始手动搭建Hadoop高可用(HA)集群。Hadoop是一个能够处理大量数据的分布式计算框架,它由HDFS(Hadoop Distributed File System)和...

    Hadoop3.0分布式集群搭建(HA)详细文档.docx

    在搭建 Hadoop 3.0 高可用的分布式集群时,需要选择 3 台主机,分别安装好 Linux 系统,并完成 Linux系统的网络配置和系统配置。 1.2 软件规划 需要注意的是:Hadoop 3.0 最低支持 Java8,如果大家还在使用 Java7 ...

    hadoop 高可用性HA部署

    【Hadoop高可用性HA部署】是为了解决Hadoop 1.0架构中的单点故障问题,确保在NameNode或关键服务失败时,集群仍能持续运行。Hadoop HA通过部署双NameNode(Active/Standby模式)来提供高可用性。在正常情况下,...

    9、hadoop高可用HA集群部署及三种方式验证

    《9、Hadoop高可用HA集群部署及三种方式验证》 Hadoop高可用(HA)集群的部署是确保大数据处理系统稳定性和容错性的关键步骤。本篇文章将详细解析如何设置一个Hadoop HA环境,包括集群规划、部署以及验证。在开始之前...

    HadoopHA高可用集群配置 core-site.xml

    ### Hadoop HA高可用集群配置核心解析:core-site.xml #### 概述 在搭建Hadoop高可用(High Availability, HA)集群时,`core-site.xml`是其中一个至关重要的配置文件。它主要用于定义Hadoop集群的基本属性,如...

    HadoopHA集群配置文件

    本文将深入探讨Hadoop HA(高可用性)集群的配置文件,包括`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`、`yarn-site.xml`以及`slaves`文件,这些都是确保Hadoop集群稳定运行的基础。 1. `core-site.xml`:...

    HadoopHA高可用集群启动脚本

    使用需要修改成自己的路径 用sh ./ha-start启动

    HadoopHA高可用集群配置 yarn-site.xml

    HadoopHA高可用集群配置 yarn-site.xml yarn两台namenode配置不同

    基于zookeeper的hadoop ha集群安装过程

    基于ZooKeeper的Hadoop HA集群可以提供高可用性和可扩展性,满足企业对大数据处理的需求。在本文中,我们将详细介绍基于ZooKeeper的Hadoop HA集群的安装过程。 一、 安装环境介绍 在安装基于ZooKeeper的Hadoop HA...

    分布式计算:Hadoop 高可用集群搭建指南与配置解析

    内容概要:本文档详述了在多节点环境下配置高可用Hadoop集群的关键步骤,包括创建快照保护,指定独立HA工作路径并安装解压Hadoop组件至该位置。重点介绍了对各个Hadoop配置文件(hadoop-env.sh、core-site.xml、hdfs-...

    Hadoop高可用完全分布模式完整部署手册PPT

    《Hadoop高可用完全分布模式完整部署》是针对大数据处理技术的一份详尽教程,尤其适合初学者和希望深入理解Hadoop集群搭建的IT专业人士。本教程覆盖了从基础理论到实际操作的各个环节,旨在帮助读者掌握如何在企业...

    HadoopHA高可用集群配置 hdfs-site.xml

    ### Hadoop HA高可用集群配置详解 #### 一、引言 在大数据处理领域,Hadoop作为一款开源软件框架,以其高效稳定的数据处理能力而受到广泛欢迎。而在实际生产环境中,为了确保系统的高可用性和数据的安全性,通常会...

    \"Hadoop集群监控与Hive高可用\"分享总结

    本文将深入探讨“Hadoop集群监控”和“Hive高可用性”的主题,结合向磊的分享进行详细阐述。 首先,Hadoop是一个分布式计算框架,它允许在大量廉价硬件上存储和处理海量数据。Hadoop集群监控对于确保系统稳定性和...

    HadoopHA高可用集群配置 yarn-site.xml slave

    HadoopHA高可用集群配置 yarn-site.xml slave

    Hadoop之高可用集群的安装.docx

    【Hadoop高可用集群安装详解】 Hadoop是一个开源的分布式计算框架,其高可用性是通过复制和故障切换机制来保证服务的连续性和数据的安全性。在这个实验项目中,我们将探讨如何在完全分布式模式下安装和配置Hadoop的...

    hadoop高可用搭建

    hadoop集群搭建高可用文档在Hadoop2.x之后的版本,提出了解决单点问题的方案--HA(High Available 高可用)。这篇博客阐述如何搭建高可用的HDFS和YARN,执行步骤如下: 创建hadoop用户 安装JDK 配置hosts 安装SSH ...

Global site tag (gtag.js) - Google Analytics