`

5、hadoop多节点(HA + Federation)

 
阅读更多
一、准备

1、4台linux系统
2、检查联网
3、检查各hosts文件
4、检查ssh
5、检查各节点的jvm配置
6、将配置好的hadoop目录拷贝到其他节点:
scp -r itcast hadoop@skx2:/home/hadoop
7、检查各配置文件


federation的应用场景
参看:http://www.infoq.com/cn/articles/hadoop-2-0-namenode-ha-federation-practice-zh/
      http://blog.csdn.net/strongerbit/article/details/7013221/

Federation HDFS与当前HDFS的比较
    当前HDFS只有一个命名空间(Namespace),它使用全部的块。而Federation HDFS中有多个独立的命名空间(Namespace),并且每一个命名空间使用一个块池(block pool)。
当前HDFS中只有一组块。而Federation HDFS中有多组独立的块。块池(block pool)就是属于同一个命名空间的一组块。
     当前HDFS由一个Namenode和一组datanode组成。而Federation HDFS由多个Namenode和一组datanode,每一个datanode会为多个块池(block pool)存储块。


其他配置文件和前节相同,主要是hdfs-site.xml,参看:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
  <name>dfs.nameservices</name>
  <value>hadoop-cluster1,hadoop-cluster2</value>
  <description>
    Comma-separated list of nameservices.
  </description>
</property>

<!--  hadoop cluster1-->
<property>
  <name>dfs.ha.namenodes.hadoop-cluster1</name>
  <value>nn1,nn2</value>
  <description>
    The prefix for a given nameservice, contains a comma-separated
    list of namenodes for a given nameservice (eg EXAMPLENAMESERVICE).
  </description>
</property>

<property>
  <name>dfs.namenode.rpc-address.hadoop-cluster1.nn1</name>
  <value>SY-0217:8020</value>
  <description>
    RPC address for nomenode1 of hadoop-cluster1
  </description>
</property>

<property>
  <name>dfs.namenode.rpc-address.hadoop-cluster1.nn2</name>
  <value>SY-0355:8020</value>
  <description>
    RPC address for nomenode2 of hadoop-test
  </description>
</property>

<property>
  <name>dfs.namenode.http-address.hadoop-cluster1.nn1</name>
  <value>SY-0217:50070</value>
  <description>
    The address and the base port where the dfs namenode1 web ui will listen on.
  </description>
</property>

<property>
  <name>dfs.namenode.http-address.hadoop-cluster1.nn2</name>
  <value>SY-0355:50070</value>
  <description>
    The address and the base port where the dfs namenode2 web ui will listen on.
  </description>
</property>

<!--  hadoop cluster2 -->
<property>
  <name>dfs.ha.namenodes.hadoop-cluster2</name>
  <value>nn3,nn4</value>
  <description>
    The prefix for a given nameservice, contains a comma-separated
    list of namenodes for a given nameservice (eg EXAMPLENAMESERVICE).
  </description>
</property>

<property>
  <name>dfs.namenode.rpc-address.hadoop-cluster2.nn3</name>
  <value>SY-0226:8020</value>
  <description>
    RPC address for nomenode1 of hadoop-cluster1
  </description>
</property>

<property>
  <name>dfs.namenode.rpc-address.hadoop-cluster2.nn4</name>
  <value>SY-0225:8020</value>
  <description>
    RPC address for nomenode2 of hadoop-test
  </description>
</property>

<property>
  <name>dfs.namenode.http-address.hadoop-cluster2.nn3</name>
  <value>SY-0226:50070</value>
  <description>
    The address and the base port where the dfs namenode1 web ui will listen on.
  </description>
</property>

<property>
  <name>dfs.namenode.http-address.hadoop-cluster2.nn4</name>
  <value>SY-0225:50070</value>
  <description>
    The address and the base port where the dfs namenode2 web ui will listen on.
  </description>
</property>

<property>
  <name>dfs.namenode.name.dir</name>
  <value>file:///home/dongxicheng/hadoop/hdfs/name</value>
  <description>Determines where on the local filesystem the DFS name node
      should store the name table(fsimage).  If this is a comma-delimited list
      of directories then the name table is replicated in all of the
      directories, for redundancy. </description>
</property>

<property>
  <name>dfs.namenode.shared.edits.dir</name>
  <value>qjournal://SY-0355:8485;SY-0225:8485;SY-0226:8485/hadoop-cluster</value>
  <description>A directory on shared storage between the multiple namenodes
  in an HA cluster. This directory will be written by the active and read
  by the standby in order to keep the namespaces synchronized. This directory
  does not need to be listed in dfs.namenode.edits.dir above. It should be
  left empty in a non-HA cluster.
  </description>
</property>

<property>
  <name>dfs.datanode.data.dir</name>
  <value>file:///home/dongxicheng/hadoop/hdfs/data</value>
  <description>Determines where on the local filesystem an DFS data node
  should store its blocks.  If this is a comma-delimited
  list of directories, then data will be stored in all named
  directories, typically on different devices.
  Directories that do not exist are ignored.
  </description>
</property>

<property>
  <name>dfs.ha.automatic-failover.enabled</name>
  <value>false</value>
  <description>
    Whether automatic failover is enabled. See the HDFS High
    Availability documentation for details on automatic HA
    configuration.
  </description>
</property>

<property>
  <name>dfs.journalnode.edits.dir</name>
  <value>/home/dongxicheng/hadoop/hdfs/journal/</value>
</property>

</configuration>


启动:
启动Hadoop集群:
-------------------------------------------------------------------
(1) 启动nn1与nn2
Step1 :
在各个JournalNode节点上,输入以下命令启动journalnode服务:
sbin/hadoop-daemon.sh start journalnode

Step2:
在[nn1]上,对其进行格式化,并启动:
bin/hdfs namenode -format -clusterId hadoop-cluster
sbin/hadoop-daemon.sh start namenode

Step3:
在[nn2]上,同步nn1的元数据信息:
bin/hdfs namenode -bootstrapStandby

Step4:
启动[nn2]:
sbin/hadoop-daemon.sh start namenode

经过以上四步操作,nn1和nn2均处理standby状态
Step5:
将[nn1]切换为Active
bin/hdfs haadmin -ns hadoop-cluster1 -transitionToActive nn1

-------------------------------------------------------------------
(2) 启动nn3与nn4
Step1:
在[nn3]上,对其进行格式化,并启动:
bin/hdfs namenode -format -clusterId hadoop-cluster
sbin/hadoop-daemon.sh start namenode

Step2:
在[nn4]上,同步nn3的元数据信息:
bin/hdfs namenode -bootstrapStandby

Step3:
启动[nn4]:
sbin/hadoop-daemon.sh start namenode

经过以上三步操作,nn3和nn4均处理standby状态
Step4:
将[nn3]切换为Active
bin/hdfs haadmin -ns hadoop-cluster2 -transitionToActive nn3

-------------------------------------------------------------------
(3)启动所有datanode
Step6:
在[nn1]上,启动所有datanode
sbin/hadoop-daemons.sh start datanode

-------------------------------------------------------------------
(4)关闭Hadoop集群:
在[nn1]上,输入以下命令
sbin/stop-dfs.sh
  • 大小: 11.5 KB
  • 大小: 39.6 KB
  • 大小: 120 KB
  • 大小: 57.8 KB
  • 大小: 48 KB
分享到:
评论

相关推荐

    Hadoop2.5.1的HA+Federation的详细配置

    在大数据处理领域,Hadoop是不可或缺的核心组件,其高可用性(High Availability, HA)和联邦(Federation)特性是确保系统稳定性和扩展性的重要保证。本文将深入探讨Hadoop 2.5.1版本中HA与Federation的详细配置过程,...

    11-Hadoop部署多机HDFS+HA+Federation+YARN1

    总之,成功部署Hadoop的HDFS HA+Federation+YARN涉及多步骤,包括配置文件的修改、各个节点服务的启动以及验证整个系统的正常运行。这个过程需要细心和耐心,但一旦完成,将提供一个高可用、可扩展的大数据处理平台...

    Hadoop-2.0-NameNode-HA和Federation实践1

    在实践中,配置和管理Hadoop 2.0的HA和Federation涉及多个步骤,包括设置共享存储、配置Journal Node集群、配置NameNode的HA策略、调整集群参数以适应Federation等。此外,还需要确保在故障切换时避免“脑裂”现象,...

    Cloudera Hadoop 5&amp;Hadoop高阶管理及调优课程

    1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和YARN的HA实现, HDFS Federation实现等 2、搭建本地Yum部署CDH5的重要组件和优化配置 3、Impala、Oozie和Hue的部署、使用操作及调优 4、Hadoop安全认证及授权...

    HDFS Router-Based Federation Rebalancer.pdf_hdfs_

    《HDFS Router-Based Federation Rebalancer》是针对Hadoop分布式文件系统(HDFS)中联邦均衡器的一个深度探讨。在HDFS中,联邦是一种扩展性的实现方式,它允许多个独立的命名空间(NameSpaces)并存,每个命名空间...

    hadoop的独立模式、伪分布模式、完全分布式、HA配置文件

    但需要更多的系统规划和网络配置,例如,确保节点间通信的`hadoop-env.sh`中的`JAVA_HOME`设置,`slaves`文件中列出所有的DataNode节点,以及`hdfs-site.xml`中的`dfs.nameservices`、`dfs.ha.namenodes`等HA相关...

    hadoop-2.7.2/4-ha-conf

    标题中的"hadoop-2.7.2/4-ha-conf"指的是Hadoop分布式文件系统(HDFS)在高可用性(HA)模式下的配置文件,适用于Hadoop的2.7.2和2.7.4两个版本。HA是Hadoop为了确保在主NameNode故障时能无缝切换到备用NameNode,...

    Hadoop HA搭建脚本资料(必读)

    3. **安装Zookeeper**:Hadoop HA依赖Zookeeper集群,一般需要三个或更多节点。安装并配置Zookeeper,启动集群。 4. **配置Hadoop**:修改`hdfs-site.xml`,设置HA模式,如`dfs.nameservices`定义名称服务,`dfs.ha...

    Hadoop+Hbase.ppt

    Federation将一个名称节点分解为多个名称空间,而HA通过备份名称节点(Secondary NameNode)来提供故障切换。 接下来,我们讨论Hbase。Hbase是一个非关系型数据库,它在HDFS之上构建,适合大规模数据的随机读写操作...

    HDFS Federation(联邦)+ViewFS+HA

    HDFS Federation 是Hadoop Distributed File System (HDFS) 的一项扩展功能,旨在通过将数据存储分布在多个独立的命名空间中来提高系统的可扩展性。每个命名空间都由一个独立的NameNode管理,而客户端可以透明地访问...

    大数据系列-Hadoop 2.0

    在Hadoop 2.0中,HDFS引入了NameNode HA(High Availability)和 Federation,增强了系统的可用性和可扩展性。 1. NameNode HA:通过引入两个活动的NameNode,解决了单点故障问题。当一个NameNode出现故障时,另一...

    hadoop ha 配置

    总结,Hadoop HA配置涉及到多个组件和配置文件,确保NameNode和ResourceManager的高可用性。理解并正确配置这些要素是构建稳定、可靠的Hadoop集群的关键步骤。通过细致的规划和测试,可以大大提高Hadoop系统的容错...

    hadoop-3.2.2.zip

    3. **HDFS HA(High Availability)与 Federation**:HA提供了主NameNode的热备,确保了服务的连续性。Federation则允许多个独立的NameSpace并行运行,提高了系统的扩展性。 4. **S3A文件系统客户端**:增强了对...

    hadoop-2.7.1.zip

    1. 提升了NameNode的性能,通过引入HA(High Availability)和 Federation,使得NameNode的故障切换更为平滑,同时支持多个独立的命名空间,以处理更大规模的集群。 2. 优化了Block Placement Policy,确保数据的...

    hadoop-2.7.4编译版本

    HDFS是一个分布式文件系统,它将大型数据集分布在集群的多个节点上,提供高可用性和容错性。MapReduce则是一种编程模型,用于大规模数据集的并行处理,它将任务分解为"map"和"reduce"阶段。 **2. Hadoop 2.7.4的...

    Hadoop 官方文档(中文版)

    - HDFS HA(高可用性)和 Federation:提高Hadoop集群的稳定性和扩展性。 - MapReduce优化技巧:包括输入输出格式、Combiner、Reducer优化等。 6. **Hadoop 生态系统**: - 其他相关项目,如Hive(数据仓库工具...

    hadoop配置.zip

    在Hadoop生态系统中,高可用性(High Availability, HA)是一个关键特性,它确保了即使在主节点故障时,服务也能不间断地运行。本压缩包文件"hadop配置.zip"提供了一个简单的Hadoop高可用性(HA)配置参考,特别针对...

    hadoop 2.2 安装包

    5. **NodeManager**:节点级别的管理器,负责本节点上的Container生命周期管理和监控,报告状态给ResourceManager。 6. **MapReduce优化**:包括 speculative execution(推测执行)优化,减少延迟任务对整体性能的...

    hadoop 3.1.4

    5. **HDFS Federation**:通过增加多个命名空间,实现了 HDFS 的横向扩展,使得集群可以管理更多数据。 MapReduce 部分的改进包括: 1. **YARN(Yet Another Resource Negotiator)**:作为 MapReduce 的资源管理...

Global site tag (gtag.js) - Google Analytics