- 浏览: 91096 次
文章分类
最新评论
一、准备
1、4台linux系统
2、检查联网
3、检查各hosts文件
4、检查ssh
5、检查各节点的jvm配置
6、将配置好的hadoop目录拷贝到其他节点:
scp -r itcast hadoop@skx2:/home/hadoop
7、检查各配置文件
federation的应用场景
参看:http://www.infoq.com/cn/articles/hadoop-2-0-namenode-ha-federation-practice-zh/
http://blog.csdn.net/strongerbit/article/details/7013221/
Federation HDFS与当前HDFS的比较
当前HDFS只有一个命名空间(Namespace),它使用全部的块。而Federation HDFS中有多个独立的命名空间(Namespace),并且每一个命名空间使用一个块池(block pool)。
当前HDFS中只有一组块。而Federation HDFS中有多组独立的块。块池(block pool)就是属于同一个命名空间的一组块。
当前HDFS由一个Namenode和一组datanode组成。而Federation HDFS由多个Namenode和一组datanode,每一个datanode会为多个块池(block pool)存储块。
其他配置文件和前节相同,主要是hdfs-site.xml,参看:
启动:
启动Hadoop集群:
-------------------------------------------------------------------
(1) 启动nn1与nn2
Step1 :
在各个JournalNode节点上,输入以下命令启动journalnode服务:
sbin/hadoop-daemon.sh start journalnode
Step2:
在[nn1]上,对其进行格式化,并启动:
bin/hdfs namenode -format -clusterId hadoop-cluster
sbin/hadoop-daemon.sh start namenode
Step3:
在[nn2]上,同步nn1的元数据信息:
bin/hdfs namenode -bootstrapStandby
Step4:
启动[nn2]:
sbin/hadoop-daemon.sh start namenode
经过以上四步操作,nn1和nn2均处理standby状态
Step5:
将[nn1]切换为Active
bin/hdfs haadmin -ns hadoop-cluster1 -transitionToActive nn1
-------------------------------------------------------------------
(2) 启动nn3与nn4
Step1:
在[nn3]上,对其进行格式化,并启动:
bin/hdfs namenode -format -clusterId hadoop-cluster
sbin/hadoop-daemon.sh start namenode
Step2:
在[nn4]上,同步nn3的元数据信息:
bin/hdfs namenode -bootstrapStandby
Step3:
启动[nn4]:
sbin/hadoop-daemon.sh start namenode
经过以上三步操作,nn3和nn4均处理standby状态
Step4:
将[nn3]切换为Active
bin/hdfs haadmin -ns hadoop-cluster2 -transitionToActive nn3
-------------------------------------------------------------------
(3)启动所有datanode
Step6:
在[nn1]上,启动所有datanode
sbin/hadoop-daemons.sh start datanode
-------------------------------------------------------------------
(4)关闭Hadoop集群:
在[nn1]上,输入以下命令
sbin/stop-dfs.sh
1、4台linux系统
2、检查联网
3、检查各hosts文件
4、检查ssh
5、检查各节点的jvm配置
6、将配置好的hadoop目录拷贝到其他节点:
scp -r itcast hadoop@skx2:/home/hadoop
7、检查各配置文件
federation的应用场景
参看:http://www.infoq.com/cn/articles/hadoop-2-0-namenode-ha-federation-practice-zh/
http://blog.csdn.net/strongerbit/article/details/7013221/
Federation HDFS与当前HDFS的比较
当前HDFS只有一个命名空间(Namespace),它使用全部的块。而Federation HDFS中有多个独立的命名空间(Namespace),并且每一个命名空间使用一个块池(block pool)。
当前HDFS中只有一组块。而Federation HDFS中有多组独立的块。块池(block pool)就是属于同一个命名空间的一组块。
当前HDFS由一个Namenode和一组datanode组成。而Federation HDFS由多个Namenode和一组datanode,每一个datanode会为多个块池(block pool)存储块。
其他配置文件和前节相同,主要是hdfs-site.xml,参看:
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>dfs.nameservices</name> <value>hadoop-cluster1,hadoop-cluster2</value> <description> Comma-separated list of nameservices. </description> </property> <!-- hadoop cluster1--> <property> <name>dfs.ha.namenodes.hadoop-cluster1</name> <value>nn1,nn2</value> <description> The prefix for a given nameservice, contains a comma-separated list of namenodes for a given nameservice (eg EXAMPLENAMESERVICE). </description> </property> <property> <name>dfs.namenode.rpc-address.hadoop-cluster1.nn1</name> <value>SY-0217:8020</value> <description> RPC address for nomenode1 of hadoop-cluster1 </description> </property> <property> <name>dfs.namenode.rpc-address.hadoop-cluster1.nn2</name> <value>SY-0355:8020</value> <description> RPC address for nomenode2 of hadoop-test </description> </property> <property> <name>dfs.namenode.http-address.hadoop-cluster1.nn1</name> <value>SY-0217:50070</value> <description> The address and the base port where the dfs namenode1 web ui will listen on. </description> </property> <property> <name>dfs.namenode.http-address.hadoop-cluster1.nn2</name> <value>SY-0355:50070</value> <description> The address and the base port where the dfs namenode2 web ui will listen on. </description> </property> <!-- hadoop cluster2 --> <property> <name>dfs.ha.namenodes.hadoop-cluster2</name> <value>nn3,nn4</value> <description> The prefix for a given nameservice, contains a comma-separated list of namenodes for a given nameservice (eg EXAMPLENAMESERVICE). </description> </property> <property> <name>dfs.namenode.rpc-address.hadoop-cluster2.nn3</name> <value>SY-0226:8020</value> <description> RPC address for nomenode1 of hadoop-cluster1 </description> </property> <property> <name>dfs.namenode.rpc-address.hadoop-cluster2.nn4</name> <value>SY-0225:8020</value> <description> RPC address for nomenode2 of hadoop-test </description> </property> <property> <name>dfs.namenode.http-address.hadoop-cluster2.nn3</name> <value>SY-0226:50070</value> <description> The address and the base port where the dfs namenode1 web ui will listen on. </description> </property> <property> <name>dfs.namenode.http-address.hadoop-cluster2.nn4</name> <value>SY-0225:50070</value> <description> The address and the base port where the dfs namenode2 web ui will listen on. </description> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///home/dongxicheng/hadoop/hdfs/name</value> <description>Determines where on the local filesystem the DFS name node should store the name table(fsimage). If this is a comma-delimited list of directories then the name table is replicated in all of the directories, for redundancy. </description> </property> <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://SY-0355:8485;SY-0225:8485;SY-0226:8485/hadoop-cluster</value> <description>A directory on shared storage between the multiple namenodes in an HA cluster. This directory will be written by the active and read by the standby in order to keep the namespaces synchronized. This directory does not need to be listed in dfs.namenode.edits.dir above. It should be left empty in a non-HA cluster. </description> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///home/dongxicheng/hadoop/hdfs/data</value> <description>Determines where on the local filesystem an DFS data node should store its blocks. If this is a comma-delimited list of directories, then data will be stored in all named directories, typically on different devices. Directories that do not exist are ignored. </description> </property> <property> <name>dfs.ha.automatic-failover.enabled</name> <value>false</value> <description> Whether automatic failover is enabled. See the HDFS High Availability documentation for details on automatic HA configuration. </description> </property> <property> <name>dfs.journalnode.edits.dir</name> <value>/home/dongxicheng/hadoop/hdfs/journal/</value> </property> </configuration>
启动:
启动Hadoop集群:
-------------------------------------------------------------------
(1) 启动nn1与nn2
Step1 :
在各个JournalNode节点上,输入以下命令启动journalnode服务:
sbin/hadoop-daemon.sh start journalnode
Step2:
在[nn1]上,对其进行格式化,并启动:
bin/hdfs namenode -format -clusterId hadoop-cluster
sbin/hadoop-daemon.sh start namenode
Step3:
在[nn2]上,同步nn1的元数据信息:
bin/hdfs namenode -bootstrapStandby
Step4:
启动[nn2]:
sbin/hadoop-daemon.sh start namenode
经过以上四步操作,nn1和nn2均处理standby状态
Step5:
将[nn1]切换为Active
bin/hdfs haadmin -ns hadoop-cluster1 -transitionToActive nn1
-------------------------------------------------------------------
(2) 启动nn3与nn4
Step1:
在[nn3]上,对其进行格式化,并启动:
bin/hdfs namenode -format -clusterId hadoop-cluster
sbin/hadoop-daemon.sh start namenode
Step2:
在[nn4]上,同步nn3的元数据信息:
bin/hdfs namenode -bootstrapStandby
Step3:
启动[nn4]:
sbin/hadoop-daemon.sh start namenode
经过以上三步操作,nn3和nn4均处理standby状态
Step4:
将[nn3]切换为Active
bin/hdfs haadmin -ns hadoop-cluster2 -transitionToActive nn3
-------------------------------------------------------------------
(3)启动所有datanode
Step6:
在[nn1]上,启动所有datanode
sbin/hadoop-daemons.sh start datanode
-------------------------------------------------------------------
(4)关闭Hadoop集群:
在[nn1]上,输入以下命令
sbin/stop-dfs.sh
发表评论
-
12、数据分析系统Hive/Pig
2015-03-28 00:22 551Hive(Facebook)构建在Hadoop ... -
11、hadoop--数据收集原理
2015-03-27 18:56 625常见的两种数据来源 分散的数据源: 机器产生的数据; ... -
10、zookeeper
2015-03-27 11:34 379zookeeper是一个针对大型分布式系统的可靠协调 ... -
9、HBase客户端程序开发
2015-03-27 10:48 1050开发接口实现方式: Native Java API 最常规 ... -
7、Hbase基本框架
2015-03-26 23:31 478HBase是一个构建在HDFS上的分布式列存储系统; ... -
7、Yarn--MapReduce2.0
2015-03-26 14:09 9381、yarn介绍: MapReduce 2.0和YARN区别: ... -
6、HA+Federation 详解
2015-03-26 14:05 603now is nullnow is nullnow is nu ... -
4、hadoop 多节点部署和测试(HA_HDFS)
2015-03-25 09:53 4063HA(High Available), 高可用性群集 ... -
3、hadoop 单节点 安装配置与测试
2015-03-24 12:39 706在hadoop/home中创建目录 itcast m ... -
2、hadoop 安装准备
2015-03-17 12:39 524准备工作:hadoop2.3 64 ... -
1、初相见 hadoop
2015-03-16 14:08 423_______了,把hadoop好好研 ... -
1、FastDFS
2015-03-14 21:52 0wwwwwwwwwwwwwwwwwwww http://blo ...
相关推荐
在大数据处理领域,Hadoop是不可或缺的核心组件,其高可用性(High Availability, HA)和联邦(Federation)特性是确保系统稳定性和扩展性的重要保证。本文将深入探讨Hadoop 2.5.1版本中HA与Federation的详细配置过程,...
总之,成功部署Hadoop的HDFS HA+Federation+YARN涉及多步骤,包括配置文件的修改、各个节点服务的启动以及验证整个系统的正常运行。这个过程需要细心和耐心,但一旦完成,将提供一个高可用、可扩展的大数据处理平台...
在实践中,配置和管理Hadoop 2.0的HA和Federation涉及多个步骤,包括设置共享存储、配置Journal Node集群、配置NameNode的HA策略、调整集群参数以适应Federation等。此外,还需要确保在故障切换时避免“脑裂”现象,...
1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和YARN的HA实现, HDFS Federation实现等 2、搭建本地Yum部署CDH5的重要组件和优化配置 3、Impala、Oozie和Hue的部署、使用操作及调优 4、Hadoop安全认证及授权...
《HDFS Router-Based Federation Rebalancer》是针对Hadoop分布式文件系统(HDFS)中联邦均衡器的一个深度探讨。在HDFS中,联邦是一种扩展性的实现方式,它允许多个独立的命名空间(NameSpaces)并存,每个命名空间...
但需要更多的系统规划和网络配置,例如,确保节点间通信的`hadoop-env.sh`中的`JAVA_HOME`设置,`slaves`文件中列出所有的DataNode节点,以及`hdfs-site.xml`中的`dfs.nameservices`、`dfs.ha.namenodes`等HA相关...
标题中的"hadoop-2.7.2/4-ha-conf"指的是Hadoop分布式文件系统(HDFS)在高可用性(HA)模式下的配置文件,适用于Hadoop的2.7.2和2.7.4两个版本。HA是Hadoop为了确保在主NameNode故障时能无缝切换到备用NameNode,...
3. **安装Zookeeper**:Hadoop HA依赖Zookeeper集群,一般需要三个或更多节点。安装并配置Zookeeper,启动集群。 4. **配置Hadoop**:修改`hdfs-site.xml`,设置HA模式,如`dfs.nameservices`定义名称服务,`dfs.ha...
Federation将一个名称节点分解为多个名称空间,而HA通过备份名称节点(Secondary NameNode)来提供故障切换。 接下来,我们讨论Hbase。Hbase是一个非关系型数据库,它在HDFS之上构建,适合大规模数据的随机读写操作...
HDFS Federation 是Hadoop Distributed File System (HDFS) 的一项扩展功能,旨在通过将数据存储分布在多个独立的命名空间中来提高系统的可扩展性。每个命名空间都由一个独立的NameNode管理,而客户端可以透明地访问...
在Hadoop 2.0中,HDFS引入了NameNode HA(High Availability)和 Federation,增强了系统的可用性和可扩展性。 1. NameNode HA:通过引入两个活动的NameNode,解决了单点故障问题。当一个NameNode出现故障时,另一...
总结,Hadoop HA配置涉及到多个组件和配置文件,确保NameNode和ResourceManager的高可用性。理解并正确配置这些要素是构建稳定、可靠的Hadoop集群的关键步骤。通过细致的规划和测试,可以大大提高Hadoop系统的容错...
3. **HDFS HA(High Availability)与 Federation**:HA提供了主NameNode的热备,确保了服务的连续性。Federation则允许多个独立的NameSpace并行运行,提高了系统的扩展性。 4. **S3A文件系统客户端**:增强了对...
1. 提升了NameNode的性能,通过引入HA(High Availability)和 Federation,使得NameNode的故障切换更为平滑,同时支持多个独立的命名空间,以处理更大规模的集群。 2. 优化了Block Placement Policy,确保数据的...
HDFS是一个分布式文件系统,它将大型数据集分布在集群的多个节点上,提供高可用性和容错性。MapReduce则是一种编程模型,用于大规模数据集的并行处理,它将任务分解为"map"和"reduce"阶段。 **2. Hadoop 2.7.4的...
- HDFS HA(高可用性)和 Federation:提高Hadoop集群的稳定性和扩展性。 - MapReduce优化技巧:包括输入输出格式、Combiner、Reducer优化等。 6. **Hadoop 生态系统**: - 其他相关项目,如Hive(数据仓库工具...
在Hadoop生态系统中,高可用性(High Availability, HA)是一个关键特性,它确保了即使在主节点故障时,服务也能不间断地运行。本压缩包文件"hadop配置.zip"提供了一个简单的Hadoop高可用性(HA)配置参考,特别针对...
5. **NodeManager**:节点级别的管理器,负责本节点上的Container生命周期管理和监控,报告状态给ResourceManager。 6. **MapReduce优化**:包括 speculative execution(推测执行)优化,减少延迟任务对整体性能的...
5. **HDFS Federation**:通过增加多个命名空间,实现了 HDFS 的横向扩展,使得集群可以管理更多数据。 MapReduce 部分的改进包括: 1. **YARN(Yet Another Resource Negotiator)**:作为 MapReduce 的资源管理...