`

cdh4b1之HDFS的HA(High Availability)原理简介

阅读更多

 

引入

         以前Hadoop版本中,NameNodeHDFS集群的单点故障(single point of failure,SPoF)SPoF指系统中这个部件失效或停止运转将会导致整个系统不能工作。而这在下面两种情况出现:

         (1) 意外事件如机器crash,集群直到重启NameNode操作执行后才可用;

         (2) 计划维修事件,如NameNode上的软硬件升级会导致NameNode一段宕机时间。

         HDFS HA提供在一个集群中配置两台冗余NN来解决上述问题,是一种双机热备。这可以在NN崩溃时快速的故障恢复,同时在自发管理的计划维修时快速失效备援。当前hadoop版本是hadoop-0.23.0-cdh4b1

         HA主要机制是:两个单独机器运行NN,在所有时刻只有一台出于active状态,而另外一台出于standby状态。active NN负责客户端对集群的所有操作,而Standby NN作为从设备只是保存足够的状态来进行快速的故障恢复。

 

 

HA总体流程图

         Block location: 为了快速failoverstandby NN必须知道这个的相关信息。为了达到此目的,所有DN上都配置了此两个NN,并且发送block locationheartbeat到两个NN上。

         至关重要的一点:只有一个Active NN.两个NN都是active即所谓脑裂情景(split-brain scenario),因此管理员必须设置一个对共享存储的fencing method(绝缘方法),当不能确定前Active NN不会自己重新变成active时,需要切断其对共享存储的访问权限,如此便能使新active NN安全的故障恢复。

         standby NN也执行namespace的状态检查,因此HA集群不需要运行Secondary NN, Checkpoint Node, Backup Node

 

下面是详细的配置安装,请参见CDH4_High_Availability_Guide_b1.pdf。cloudera 官网有http://www.cloudera.com/.或者在我资源里下载看(免费):http://download.csdn.net/detail/liuxingjiaofu/4238395

软硬件配置

1.1硬件配置

(1)NN机器,两台配置相同的机器来运行active standby NN, 并且这两台机器的配置和用non-HA集群时 NN的配置相同。

(2)两个NN都有读写权限的共享存储:多路径到存储,自身的冗余(disk, network, power)。鉴于上面这些,推荐共享存储服务器用高级专用的网络连接式存储(NAS)设备,而非简单的LinuxServer

1.2 软件配置

NamesService ID

NameNode ID

2 HA部署

3 HA管理

更多信息请查看 java进阶网 http://www.javady.com

分享到:
评论

相关推荐

    HDFS HA和Federation安装部署方法

    Hadoop 2.0 是Hadoop生态系统的一个重要里程碑,相比Hadoop 1.0,它引入了两大核心改进:High Availability (HA) 和 Federation。 #### High Availability (HA) HA 主要是为了解决Hadoop 1.0中存在的NameNode单点...

    Hadoop CDH5.5.0 配置(Hdfs/Yarn HA)

    1. **HDFS HA配置**: - **NameNode HA**:需要至少两台机器作为主NameNode,通过Quorum Journal Manager (QJM) 实现日志同步,确保数据的一致性。 - **Secondary NameNode**:不再承担主NameNode的备份角色,而是...

    CDH4_High_Availability_Guide_b1.pdf

    CDH4 (Cloudera Distribution Including Apache Hadoop) 的高可用性 (High Availability, HA) 概念在 IT 行业中占据着重要的地位。尤其对于依赖于大数据处理的企业来说,确保 Hadoop 集群能够持续稳定运行是非常关键...

    CDH HA部署

    ### CDH HA (High Availability) 部署详解 #### 一、概述 在大数据处理领域,Cloudera Distribution Including Apache Hadoop (CDH) 是一个广泛使用的平台,它不仅包含Hadoop的核心组件,还提供了丰富的附加服务。...

    CDH4.3.0 HDFS 读写性能测试

    标题“CDH4.3.0 HDFS 读写性能测试”指的是针对Cloudera Distribution Including Apache Hadoop(CDH)版本4.3.0的HDFS(Hadoop Distributed File System)进行的一项性能评估。HDFS是Apache Hadoop项目的核心组件之...

    14、HDFS 透明加密KMS

    【HDFS 透明加密KMS】是Hadoop分布式文件系统(HDFS)提供的一种安全特性,用于保护存储在HDFS中的数据,确保数据在传输和存储时的安全性。HDFS透明加密通过端到端的方式实现了数据的加密和解密,无需修改用户的应用...

    hadoop-0.20.2-CDH3B4.tar.gz下载

    Hadoop,作为Apache软件基金会的重要项目之一,是大数据处理领域中的核心框架,其分布式存储系统HDFS(Hadoop Distributed File System)和分布式计算模型MapReduce,为海量数据的处理提供了强大的支持。本文将围绕...

    熟练掌握HDFS的Java API接口访问

    #### 一、HDFS简介及Java API接口概述 HDFS(Hadoop Distributed File System)是Apache Hadoop项目的核心组成部分之一,它是一种分布式文件系统,专为处理大规模数据而设计。HDFS的设计目标是实现对海量数据的有效...

    sqoop-1.2.0-CDH3B4.tar.gz下载

    4. **数据导出**:除了导入,Sqoop还可以将HDFS中的数据导出到关系型数据库中。通过`sqoop export`命令,指定相应的输出表名和HDFS路径。 5. **其他特性**:Sqoop还支持分片导入、增量导入、合并导入等多种高级功能...

    cloudera CDH4 installation guide 4.0(pdf)

    CDH4(Cloudera's Distribution Including Apache Hadoop)是Cloudera公司提供的一款基于Apache Hadoop的发行版,它集成了众多大数据处理组件,如HDFS、MapReduce、Hive、Pig、HBase等,为企业级大数据分析提供了...

    hadoop-cdh4-0.3.zip

    1. **Hadoop CDH4**: CDH4是Cloudera公司的Hadoop发行版,包含了一系列经过测试和集成的Hadoop生态组件,如HDFS、MapReduce、YARN、HBase、Hive等,提供了企业级的稳定性和安全性。 2. **Presto**: Presto是一个高...

    高可用性的HDFS:Hadoop分布式文件系统深度实践

    8.2 CDH4B1版本HDFS集群配置 8.2.1 虚拟机安装 8.2.2 nn1配置 8.2.3 dn1~dn3配置 8.2.4 HDFS集群构建 8.3 HA NameNode配置 8.3.1 nn1配置 8.3.2 其他节点配置 8.4 HA NameNode使用 8.4.1 启动HA HDFS集群 8.4.2 第1...

    Hadoop-2.0.0-cdh4.3.0安装手册(hbase-0.94.15-cdh4.6.0)

    本手册将详细阐述如何在 HA (High Availability,高可用性) 模式下安装 CDH4,并特别关注 HBase 的配置。 **1. 环境准备** - **主机**:首先,你需要准备至少三台机器作为集群的基础,包括一个 NameNode,一个 ...

    CDH集群软件安装手册@20191118.docx

    1. HDFS安装:HDFS(Hadoop Distributed File System)是CDH集群的文件系统,用于存储和管理大数据。 2. MapReduce安装:MapReduce是一个分布式计算框架,用于处理大数据。 3. YARN安装:YARN(Yet Another Resource...

    CDH6.3.2之升级spark-3.3.1.doc

    ### CDH6.3.2升级Spark至3.3.1详细步骤与注意事项 #### 一、背景介绍 在CDH6.3.2中,默认的Spark版本为2.4.0。为了满足更高的性能需求及功能扩展,本文将详细介绍如何将Spark升级至3.3.1版本的过程。此次升级的...

    CDH5.9.0节点删除下线

    在CDH5.9.0集群环境中,有时由于硬件更新、资源优化或故障处理等原因,可能需要删除或下线部分节点。以下是一个详尽的步骤指南,帮助你安全地从CDH5.9.0集群中移除节点。 首先,确保你已经了解了CDH(Cloudera ...

    cdh6.3.2安装包免费下载

    cdh6.3.2安装包,第二个文件,因为cdh的parcel包很大, 所以分成了三个。 里边的文件包含: CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel,1.93GB CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha,40字节 CDH-...

    hadoop-2.6.0-cdh5.14.2-src.tar.gz

    此外,还增强了HDFS的性能,例如支持HDFS HA(High Availability)和HDFS Federation,增强了NameNode的高可用性和扩展性。 三、CDH5.14.2亮点 CDH5.14.2是Cloudera对Hadoop的打包和优化,其中包含了Hadoop、HBase...

    基于 DataX 开发的快速同步 MySQL 数据至 HDFS 上的工具.zip

    标题中的“基于 DataX 开发的快速同步 MySQL 数据至 HDFS 上的工具”指的是一个利用 DataX 框架开发的实用程序,该程序能够高效地将存储在 MySQL 数据库中的数据迁移或实时同步到 Hadoop 分布式文件系统(HDFS)上。...

    sqoop-1.2.0-CDH3B4.tar.gz

    Sqoop 是一个开源工具,主要用于在关系型数据库(如 MySQL、Oracle 等)与 Hadoop 的 HDFS 之间进行数据传输。这个压缩包文件 "sqoop-1.2.0-CDH3B4.tar.gz" 提供的是 Sqoop 的特定版本,即 1.2.0 版本,它是针对 ...

Global site tag (gtag.js) - Google Analytics