`

HDFS高可用架构

    博客分类:
  • HDFS
 
阅读更多

在Hadoop1.x版本的时候,Namenode存在着单点失效的问题。如果namenode失效了,那么所有的基于HDFS的客户端——包括MapReduce作业均无法读,写或列文件,因为namenode是唯一存储元数据与文件到数据块映射的地方。而从一个失效的namenode中恢复的步骤繁多,系统恢复时间太长,也会影响到日常的维护。

Hadoop的2.x版本在HDFS中增加了对高可用性的支持来解决单点失效的问题。

这一实现中简单说就是配置了一对活动-备用namenode。当活动namenode失效的时候,备用namenode就会接管它的任务并开始服务于来自客户端的请求,不会有任何明显中断。

下面我们来看一下HDFS实现高可用性的架构图:

 

从架构图我们可以看到:

Active NameNode 和 Standby NameNode:两台 NameNode 形成互备,一台处于 Active 状态,为主 NameNode,另外一台处于 Standby 状态,为备 NameNode,只有主 NameNode 才能对外提供读写服务。

主备切换控制器又称故障转移控制器,ZKFailoverController:ZKFailoverController 作为独立的进程运行,对 NameNode 的主备切换进行总体控制。ZKFailoverController 能及时检测到NameNode 的健康状况,在主NameNode 故障时借助 Zookeeper 实现自动的主备选举和切换。

Zookeeper 集群:为主备切换控制器提供主备选举支持。

共享存储系统:共享存储系统是实现NameNode 的高可用最为关键的部分,共享存储系统保存了 NameNode 在运行过程中所产生的 HDFS 的元数据。主NameNode和备NameNode 通过共享存储系统实现元数据同步。在进行主备切换的时候,新的主 NameNode 在确认元数据完全同步之后才能继续对外提供服务。

DataNode 节点:除了通过共享存储系统共享 HDFS 的元数据信息之外,主 NameNode 和备 NameNode 还需要共享 HDFS 的数据块和 DataNode 之间的映射关系。DataNode 会同时向主 NameNode 和备 NameNode 上报数据块的位置信息。

分享到:
评论

相关推荐

    hdfs开启高可用+hive报错

    ### HDFS高可用机制与Hive兼容性问题详解 #### 一、背景介绍 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,主要用于存储海量数据。随着业务需求的增长,单一NameNode节点已经无法满足大规模集群的高...

    hdfs的高可用搭建

    ### HDFS高可用性(HA)搭建详解 #### 一、引言 HDFS (Hadoop Distributed File System) 是Hadoop生态系统中的分布式文件系统组件,主要用于存储海量数据。随着业务的发展,对数据处理的需求越来越高,单点故障的风险...

    HDFS高可用配置手册.docx

    ### HDFS高可用配置手册 #### 一、HDFS高可用 ##### 1、基础描述 HDFS(Hadoop Distributed File System)是Apache Hadoop项目的核心组成部分之一,它提供了高吞吐量的数据访问,非常适合大规模数据集上的应用。在...

    基于 ZooKeeper 搭建 Hadoop 高可用集群 的教程图解

    一、高可用简介 ...HDFS 高可用架构如下: 图片引用自: https://www.edureka.co/blog/how-to-set-up-hadoop-cluster-with-hdfs-high-availability/ HDFS 高可用架构主要由以下组件所构成: Active Na

    基于Zookeeper搭建Hadoop高可用集群

    HDFS 高可用架构主要由 Active NameNode、Standby NameNode、ZKFailoverController、Zookeeper 集群和共享存储系统组成。 高可用架构 ------------ 1. Active NameNode 和 Standby NameNode:两台 NameNode 形成互...

    Hadoop技术-HDFS的高可用性.pptx

    2. HDFS的高可用架构: HDFS的高可用性通过引入双NameNode模式来实现,即一个活动的NameNode (Active) 和一个备份的NameNode (Standby)。这两个NameNode都保存命名空间的完整副本,但只有活动NameNode处理客户端...

    Hadoop+HDFS和MapReduce架构浅析

    HDFS的设计特点包括高容错性、可扩展性以及适合大数据量的流式访问等。 ##### 1.2 MapReduce MapReduce是一种编程模型,用于处理和生成大型数据集。该模型主要包括两个阶段:Map阶段和Reduce阶段。MapReduce的主要...

    HDFS的概念-HDFS的高可用性.pdf

    HDFS的高可用性通过活动-备用NameNode的架构、共享日志和故障转移控制器等技术手段,显著降低了NameNode单点故障的风险,提高了整个Hadoop集群的稳定性和可靠性。这一特性使得HDFS能够支持大规模、关键业务的分布式...

    大数据学习计划.pdf

    - **Hadoop集群扩展**:构建多节点可扩展集群,部署HDFS高可用架构,掌握YARN的多租户架构,理解Zookeeper组件原理,优化Hadoop集群性能。 **第三部分:数据分析工具篇** - **Hive和Impala**:安装部署Hive,了解其...

    【HDFS篇14】HA高可用 --- Federation架构设1

    【HDFS篇14】HA高可用 --- Federation架构设计1 在Hadoop分布式文件系统(HDFS)的设计中,NameNode扮演着至关重要的角色,它负责管理文件系统的元数据,包括文件与目录的命名空间(Namespace)以及文件的块映射...

    Maheshwara Rao G:HDFS NameNode的高可用性研究

    在12月1日“Hadoop生态系统”主题分论坛,华为电信与核心网产品线BigData团队的架构师Uma ...他的演讲主题是“HDFS Name Node高可用性分析”,通过对构建在Bookkeeper上的的HDFS Name Node高可用性,尤其是...

    MapReduce框架和HDFS框架

    这种设计使得HDFS能够在廉价硬件上实现高可用性和可扩展性。HDFS具有副本机制,自动在不同节点间复制数据,以防止单点故障,同时提高读取效率。 在Hadoop中,MapReduce与HDFS协同工作,形成了强大的数据处理能力。...

    14_尚硅谷大数据之HDFS HA高可用1

    为了提高系统的高可用性(High Availability, HA),HDFS HA引入了Active/Standby两个NameNode的机制,以确保在NameNode故障时能快速切换到备用节点,从而消除单点故障。 8.1 HA概述: HA的主要目标是确保服务的...

    Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理.pdf

    NameNode的高可用性是HDFS稳定运行的关键,通过Secondary NameNode和HDFS Federation等机制实现。Secondary NameNode帮助NameNode周期性合并编辑日志,减轻NameNode的压力;Federation则通过划分多个命名空间,分散...

    雪球在股市风暴下的高可用架构改造分享.pdf

    总结来说,雪球的高可用架构改造涵盖了从基础架构到服务层的全方位优化,通过服务化、异步计算、智能推荐等手段提升了平台的性能和用户体验,同时积极应对市场波动带来的压力,展现了其在金融科技领域创新和适应性的...

    高可用性的HDFS:Hadoop分布式文件系统深度实践

    1.1 HDFS系统架构 1.2 HA定义 1.3 HDFS HA原因分析及应对措施 1.3.1 可靠性 1.3.2 可维护性 1.4 现有HDFS HA解决方案 1.4.1 Hadoop的元数据备份方案 1.4.2 Hadoop的SecondaryNameNode方案 1.4.3 Hadoop的Checkpoint ...

    Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理

    深入HDFS的架构设计,我们还可以讨论HDFS的挂载、数据块放置策略、心跳机制、Block报告、NameNode的高可用性、HDFS Federation以及HDFS的升级和维护等方面。 总之,《Hadoop技术内幕:深入解析HADOOP COMMON和HDFS...

    深入理解Hadoop HDFS高级教程.txt打包整理.zip

    2. HDFS设计理念:HDFS设计的目标是为了处理大规模的数据集,它遵循“一次写入,多次读取”(WORM)的原则,确保数据的持久化和高可用性。HDFS通过将大文件分割成块并分布在不同的节点上,实现了数据的并行访问。 3...

    详解Hadoop核心架构HDFS

    在最新的Hadoop版本中,为了提高系统的可用性和可靠性,已经支持多个NameNode的配置,这意味着可以在集群中部署多个NameNode以提供更高的容错能力和负载均衡能力。 #### 文件写入过程 文件写入HDFS的过程如下所示...

    Hadoop之hdfs架构详解共2页.pdf.zip

    【描述】"Hadoop之hdfs架构详解共2页.pdf.zip" 暗示文档内容可能简洁而精炼,聚焦在HDFS的架构上,包括但不限于NameNode、DataNode、Secondary NameNode等关键组件的功能与交互,以及HDFS如何实现数据的高可用性和...

Global site tag (gtag.js) - Google Analytics