当数据集的大小超过一台独立物理计算机的存储能力的时候,就有必要对其进行分区.并存储到若干台单独的计算机上.管理网络中跨多台计算机存储的文件系统称为分布式文件系统.该系统架构于网络之上,,基于网络的复杂性,该系统势必比普通磁盘文件系统更为复杂.例如能够容忍单点故障而不丢失任何数据等.分布式文件系统有很多,比如sun的NFS,google的GFS,Hadoopd的HDFS等.下文主要讲HDFS的实现机制.
HDFS的三个实体
数据块
每个磁盘都有默认的数据块大小,这是磁盘进行读写的基本单位.构建于单个磁盘之上的文件系统通过磁盘块来管理该文件系统中的块.该文件系统中的块一般为磁盘块的整数倍.磁盘块一般为512字节.HDFS也有块的概念,默认为64MB(一个map处理的数据大小).HDFS上的文件也被划分为块大小的多个分块,与其他文件系统不同的是,HDFS中小于一个块大小的文件不会占据整个块的空间.
HDFS用块存储带来的第一个明显的好处一个文件的大小可以大于网络中任意一个磁盘的容量,数据块可以利用磁盘中任意一个磁盘进行存储.第二个简化了系统的设计,将控制单元设置为块,可简化存储管理,计算单个磁盘能存储多少块就相对容易.同时也消除了对元数据的顾虑,如权限信息,可以由其他系统单独管理.
DataNode节点
DataNode是HDFS文件系统的工作节点,它们根据需要存储并检索数据块,受NameNode节点调度.并且定期向NameNode发送它们所存储的块的列表
NameNode节点
NameNode管理HDFS文件系统的命名空间,它维护着文件系统树及整棵树的所有的文件及目录.这些文件以两个文件形式永久保存在本地磁盘上(命名空间镜像文件和编辑日志文件).NameNode记录着每个文件中各个块所在的数据节点信息但并不永久保存这些块的位置信息,因为这些信息在系统启动时由数据节点重建.
没有NameNode,文件系统将无法使用.如提供NameNode服务的机器损坏,文件系统上的所有文件丢失,我们就不能根据DataNode的块来重建文件.因此,对NameNode的容错非常重要.第一种机制,备份那些组成文件系统元数据持久状态的文件.通过配置使NameNode在多个文件系统上保存元数据的持久状态或将数据写入本地磁盘的同时,写入一个远程挂载的网络文件系统.当然这些操作都是原子操作.第二种机制是运行一个辅助的NameNode,它会保存合并后的命名空间镜像的副本,并在Name/Node发生故障时启用.但是辅助NameNode保存.态总是滞后于主力节点,所以在主节点全部失效后难免丢失数据.在这种情况下,一般把存储在远程挂载的网络文件系统的数据复制到辅助NameNode并作为新的主NameNode运行
分享到:
相关推荐
本节将对 HDFS 的整体架构和基本实现机制进行简单介绍。 HDFS 整体架构 HDFS 是一个主从 Master/Slave 架构。一个 HDFS 集群包含一个 NameNode,这是一个 Master Server,用来管理文件系统的命名空间,以及调节...
### HDFS读写机制 #### 一、读写机制 **1、数据写入** - **客户端发起请求:**客户端(Client)首先访问NameNode,请求上传一个文件。 - **检查文件与目录:**NameNode接收到请求后,会检查目标文件或目录是否已...
HDFS 工作机制详解 HDFS(Hadoop Distributed File System)是分布式文件系统,它是谷歌的 GFS 提出后消灭的一种用户级文件系统,供应了一个高度容错和高吞吐量的海量数据存储处理方案。HDFS 是 Hadoop 生态的核心...
HDFS透明加密通过端到端的方式实现了数据的加密和解密,无需修改用户的应用代码,大大提升了数据安全性。 ### 1. 明文存储的弊端 在HDFS中,文件通常以块(Block)的形式存储在各个DataNode上,这些块是以明文形式...
HDFS的高可用集群配置是指在NameNode和DataNode之间实现高可用的配置,通过设置多个NameNode和DataNode来实现高可用性和可扩展性。 HDFS是Hadoop项目的一部分,是一个分布式文件管理系统,具有高容错性、可扩展性和...
* Namenode 与 Datanode 之间的通信:HDFS使用RPC机制来实现Namenode与Datanode之间的通信,以便于实现文件元数据的维护和数据块的存储。 * Client 与 Namenode 之间的通信:HDFS使用RPC机制来实现Client与Namenode...
四、HDFS实现原理 HDFS的设计目标是处理大规模数据,因此在实现上考虑了容错和可用性。例如,通过心跳机制和Block Report,DataNode定期向NameNode报告状态,确保NameNode对集群的实时监控。当NameNode检测到某个...
4.2.1 Datanode升级机制 312 4.2.2 Datanode磁盘存储结构 315 4.2.3 DataStorage实现 317 4.3 文件系统数据集 334 4.3.1 Datanode上数据块副本的状态 335 4.3.2 BlockPoolSlice实现 335 4.3.3 ...
系统可能需要实现身份验证和授权机制,以确保只有授权用户才能访问特定的文件或目录。此外,为了适应云计算环境,系统还应该具备良好的可扩展性和高可用性,能够无缝地融入现有的Hadoop集群。 HDFS的运行原理包括...
HDFS(Hadoop Distributed File System)作为一种分布式文件系统,其高可靠性主要是由多种策略及机制共同作用实现的。下面我们来分析这些策略和机制,对分布式文件系统的高可靠性进行详细的解释。 文件完整性 – ...
总结来说,Hadoop2.2.0通过在HDFS集群内部署双NameNode来实现高可用性,这通过JournalNode的协调机制和待命NameNode的快速故障切换来保证整个系统的稳定运行。这种高可用性设计显著提升了大规模数据处理环境下的数据...
同时探讨了其基本概念,其中包括块(Block)划分标准及作用、元数据与数据节点的分工协作机制,还有基于客户端视角的工作流程说明。最后列举了一些常用的管理和维护命令,帮助用户熟悉HDFS的具体操作。 适用人群:从事...
HDFS HA机制主要通过两个或多个NameNode实例来实现。这两个NameNode分别被称为Active NameNode和Standby NameNode。Active NameNode负责处理客户端的所有读写请求,而Standby NameNode则保持数据同步,并随时准备...
深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是IT领域的经典之作,专门探讨了Hadoop的核心组件——Hadoop Common和HDFS(Hadoop Distributed File System)的设计理念、架构及其背后的实现机制。...
在本项目中,"使用springboot基于hdfs和HBase实现的一个海量的对象存储服务.zip",我们探讨的是如何利用SpringBoot框架与Hadoop生态系统中的HDFS(Hadoop Distributed File System)以及NoSQL数据库HBase来构建一个...