当数据集的大小超过一台独立物理计算机的存储能力的时候,就有必要对其进行分区.并存储到若干台单独的计算机上.管理网络中跨多台计算机存储的文件系统称为分布式文件系统.该系统架构于网络之上,,基于网络的复杂性,该系统势必比普通磁盘文件系统更为复杂.例如能够容忍单点故障而不丢失任何数据等.分布式文件系统有很多,比如sun的NFS,google的GFS,Hadoopd的HDFS等.下文主要讲HDFS的实现机制.
HDFS的三个实体
数据块
每个磁盘都有默认的数据块大小,这是磁盘进行读写的基本单位.构建于单个磁盘之上的文件系统通过磁盘块来管理该文件系统中的块.该文件系统中的块一般为磁盘块的整数倍.磁盘块一般为512字节.HDFS也有块的概念,默认为64MB(一个map处理的数据大小).HDFS上的文件也被划分为块大小的多个分块,与其他文件系统不同的是,HDFS中小于一个块大小的文件不会占据整个块的空间.
HDFS用块存储带来的第一个明显的好处一个文件的大小可以大于网络中任意一个磁盘的容量,数据块可以利用磁盘中任意一个磁盘进行存储.第二个简化了系统的设计,将控制单元设置为块,可简化存储管理,计算单个磁盘能存储多少块就相对容易.同时也消除了对元数据的顾虑,如权限信息,可以由其他系统单独管理.
DataNode节点
DataNode是HDFS文件系统的工作节点,它们根据需要存储并检索数据块,受NameNode节点调度.并且定期向NameNode发送它们所存储的块的列表
NameNode节点
NameNode管理HDFS文件系统的命名空间,它维护着文件系统树及整棵树的所有的文件及目录.这些文件以两个文件形式永久保存在本地磁盘上(命名空间镜像文件和编辑日志文件).NameNode记录着每个文件中各个块所在的数据节点信息但并不永久保存这些块的位置信息,因为这些信息在系统启动时由数据节点重建.
没有NameNode,文件系统将无法使用.如提供NameNode服务的机器损坏,文件系统上的所有文件丢失,我们就不能根据DataNode的块来重建文件.因此,对NameNode的容错非常重要.第一种机制,备份那些组成文件系统元数据持久状态的文件.通过配置使NameNode在多个文件系统上保存元数据的持久状态或将数据写入本地磁盘的同时,写入一个远程挂载的网络文件系统.当然这些操作都是原子操作.第二种机制是运行一个辅助的NameNode,它会保存合并后的命名空间镜像的副本,并在Name/Node发生故障时启用.但是辅助NameNode保存.态总是滞后于主力节点,所以在主节点全部失效后难免丢失数据.在这种情况下,一般把存储在远程挂载的网络文件系统的数据复制到辅助NameNode并作为新的主NameNode运行
- 浏览: 155663 次
最新评论
-
cldtc:
您好,想请教一个问题,using python脚本的时候怎样打 ...
Hadoop Hive sql语法详解5--HiveQL与SQL区别
相关推荐
总结来说,Hadoop2.2.0通过在HDFS集群内部署双NameNode来实现高可用性,这通过JournalNode的协调机制和待命NameNode的快速故障切换来保证整个系统的稳定运行。这种高可用性设计显著提升了大规模数据处理环境下的数据...
"Hadoop HDFS原理分析" HDFS(Hadoop Distributed File System)是Hadoop项目的一部分,是一个分布式文件管理系统。HDFS的设计理念是为了存储和管理大量的数据,具有高容错性、可扩展性和高性能的特点。 HDFS的...
四、HDFS实现原理 HDFS的设计目标是处理大规模数据,因此在实现上考虑了容错和可用性。例如,通过心跳机制和Block Report,DataNode定期向NameNode报告状态,确保NameNode对集群的实时监控。当NameNode检测到某个...
HDFS 工作机制详解 HDFS(Hadoop Distributed File System)是分布式文件系统,它是谷歌的 GFS 提出后消灭的一种用户级文件系统,供应了一个高度容错和高吞吐量的海量数据存储处理方案。HDFS 是 Hadoop 生态的核心...
深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是IT领域的经典之作,专门探讨了Hadoop的核心组件——Hadoop Common和HDFS(Hadoop Distributed File System)的设计理念、架构及其背后的实现机制。...
大数据Hadoop中Hdfs的工作原理可以分为几个主要部分:Hdfs工作原理中主要关键词、SecondaryNamenode的工作机制、Hdfs工作流程、Hdfs的读写流程等。 首先,Hdfs工作原理中主要关键词包括NameNode、SecondaryNameNode...
它并不是NameNode的热备份,一旦NameNode发生故障,SecondaryNameNode并不能直接替代NameNode,而是需要结合其他机制比如ZooKeeper来实现NameNode的高可用。 以上就是HDFS的原理与操作相关的知识点,从其设计思想到...
4. 负载均衡:HDFS通过心跳机制和Block Report动态调整数据负载。 四、HDFS使用方法 1. 文件操作:使用Hadoop命令行工具或编程接口(如Java API)进行文件的创建、读取、修改和删除。 2. MapReduce配合:HDFS与...
系统可能需要实现身份验证和授权机制,以确保只有授权用户才能访问特定的文件或目录。此外,为了适应云计算环境,系统还应该具备良好的可扩展性和高可用性,能够无缝地融入现有的Hadoop集群。 HDFS的运行原理包括...
4. **容错机制**:MapReduce也内置了容错机制,如果某个Map或Reduce任务失败,系统会重新调度任务。 通过HDFS和MapReduce的协同工作,Hadoop能够处理PB级别的数据,广泛应用于数据分析、日志处理、推荐系统、机器...
HDFS技术原理深入理解 HDFS(Hadoop Distributed File System)是一种分布式文件管理系统,旨在解决大规模数据存储和管理问题。其核心概念包括NameNode、DataNode、Block、Replication、FileSystem等。 HDFS架构 ...
《HDFS技术原理深入理解》 分布式文件系统(HDFS,Hadoop Distributed File System)是大数据存储的核心组件之一,尤其在处理大...深入理解HDFS的工作原理和操作机制,对于优化大数据处理性能、保障数据安全至关重要。
【HDFS原理篇】 在大数据领域,分布式文件系统HDFS(Hadoop Distributed File System)扮演着至关重要的角色。HDFS是Apache Hadoop项目的核心组成部分,它设计为在廉价硬件上运行,提供高容错性和高吞吐量的数据...
- **块的分布**:通过将文件划分为多个块并分布在多个DataNode上,HDFS实现了良好的负载均衡。 #### NameNode中的元信息 - **文件和目录信息**:包括文件和目录的名称、所有者、权限等。 - **文件块信息**:每个...
通过这个深入理解Hadoop HDFS的高级教程,读者将能全面了解HDFS的工作原理,并具备在实际环境中部署、管理和优化HDFS的能力。无论你是数据工程师、大数据分析师还是系统管理员,都能从中受益匪浅。
总结,HDFS通过分布式存储和多副本机制实现了大数据处理的高效和可靠。其存储机制、Block管理、元数据持久化、读写流程和副本策略共同构成了HDFS的核心功能,使得大数据平台能够在处理大规模数据时保持稳定和高效。