文件系统的元数据的持久化
HDFS的命名空间是由名字节点来存储的。名字节点用事务日志叫做EditLog来持久化每一个对文件系统的元数据的改变,例如,在HDFS中创建
一个新的文件,名字节点将会插入一吊记录到EditLog来标示这个改变。类似地,改变文件的复制因子也会向EditLog中插入一条记录。名字节点在本
地文件系统中用一个文件来存储这个EditLog。完整的文件系统命名空间、文件块的映射和文件系统的配置都存在一个叫FsImage的文件
中,FsImage也是名字节点的本地文件系统中。
名字节点在内存中有一个完整的文件系统命名空间和文件块的映射镜像。这个元数据时设计成紧凑的,这样4G的内存的名字节点就能很轻松地处理
非常大文件数和目录,当名字节点启动,它将从磁盘中读取FsImage和EditLog应用EditLog中的所有的事务到内存中的FsImage表示方
法,然后将新的元数据刷新到本地磁盘的新的FsImage中这样可以截去旧的EditLog,因为事务已经被处理并已经持久化的FsImage中。这个过
程叫做检查点。在现在的实现检查点在名字节点启动的时候发生。支持周期性的检查点正在进行中。
数据节点存储HDFS数据到本地的文件系统中。数据节点没有关于HDFS文件的信息。它以单独的文件存储每一个HDFS的块到本地文件系统
中。数据节点不产生所有的文件到同一个目录中,而是它用启发式的检测最优的每一个目录的文件数。它在适当的时候创建子目录。在本地文件的同一个目录下创建
所有的文件不是最优的,因为本地文件系统可能单个目录里有数目巨大的文件效率较差。当数据节点启动的时候,它将扫描它的本地文件系统,根据本地的文件产生
一个所有HDFS数据块的列表并报告给名字节点,这个报告称作块报告。
分享到:
相关推荐
**HDFS管理工具HDFS Explorer** HDFS Explorer是一款专为Windows平台设计的HDFS文件管理系统,它使得用户能够像操作本地文件系统一样便捷地管理和浏览Hadoop分布式文件系统(HDFS)。尽管官方已经停止更新此软件,...
【HDFS 透明加密KMS】是Hadoop分布式文件系统(HDFS)提供的一种安全特性,用于保护存储在HDFS中的数据,确保数据在传输和存储时的安全性。HDFS透明加密通过端到端的方式实现了数据的加密和解密,无需修改用户的应用...
HDFS 文件系统基本文件命令、编程读写 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统,用于存储和管理大规模数据。它是 Hadoop 云计算平台的核心组件之一,提供了高效、可靠、可扩展的数据存储...
### 大数据实验二-HDFS编程实践 #### 实验内容概览 本次实验的主要目标是通过对HDFS(Hadoop Distributed File System)的操作实践,加深学生对HDFS在Hadoop架构中的作用及其基本操作的理解。实验内容包括两大部分...
Hadoop分布式文件系统(HDFS)是Apache Hadoop项目的核心组件之一,它为大数据处理提供了可靠的、可扩展的分布式存储解决方案。在这个“HDFS实例基本操作”中,我们将深入探讨如何在已经安装好的HDFS环境中执行基本...
【标题】"hdfs-over-ftp安装包及说明"涉及的核心技术是将FTP(File Transfer Protocol)服务与HDFS(Hadoop Distributed File System)相结合,允许用户通过FTP协议访问和操作HDFS上的数据。这个标题暗示了我们将在...
在大数据技术领域,Hadoop 分布式文件系统(HDFS)是核心组件之一,它为大规模数据存储提供了可扩展和高容错性的解决方案。本实验报告主要关注HDFS的常用操作命令,这些命令是管理员和数据分析师日常工作中不可或缺...
赠送jar包:hadoop-hdfs-client-2.9.1.jar; 赠送原API文档:hadoop-hdfs-client-2.9.1-javadoc.jar; 赠送源代码:hadoop-hdfs-client-2.9.1-sources.jar; 赠送Maven依赖信息文件:hadoop-hdfs-client-2.9.1.pom;...
HDFS是Hadoop分布式计算的存储基础。HDFS具有高容错性,可以部署在通用硬件设备上,适合数据密集型应用,并且提供对数据读写的高吞 吐量。HDFS能 够提供对数据的可扩展访问,通过简单地往集群里添加节点就可以解决...
HDFS(Hadoop Distributed File System)是Apache Hadoop项目的核心组件,它提供了一个分布式文件系统,能够处理和存储海量数据。在大数据处理场景中,为了优化性能和降低成本,HDFS支持了多种存储策略,包括“冷热...
在分布式计算领域,Hadoop Distributed File System(HDFS)是一个广泛使用的开源文件系统,它设计用于处理和存储大规模数据集。HDFS具有高容错性和高可扩展性,是大数据处理的重要基础设施。当我们需要将本地文件...
### 使用Java API访问HDFS文件的关键知识点 #### 一、HDFS概述 Hadoop Distributed File System(HDFS)是Apache Hadoop项目的核心组件之一,它为海量数据提供了高吞吐量的数据访问,非常适合大规模数据集的应用...
《通过DataX同步Oracle到HDFS的详细指南》 在大数据处理中,数据的迁移和同步是不可或缺的一环。DataX作为一个高效、稳定且易用的数据同步工具,被广泛应用于不同数据源之间的数据流动,例如从关系型数据库Oracle到...
Shell命令和java两种方式完成了常用的HDFS操作,有源代码及运行结果截图 (1)向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,则由用户来指定是追加到原有文件末尾还是覆盖原有的文件 (2)从HDFS中...
"厦门大学-林子雨-大数据技术基础-第3章 分布式文件系统HDFS-上机练习-熟悉常用的HDFS操作" HDFS(Hadoop Distributed File System)是Hadoop生态系统中的核心组件之一,它是基于分布式存储技术的文件系统,旨在...
"HDFS 配置 Kerberos" 本文档记录了为 Hadoop 的 HDFS 配置 Kerberos 的过程,Hadoop 的版本是 2.4.1。Kerberos 是一种常用的身份验证协议,用于提供安全的身份验证机制。在 Hadoop 中,Kerberos 可以用于 HDFS 和 ...
HDFS 可靠性策略 HDFS(Hadoop Distributed File System)作为一种分布式文件系统,其高可靠性主要是由多种策略及机制共同作用实现的。下面我们来分析这些策略和机制,对分布式文件系统的高可靠性进行详细的解释。 ...
标题中的知识点主要涉及Python连接HDFS进行文件上传下载以及Pandas转换文本文件到CSV的操作。在描述中,提到了Python在Linux环境下与HDFS交互的需求,以及使用Pandas进行数据处理的场景。从标签中我们可以进一步了解...
hdfs-site.xml文件是Hadoop分布式文件系统(HDFS)的核心配置文件之一,它定义了HDFS的很多关键行为和属性。了解hdfs-site.xml的配置项对于调优Hadoop集群,满足特定需求是非常有帮助的。下面对hdfs-site.xml中的...
标题中的“基于 DataX 开发的快速同步 MySQL 数据至 HDFS 上的工具”指的是一个利用 DataX 框架开发的实用程序,该程序能够高效地将存储在 MySQL 数据库中的数据迁移或实时同步到 Hadoop 分布式文件系统(HDFS)上。...