一.NameNode概述
- NameNode存放了所有文件和文件夹的元数据信息
- 内存中:在系统启动时,会把fsimage和editlog记录的元数据信息加装到内存中;在系统启动时,NameNode收集DataNode心跳,在内存中形成file->blocks的对应关系。
- 硬盘上:操作日志以fsimage和editlog的形式持久化在硬盘上。
- NameNode分类
- NameNode,Secondary NameNode。
- NameNode,Checkpoint Node,Backup NameNode。
二.fsimage editLog
- editLog:客户端对文件系统每次读写等操作时,元数据节点首先修改内存中的数据结构,然后记录到editlog中。
- fsimage:二进制文件;当editlog达到一定量(fs.checkpoint.size)或者距离上次归并到fsimage达到一定时间(fs.checkpoint.period)时, editlog会被归并到fsimage中。此过程被称为checkpoint。另外一个checkpoint的时间是NameNode启动时。
三.NameNode + Secondary NameNode
- Secondary NameNode通知NameNode准备chekpoint。
- NameNode产生edits.new,用来接受checkpoint过程中的editlog。
- Secondary NameNode通过http get方式获取NameNode的fsimage与editlog。
- Secondary NameNode开始合并获取的上述两个文件,产生一个新的fsimage文件fsimage.ckpt。
- Secondary NameNode用http post方式发送fsimage.ckpt至NameNode。
- NameNode将fsimage.ckpt与edits.new文件分别重命名为fsimage与edits,然后更新fstime,整个checkpoint过程到此结束。
四.NameNode + Checkpiont NameNode + Backup NameNode
- 在Hadoop 0.21.0中,Secondary NameNode被Checkpoint NameNode和Backup NameNode取代。
- Checkpoint NameNode功能同Secondary NameNode,主要作用是合并元数据。
- Backup NameNode:NameNode实时主动把editlog和fsimage传送给Backup NameNode,主要作用是备份。但其还不能作热备,比喻Backup NameNode的内存中未保存Block的位置信息,仍需要等DataNode上报。
五.你也可以阅读以下文章
相关推荐
HDFS(Hadoop Distributed File System)是一种分布式文件系统,主要用于存储和管理大规模数据。HDFS 的设计初衷是为了满足高性能、高可靠性和高可扩展性的需求。 HDFS 体系结构 HDFS 的体系结构主要由两个组件...
6. **Hadoop命令**:现在可以通过`hadoop fs`或`hadoop dfs`命令与HDFS交互,进行文件操作。例如,`hadoop fs -ls /`可以列出根目录下的所有文件和目录。 7. **MapReduce编程**:如果你打算在Windows上进行...
这些工具允许用户在本地执行Hadoop相关的操作,如启动DataNode、NameNode等服务,以及与HDFS交互。 在安装Hadoop 3.3.1 on Windows时,你需要进行以下步骤: 1. **下载并解压**:首先,你需要下载hadoop-3.3.1的...
角色变量hdfs_version - HDFS 版本hdfs_cloudera_distribution - Cloudera 发行版(默认: cdh5.4 ) hdfs_conf_dir - HDFS 的配置目录(默认: /etc/hadoop/conf ) hdfs_namenode - 确定节点是否为 HDFS NameNode ...
《Idea Hadoop-HDFS插件详解与应用》 在大数据开发领域,Hadoop作为分布式计算框架的重要代表,其HDFS(Hadoop Distributed File System)是数据存储的核心组件。为了方便开发者在IDEA(IntelliJ IDEA)环境中更加...
安装Ranger-HDFS插件涉及以下几个步骤:首先,需要将"ranger-2.0.0-SNAPSHOT-hdfs-plugin"解压并按照官方文档的指导部署到HDFS集群中的各个NameNode节点;接着,配置Ranger Admin服务,导入HDFS插件,并为HDFS创建...
### 大数据、Hadoop与HDFS详解 随着信息技术的快速发展和互联网的普及,数据量呈爆炸性增长态势。传统的数据处理工具和技术已无法满足如此大规模数据的存储、管理和分析需求。为此,Apache Hadoop应运而生,它提供...
《IDEA中的Hadoop HDFS插件:提升大数据开发效率》 在大数据处理领域,Apache Hadoop是一个不可或缺的工具,其分布式文件系统(HDFS)为海量数据存储提供了可靠的解决方案。而对于开发人员来说,拥有一个良好的集成...
6. **格式化NameNode**:首次安装时,需要对NameNode进行格式化,这会清除所有HDFS上的数据,命令是 `hadoop namenode -format`。 7. **启动Hadoop**:启动Hadoop的各个服务,包括DataNode、NameNode、...
8. **重命名或移动文件/目录**:`hadoop fs -mv`命令实现重命名或移动操作,例如`hadoop fs -mv hdfs://namenode:port/oldpath hdfs://namenode:port/newpath`。 9. **设置权限**:HDFS支持Unix样式的权限模型,`...
Prometheus Hadoop HDFS FSImage导出器 | 将Hadoop HDFS统计信息导出到包括 总数/每个用户/每个组/每个配置的目录路径/每个路径集 目录数 文件数 文件大小和大小分布(可选) 块数 文件复制(总体/每个用户摘要)...
Hadoop是大数据处理领域的一个关键框架,...通过正确安装、配置和使用这个压缩包中的组件,开发者可以在没有Linux环境的情况下,也能顺利地进行Hadoop相关的工作,这对于学习和理解Hadoop的分布式计算原理非常有帮助。
### Hadoop-HDFS环境下文件上传与下载操作指南 #### 一、Windows环境下配置Hadoop环境 **1.1 下载Hadoop** 为了在Windows环境下配置Hadoop环境,首先需要下载Hadoop软件包。推荐下载Hadoop 2.7.7版本,可以从清华...
【Hadoop-HDFS概述】 Hadoop-HDFS,全称为Hadoop Distributed File System,是一种分布式文件系统,旨在解决大规模数据存储和处理的问题。随着大数据时代的到来,单个操作系统无法有效地管理和维护海量数据,因此,...
- **错误日志分析**:当遇到问题时,检查Hadoop的日志文件,如`logs/hadoop-root-namenode-localhost.out`和`logs/hadoop-root-datanode-localhost.out`,它们会提供错误信息帮助解决问题。 - **防火墙配置**:...
HDFS元数据是Hadoop技术中用于维护整个文件系统的数据,通过NameNode管理,实现元数据服务及持久化存储。 HDFS元数据的定义及作用 ------------------------ HDFS元数据是由NameNode管理的用于维护整个文件系统的...
Hadoop-Eclipse-Plugin-3.1.1是一款专为Eclipse集成开发环境设计的插件,用于方便地在Hadoop分布式文件系统(HDFS)上进行开发和调试MapReduce程序。这款插件是Hadoop生态系统的组成部分,它使得Java开发者能够更加...
- 位于`/var/log/hadoop/hadoop-namenode-namenode.out` (具体路径可能因版本而异) - 记录了HDFS元数据操作的日志信息 - **DataNode日志**: - 位于`/var/log/hadoop/hadoop-datanode-datanode.out` (具体路径可能...