mark:HarFileSystem
source:hadoop-common-2.0.0-cdh4.3.0.jar
为了节省NN的元数据,可以将HDFS上的不再变化的小文件归档。Hadoop archives是Hadoop自带的特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive目录结构如下:
Name | Type | Size |
_SUCCESS | file | 0 B |
_index | file | 599 B |
_masterindex | file | 23 B |
part-0 | file | 48 B |
【说明:】
1. *.har在HDFS上是一个目录,不是一个文件。
2. _index和_masterindx为元数据信息。
3. part-*为真实数据集。
看下_index文件及part-0中都存了些什么:
_index:
%2F dir 1378884867194+493+cdh4+supergroup 0 0 123.txt 2013 3.txt
%2F2013 dir 1378884762156+493+cdh4+supergroup 0 0 09
%2F2013%2F09%2F10%2F1.txt file part-0 12 12 1378883181096+420+cdh4+supergroup
%2F123.txt file part-0 0 12 1378866591533+420+cdh4+supergroup
%2F2013%2F09%2F10 dir 1378884856608+493+cdh4+supergroup 0 0 1.txt
%2F2013%2F09%2F11 dir 1378884867194+493+cdh4+supergroup 0 0 2.txt
%2F2013%2F09 dir 1378884821792+493+cdh4+supergroup 0 0 10 11
%2F2013%2F09%2F11%2F2.txt file part-0 24 12 1378883185898+420+cdh4+supergroup
%2F3.txt file part-0 36 12 1378883191541+420+cdh4+supergroup
可以看到里面存储了所有打包目录及文件的层次结构,数据文件信息及内容偏移等:
/123.txt
/2013/1.txt
/2013/2.txt
/3.txt
part-0:
hdfs://aaaa
hdfs://aaaa
hdfs://aaaa
hdfs://aaaa
数据文件中记录了打包目录下所有4个文件的内容。
【*】根据元数据文件及数据文件应该可以恢复出原目录结构。
分享到:
相关推荐
- **配置Hadoop**:编辑`etc/hadoop/hadoop-env.sh`和`etc/hadoop/core-site.xml`等配置文件,设置HDFS和YARN的相关参数。 - **格式化HDFS**:首次安装时需执行`hdfs namenode -format`来初始化NameNode。 - **...
在本场景中,我们有两个针对不同Hadoop版本的配置文件:`hadoop2.9配置文件.rar` 和 `hadoop2.7配置文件.rar`,分别适用于Hadoop 2.9.x和2.7.x版本。 **Hadoop和winutils.exe:** `winutils.exe` 是Hadoop在Windows...
我的报错:Could not locate Hadoop executable: E:\big_data\hadoop-3.3.0\bin\winutils.ex hadoop的winutils.exe及hadoop.dll文件,可以用于hadoop3.3. 下载好直接将两个文件复制到我们hadoop的bin目录下就行了
这个“hadoop-2.7.4.tar.gz”文件是针对Windows平台编译好的Hadoop 2.7.4版本安装包,提供了在Windows系统上部署和运行Hadoop集群的可能性。 在Hadoop 2.7.4中,有以下几个关键知识点: 1. **HDFS(Hadoop ...
`hadoop-2.7.1.tar.gz` 是一个包含了Hadoop 2.7.1版本源码或二进制文件的压缩包。这个版本在Hadoop的发展历程中是一个重要的里程碑,因为它引入了许多改进和新特性,旨在提升性能、稳定性和易用性。 1. **Hadoop...
通常,Hadoop是设计在Linux系统上运行的,但开发者为了在Windows上运行Hadoop,会创建像`hadoop.dll`这样的动态链接库文件。这个文件使得Windows系统能够理解Hadoop的某些操作,如与HDFS交互。 `winutils.exe`是另...
4. **配置Hadoop**:使用`./configure`脚本来配置Hadoop,可以指定安装目录、编译选项等。此过程会检查系统环境,确保所有依赖项都已满足。 5. **编译与构建**:使用Apache Maven进行编译,执行`mvn clean install ...
在下载hadoop-2.7.3.tar.gz这个压缩包后,用户可以解压得到Hadoop的源代码、配置文件、可执行二进制文件等。解压命令通常是在终端输入`tar -zxvf hadoop-2.7.3.tar.gz`。解压后,用户需要根据自己的系统环境进行适当...
3. **解压Hadoop**:使用`tar`命令解压下载的文件,例如 `tar -zxvf centos6.5-hadoop-2.6.4.tar.gz`,这将在当前目录下创建一个名为 `hadoop-2.6.4` 的目录。 4. **配置Hadoop**:编辑 `hadoop-2.6.4/etc/hadoop` ...
这个名为“hadoop-2.7.1.tar.gz.zip”的文件包含了Hadoop的2.7.1版本,这是一个非常重要的里程碑,因为它包含了对Hadoop生态系统的许多改进和修复。 首先,我们要明白文件的结构。这是一个压缩文件,最外层是.zip...
4. **配置Hadoop**:修改Hadoop的配置文件`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`和`mapred-site.xml`,配置HDFS、YARN和MapReduce的相关参数。 5. **格式化NameNode**:首次启动Hadoop时,需对NameNode...
这个压缩文件"hadoop-3.1.4.tar.zip"包含了Hadoop的源代码、文档、配置文件以及相关的依赖库,使得用户可以方便地在本地环境中安装和运行Hadoop。 在解压文件"hadoop-3.1.4.tar.gz"后,我们可以得到Hadoop的完整...
这个hadoop-3.1.3.tar.gz文件是一个包含了Hadoop 3.1.3版本的源码压缩包,对于理解Hadoop的工作原理、进行二次开发或者定制化配置来说,研究源码是非常重要的。 首先,Hadoop的核心组件包括HDFS(Hadoop ...
2. **配置Hadoop**:编辑conf目录下的配置文件如`core-site.xml`, `hdfs-site.xml`, 和 `yarn-site.xml`,设置相关参数,如NameNode和DataNode的地址、内存分配等。 3. **格式化NameNode**:首次启动Hadoop集群时,...
`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供Hadoop运行时所需的函数库支持,而`winutils.exe`则是一个实用工具程序,它提供了类似于Linux环境下`hadoop`命令行工具的功能。 首先,我们来详细...
4. **配置Hadoop**:修改Hadoop的配置文件,如`core-site.xml`、`hdfs-site.xml`和`yarn-site.xml`,指定本地文件系统的路径和HDFS的相关参数。 5. **格式化NameNode**:首次启动Hadoop时,需要对NameNode进行格式...
在Hadoop的配置目录($HADOOP_HOME/etc/hadoop)下,有两个主要的配置文件:core-site.xml和hdfs-site.xml。核心配置core-site.xml主要设置临时目录和HDFS的访问方式,例如: ```xml <name>fs.defaultFS ...
3. **配置Hadoop**:修改Hadoop配置文件,如`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`和`mapred-site.xml`,设置相关的参数,例如HDFS的命名节点地址、YARN的资源管理器地址等。 4. **格式化NameNode**:...
安装Hadoop时,需要配置环境变量、Hadoop配置文件(如core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml),以及集群的节点设置。同时,为了运行Hadoop,你需要一个Java运行环境(JRE)。 4. **集群...
4. **配置Hadoop**:打开`hadoop-3.2.2/etc/hadoop`目录下的配置文件,如`core-site.xml`, `hdfs-site.xml`, `yarn-site.xml` 和 `mapred-site.xml`,根据你的集群环境进行必要的配置,如设置HDFS的名称节点、数据...