`
XMaster
  • 浏览: 37845 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop Archives *.har文件解析备忘

阅读更多
mark:HarFileSystem
source:hadoop-common-2.0.0-cdh4.3.0.jar

        为了节省NN的元数据,可以将HDFS上的不再变化的小文件归档。Hadoop archives是Hadoop自带的特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive目录结构如下:
NameTypeSize
_SUCCESSfile0 B
_indexfile599 B
_masterindexfile23 B
part-0file48 B

        【说明:】
        1. *.har在HDFS上是一个目录,不是一个文件。
        2. _index和_masterindx为元数据信息。
        3. part-*为真实数据集。

        看下_index文件及part-0中都存了些什么:
        _index:
%2F dir 1378884867194+493+cdh4+supergroup 0 0 123.txt 2013 3.txt 
%2F2013 dir 1378884762156+493+cdh4+supergroup 0 0 09 
%2F2013%2F09%2F10%2F1.txt file part-0 12 12 1378883181096+420+cdh4+supergroup 
%2F123.txt file part-0 0 12 1378866591533+420+cdh4+supergroup 
%2F2013%2F09%2F10 dir 1378884856608+493+cdh4+supergroup 0 0 1.txt 
%2F2013%2F09%2F11 dir 1378884867194+493+cdh4+supergroup 0 0 2.txt 
%2F2013%2F09 dir 1378884821792+493+cdh4+supergroup 0 0 10 11 
%2F2013%2F09%2F11%2F2.txt file part-0 24 12 1378883185898+420+cdh4+supergroup 
%2F3.txt file part-0 36 12 1378883191541+420+cdh4+supergroup 

        可以看到里面存储了所有打包目录及文件的层次结构,数据文件信息及内容偏移等:
        /123.txt
        /2013/1.txt
        /2013/2.txt
        /3.txt

        part-0:
hdfs://aaaa
hdfs://aaaa
hdfs://aaaa
hdfs://aaaa

        数据文件中记录了打包目录下所有4个文件的内容。

        【*】根据元数据文件及数据文件应该可以恢复出原目录结构。
分享到:
评论

相关推荐

    hadoop-3.3.1.tar.gz

    - **配置Hadoop**:编辑`etc/hadoop/hadoop-env.sh`和`etc/hadoop/core-site.xml`等配置文件,设置HDFS和YARN的相关参数。 - **格式化HDFS**:首次安装时需执行`hdfs namenode -format`来初始化NameNode。 - **...

    适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

    在本场景中,我们有两个针对不同Hadoop版本的配置文件:`hadoop2.9配置文件.rar` 和 `hadoop2.7配置文件.rar`,分别适用于Hadoop 2.9.x和2.7.x版本。 **Hadoop和winutils.exe:** `winutils.exe` 是Hadoop在Windows...

    hadoop-2.7.4.tar.gz

    这个“hadoop-2.7.4.tar.gz”文件是针对Windows平台编译好的Hadoop 2.7.4版本安装包,提供了在Windows系统上部署和运行Hadoop集群的可能性。 在Hadoop 2.7.4中,有以下几个关键知识点: 1. **HDFS(Hadoop ...

    hadoop的winutils.exe及hadoop.dll文件

    我的报错:Could not locate Hadoop executable: E:\big_data\hadoop-3.3.0\bin\winutils.ex hadoop的winutils.exe及hadoop.dll文件,可以用于hadoop3.3. 下载好直接将两个文件复制到我们hadoop的bin目录下就行了

    hadoop-2.7.1.tar.gz

    `hadoop-2.7.1.tar.gz` 是一个包含了Hadoop 2.7.1版本源码或二进制文件的压缩包。这个版本在Hadoop的发展历程中是一个重要的里程碑,因为它引入了许多改进和新特性,旨在提升性能、稳定性和易用性。 1. **Hadoop...

    各个版本Hadoop,hadoop.dll以及winutils.exe文件下载大合集

    通常,Hadoop是设计在Linux系统上运行的,但开发者为了在Windows上运行Hadoop,会创建像`hadoop.dll`这样的动态链接库文件。这个文件使得Windows系统能够理解Hadoop的某些操作,如与HDFS交互。 `winutils.exe`是另...

    hadoop-3.2.2.tar.gz

    4. **配置Hadoop**:使用`./configure`脚本来配置Hadoop,可以指定安装目录、编译选项等。此过程会检查系统环境,确保所有依赖项都已满足。 5. **编译与构建**:使用Apache Maven进行编译,执行`mvn clean install ...

    hadoop-2.7.3.tar.gz 下载 hadoop tar 包下载

    在下载hadoop-2.7.3.tar.gz这个压缩包后,用户可以解压得到Hadoop的源代码、配置文件、可执行二进制文件等。解压命令通常是在终端输入`tar -zxvf hadoop-2.7.3.tar.gz`。解压后,用户需要根据自己的系统环境进行适当...

    hadoop安装包centos6.5-hadoop-2.6.4.tar.gz

    3. **解压Hadoop**:使用`tar`命令解压下载的文件,例如 `tar -zxvf centos6.5-hadoop-2.6.4.tar.gz`,这将在当前目录下创建一个名为 `hadoop-2.6.4` 的目录。 4. **配置Hadoop**:编辑 `hadoop-2.6.4/etc/hadoop` ...

    hadoop-2.7.1.tar.gz.zip

    这个名为“hadoop-2.7.1.tar.gz.zip”的文件包含了Hadoop的2.7.1版本,这是一个非常重要的里程碑,因为它包含了对Hadoop生态系统的许多改进和修复。 首先,我们要明白文件的结构。这是一个压缩文件,最外层是.zip...

    hadoop-3.1.3.tar.gz编译后的源码包

    这个hadoop-3.1.3.tar.gz文件是一个包含了Hadoop 3.1.3版本的源码压缩包,对于理解Hadoop的工作原理、进行二次开发或者定制化配置来说,研究源码是非常重要的。 首先,Hadoop的核心组件包括HDFS(Hadoop ...

    hadoop的hadoop.dll和winutils.exe下载

    `hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供Hadoop运行时所需的函数库支持,而`winutils.exe`则是一个实用工具程序,它提供了类似于Linux环境下`hadoop`命令行工具的功能。 首先,我们来详细...

    hadoop-3.1.4.tar.zip

    这个压缩文件"hadoop-3.1.4.tar.zip"包含了Hadoop的源代码、文档、配置文件以及相关的依赖库,使得用户可以方便地在本地环境中安装和运行Hadoop。 在解压文件"hadoop-3.1.4.tar.gz"后,我们可以得到Hadoop的完整...

    hadoop-2.7.7.tar.gz

    2. **配置Hadoop**:编辑conf目录下的配置文件如`core-site.xml`, `hdfs-site.xml`, 和 `yarn-site.xml`,设置相关参数,如NameNode和DataNode的地址、内存分配等。 3. **格式化NameNode**:首次启动Hadoop集群时,...

    hadoop-3.1.4.tar.gz

    4. **配置Hadoop**:修改Hadoop的配置文件`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`和`mapred-site.xml`,配置HDFS、YARN和MapReduce的相关参数。 5. **格式化NameNode**:首次启动Hadoop时,需对NameNode...

    hadoop-3.1.0.rar windows 环境依赖

    4. **配置Hadoop**:修改Hadoop的配置文件,如`core-site.xml`、`hdfs-site.xml`和`yarn-site.xml`,指定本地文件系统的路径和HDFS的相关参数。 5. **格式化NameNode**:首次启动Hadoop时,需要对NameNode进行格式...

    hadoop-2.6.5.tar.gz

    安装Hadoop时,需要配置环境变量、Hadoop配置文件(如core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml),以及集群的节点设置。同时,为了运行Hadoop,你需要一个Java运行环境(JRE)。 4. **集群...

    hadoop-3.1.3.tar.gz

    在Hadoop的配置目录($HADOOP_HOME/etc/hadoop)下,有两个主要的配置文件:core-site.xml和hdfs-site.xml。核心配置core-site.xml主要设置临时目录和HDFS的访问方式,例如: ```xml <name>fs.defaultFS ...

    hadoop-2.6.0.tar.gz

    3. **配置Hadoop**:修改Hadoop配置文件,如`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`和`mapred-site.xml`,设置相关的参数,例如HDFS的命名节点地址、YARN的资源管理器地址等。 4. **格式化NameNode**:...

    hadoop-3.3.0.tar.gz

    一旦Hadoop成功安装,你可以使用HDFS命令行工具进行文件操作,如`hadoop fs -put`上传文件,`hadoop fs -ls`列出文件,以及`hadoop fs -cat`查看文件内容。对于MapReduce作业,你可以编写Java程序或者使用Hadoop ...

Global site tag (gtag.js) - Google Analytics