使用场景:
大量小文件会消耗掉名称节点的 大量内存,这时候可以用这个命令合并小文件,减小名称节点内存占用量
1 列出hadoop根目录下的所有文件
hadoop fs -ls -R /
2 将 /user这个目录下的所有文件归档到/user/har/目录下,名字为user.har(p是parent的缩写)
hadoop archive -archiveName user.har -p /user /user/har/
命令自动执行一个map,reduce流程,在/user/har/下生成一个har文件。
3 hadoop fs -ls /user/har/user.har
查看生成的har文件内部都有什么文件。
1)part文件是所有文件拼接到一起组成的文件
2)index文件时文件是存储文件的起始位置和偏移量和文件长度
4 查看har文件中都有哪些文件组成的
hadoop fs -ls -R har:///user/har/user.har
5 删除一个har文件
hadoop fs -rm -R /user/har/user.har
6 Hadoop Archives的使用限制
1. 创建一个HAR需要跟源文件相同大小的空间,所以,在准备创建一个HAR之前,要保证有相同大小的磁盘空间,创建之后,可以删除原来的文件。目录Hadoop Archives只打包,不压缩。
2. HAR文件一旦创建不可修改,不能向其中增加或删除文件。在实际使用中,一般对于一旦生成就不再更改的文件做定期的archive,比如,每天把当天生成的日志文件打成一个包。
3. 之前提到HAR文件可以作为MapReduce的输入,但是多个小文件打成包输入给MapReduce,并不比单独小文件输入给MapReduce更有效率,关于解决众多小文件输入的效率问题,后面要讨论其他解决方案。
4. 如果namenode的内存不够用了,在考虑减少系统中的大量小文件之后,应该考虑HDFS Federation。
相关推荐
Hadoop Archives DistCp GridMix Rumen Scheduler Load Simulator Reference Release Notes API docs Common CHANGES.txt HDFS CHANGES.txt MapReduce CHANGES.txt YARN CHANGES.txt Metrics ...
9. **org.apache.hadoop.tools**: 包含了一些实用工具,比如`HadoopArchives`用于创建Hadoop存档(HAR),`DistCp`用于大规模文件复制,还有`FsShell`提供了命令行工具,如`hadoop fs`,用于执行HDFS操作。...
本文档为Apache官方Hadoop 1.1.0中文文档 文档目录: 1.概述 2.快速入门 3.集群搭建 4.HDFS构架设计 5.HDFS使用指南 6.HDFS权限指南 ...14.Hadoop Archives 15.Hadoop On Demand 另附带 Hadoop API
[INFO] Apache Hadoop Archives ............................ SUCCESS [2.099s] [INFO] Apache Hadoop Rumen ............................... SUCCESS [6.924s] [INFO] Apache Hadoop Gridmix ......................
[INFO] Apache Hadoop Archives ............................ SUCCESS [2.099s] [INFO] Apache Hadoop Rumen ............................... SUCCESS [6.924s] [INFO] Apache Hadoop Gridmix ......................
比如,通过Hadoop Archives保持HDFS集群平衡,使用distcp工具进行数据的并行复制,以及维护数据完整性的方法。这些内容对于操作和维护Hadoop集群的管理员来说具有很高的参考价值。 综上所述,本章节涉及了Hadoop的...
使用`sbin/start-dfs.sh`等脚本命令启动Hadoop集群。 ### 暴力卸载流程 当需要彻底清除Hadoop及其相关组件时,可以采取暴力卸载的方式。 **步骤一:停止Hadoop服务** 首先需要确保所有的Hadoop服务都已经停止运行...
fsck 命令用于运行 HDFS 文件系统检查工具。用法:hadoop fsck [GENERIC_OPTIONS] <path> [-move | -delete | -openforwrite] [-files [-blocks[-locations | -racks]]]。其中,<path> 是检查的起始目录,-move 选项...
1. **概述**:Hadoop Archives (HAR) 把多个小文件打包成一个大文件,这个大文件实际上是一个由多个小文件组成的归档文件。这种归档文件可以像普通HDFS文件一样被访问,用户可以通过指定路径透明地读取原文件内容。 ...
Hadoop生态系统包括了多个子项目,如HBase、ZooKeeper、Hive、Pig等,这些项目扩展了Hadoop的基本功能,提供了更丰富的工具来处理不同类型的数据和执行各种数据分析任务。Hadoop的生态系统是一个不断发展的项目集合...
为了方便用户操作与管理Hadoop集群,Hadoop提供了丰富的命令行工具。本文将详细介绍Hadoop命令手册中提及的关键命令及其用法。 #### 常规选项 在使用Hadoop命令时,有一些通用选项适用于大多数命令: - `--config ...
- 介绍了HDFS中的各种命令行工具,如`fsck`用于检查文件系统的完整性。 5. **官方文档**:`hadoop.apache.org/core/docs/r0.20.0/cn/` - 包含了详细的Hadoop安装、配置和管理指南,适合初学者和高级用户。 #### ...
自己编译的64bit的hadoop-2.2.0,自己lab安装使用。 [INFO] Reactor Summary: [INFO] [INFO] Apache Hadoop Main ................................ SUCCESS [1.834s] [INFO] Apache Hadoop Project POM .............
Hadoop archives 是特殊的archives格式。一个 Hadoop archive 对应一个文件系统目录。 Hadoop archive 的扩展名是 *.har。Hadoop archive 包含元数据(形式是 _index 和 _masterindx)和数据(p