hadoop可以创建自己的归档文件 即har文件(hadoop archive file)。下面的一个shell命令展示如何创建归档文件:
$ hadoop archive -archiveName geoway_portal.har /user/Administrator/geoway_port
al/(对这个目录下的文件进行归档) /tmp/(要保存的位置)
12/11/07 22:04:28 INFO mapred.JobClient: Running job: job_201211070851_0001
12/11/07 22:04:29 INFO mapred.JobClient: map 0% reduce 0%
12/11/07 22:04:46 INFO mapred.JobClient: map 42% reduce 0%
12/11/07 22:04:58 INFO mapred.JobClient: map 60% reduce 0%
12/11/07 22:05:04 INFO mapred.JobClient: map 100% reduce 0%
12/11/07 22:05:22 INFO mapred.JobClient: map 100% reduce 100%
12/11/07 22:05:24 INFO mapred.JobClient: Job complete: job_201211070851_0001
12/11/07 22:05:24 INFO mapred.JobClient: Counters: 17
12/11/07 22:05:24 INFO mapred.JobClient: Job Counters
12/11/07 22:05:24 INFO mapred.JobClient: Launched reduce tasks=1
12/11/07 22:05:24 INFO mapred.JobClient: Launched map tasks=1
12/11/07 22:05:24 INFO mapred.JobClient: FileSystemCounters
12/11/07 22:05:24 INFO mapred.JobClient: FILE_BYTES_READ=926
12/11/07 22:05:24 INFO mapred.JobClient: HDFS_BYTES_READ=474439229
12/11/07 22:05:24 INFO mapred.JobClient: FILE_BYTES_WRITTEN=1402
12/11/07 22:05:24 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=474438973
12/11/07 22:05:24 INFO mapred.JobClient: Map-Reduce Framework
12/11/07 22:05:24 INFO mapred.JobClient: Reduce input groups=7
12/11/07 22:05:24 INFO mapred.JobClient: Combine output records=0
12/11/07 22:05:24 INFO mapred.JobClient: Map input records=7
12/11/07 22:05:24 INFO mapred.JobClient: Reduce shuffle bytes=0
12/11/07 22:05:24 INFO mapred.JobClient: Reduce output records=0
12/11/07 22:05:24 INFO mapred.JobClient: Spilled Records=14
12/11/07 22:05:24 INFO mapred.JobClient: Map output bytes=424
12/11/07 22:05:24 INFO mapred.JobClient: Map input bytes=569
12/11/07 22:05:24 INFO mapred.JobClient: Combine input records=0
12/11/07 22:05:24 INFO mapred.JobClient: Map output records=7
12/11/07 22:05:24 INFO mapred.JobClient: Reduce input records=7
由上面的shell命令执行过程,在进行hadoop har文件归档的时候使用了MapReduce。需要注意的是:在创建archive文件后,源文件不会被更改或者删除。archive作为文件系统暴漏给外界。所以所有的fs shell命令都能在archive上运行,但是需要使用不同的URI。另外注意的是archive是不可改变的。所以重命名、删除和创建都会返回错误。
hadoop archive的URI是:
har://scheme-hostname:port/archivepath/fileinarchive。
如果想查看刚创建的归档文件,可以执行以下命令:
$ hadoop fs -lsr har:///tmp/geoway_portal.har
drw-r--r-- - Administrator supergroup 0 2012-11-07 22:05 /tmp/geoway_
portal.har/user
drw-r--r-- - Administrator supergroup 0 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator
drw-r--r-- - Administrator supergroup 0 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator/geoway_portal
-rw-r--r-- 10 Administrator supergroup 419438592 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator/geoway_portal/SDE.DBF
-rw-r--r-- 10 Administrator supergroup 54993818 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator/geoway_portal/likehua.zip
-rw-r--r-- 10 Administrator supergroup 6144 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator/geoway_portal/tes2.dmp
相关推荐
归档(Archiving)在Hadoop中通常指的是将大量的小文件进行合并,以提高HDFS(Hadoop Distributed File System)的存储效率和MapReduce操作的性能。在"hadop 归档源代码"中,我们可以深入理解Hadoop如何实现这一功能...
- `hadoop archive`:用于创建Hadoop归档文件,用于优化HDFS上的小文件存储。 - `hadoop distcp`:分布式复制,可以在HDFS集群之间复制大量数据。 - `hadoop fs`:执行文件系统命令,如查看目录、删除文件等。 -...
1. **文件上传**:当客户端想要上传一个文件到HDFS时,它首先会联系NameNode查询该文件是否已经存在,如果不存在,则向NameNode申请创建新的文件。NameNode会记录下这个文件的元数据信息,并返回给客户端。 2. **...
5. **打包归档**:编译完成后,可以使用Maven的`assembly:single`或者`jar:jar`插件创建归档文件,如tar.gz或zip格式,这包含了所有必要的库和配置文件,以便在目标环境中部署。 6. **配置调整**:在打包前,可能...
### Hadoop分布式文件系统使用指南 #### 一、Hadoop分布式文件系统简介 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,它为海量数据提供了高吞吐量访问的能力,非常适合大规模数据集上的应用。HDFS的...
1. **Hadoop简介**:Hadoop是一个由Apache基金会开发的开源项目,最初由Doug Cutting和Mike Cafarella在2005年创建,灵感来源于Google的MapReduce和GFS(Google文件系统)论文。它是一个分布式计算框架,用于处理和...
首先,`hadoop-tools`包含了多个子项目,如`hadoop-distcp`(分布式复制)、`hadoop-fs`(文件系统操作工具)、`hadoop-archive`(创建Hadoop归档文件,类似于tar)等。这些工具提供了对HDFS的便捷操作,例如数据...
使用Hadoop归档文件 不足 第4章 Hadoop I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem 压缩 codec 压缩和输入切分 在MapReduce中使用压缩 序列化 Writable接口 ...
使用Hadoop归档文件 不足 第4章 Hadoop I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem 压缩 codec 压缩和输入切分 在MapReduce中使用压缩 序列化 Writable接口 Writable类 实现定制的...
**创建Hadoop Archive的步骤** 1. **命令行工具**:`hadoop archive` 是用来创建HAR文件的命令行工具。它使用MapReduce任务执行归档过程。 2. **命令格式**:`hadoop archive -archiveName <name> -p <parent> * ...
hadoop-lzo-0.4.21-SNAPSHOT.jar是该工具的Java归档(JAR)文件,它是Hadoop LZO的核心组件,包含了实现LZO压缩和解压缩功能的所有类和库。这个JAR文件需要添加到Hadoop的类路径(classpath)中,以便Hadoop集群能够...
- **解释**: 处理小文件的有效方法包括归档文件、多Master设计、调整Block大小等,但将文件系统元数据存放到硬盘中并不是一个好的解决方案。 #### 18. HDFS文件写入机制 - **知识点**: HDFS支持的数据写入机制。 - ...
HAR文件通过MapReduce任务将小文件打包成一个大的归档文件,从而减少NameNode的内存负担。客户端可以像访问普通文件一样访问HAR文件,但读取效率较低,因为需要额外的索引查找步骤。尽管HAR文件可以作为MapReduce...
用于创建Hadoop存档文件,其格式通常为`.har`。通过这种方式,可以将多个文件打包成一个单一的归档文件,以便更高效地传输和访问。 - **用法**: `hadoop archive -archiveName NAME <src>... <dest>` - **选项**: -...
此外,随着大数据和云计算的发展,现代文件归档系统还可能涉及大数据处理技术,如Hadoop或Spark,以及云存储服务,如Amazon S3或Google Cloud Storage。 总之,文件归档系统是信息时代不可或缺的基础设施,它不仅有...
同时,对于"01_jar包",这可能是指包含Hadoop相关应用程序或工具的Java归档文件,它们可以用于执行特定的任务,例如数据分析或数据迁移。在集群中运行这些jar包,通常使用Hadoop的命令行工具`hadoop jar`。
我们有`hadoop-3.1.4.tar.gz`,这是一个归档文件,可以使用以下命令解压: ```bash tar -zxvf hadoop-3.1.4.tar.gz -C /opt/ ``` 这会将Hadoop解压到`/opt/hadoop-3.1.4`目录下。为了方便操作,创建一个软链接: ...
- 编译完成后,源码会被打包成`hadoop-3.3.1.tar.gz`这样的归档文件,包含了Hadoop的所有源代码、文档和库文件。 - 解压后,你可以研究源码、进行本地开发、调试或定制Hadoop功能。 7. **使用编译后的源码**: -...
- HDFS提供命令行接口和Java API供用户操作,包括文件创建、读取、删除等操作,以及通过`distcp`进行并行复制和Hadoop归档文件的使用。 书中的内容还涉及Hadoop的I/O特性,如数据完整性、压缩和序列化,以及...