`
dyllove98
  • 浏览: 1405604 次
  • 性别: Icon_minigender_1
  • 来自: 济南
博客专栏
73a48ce3-d397-3b94-9f5d-49eb2ab017ab
Eclipse Rcp/R...
浏览量:39062
4322ac12-0ba9-3ac3-a3cf-b2f587fdfd3f
项目管理checkList...
浏览量:80071
4fb6ad91-52a6-307a-9e4f-816b4a7ce416
哲理故事与管理之道
浏览量:133167
社区版块
存档分类
最新评论

创建hadoop 归档文件

 
阅读更多

hadoop可以创建自己的归档文件  即har文件(hadoop archive file)。下面的一个shell命令展示如何创建归档文件:

$ hadoop archive -archiveName geoway_portal.har /user/Administrator/geoway_port
al/(对这个目录下的文件进行归档)                 /tmp/(要保存的位置)
12/11/07 22:04:28 INFO mapred.JobClient: Running job: job_201211070851_0001
12/11/07 22:04:29 INFO mapred.JobClient:  map 0% reduce 0%
12/11/07 22:04:46 INFO mapred.JobClient:  map 42% reduce 0%
12/11/07 22:04:58 INFO mapred.JobClient:  map 60% reduce 0%
12/11/07 22:05:04 INFO mapred.JobClient:  map 100% reduce 0%
12/11/07 22:05:22 INFO mapred.JobClient:  map 100% reduce 100%
12/11/07 22:05:24 INFO mapred.JobClient: Job complete: job_201211070851_0001
12/11/07 22:05:24 INFO mapred.JobClient: Counters: 17
12/11/07 22:05:24 INFO mapred.JobClient:   Job Counters
12/11/07 22:05:24 INFO mapred.JobClient:     Launched reduce tasks=1
12/11/07 22:05:24 INFO mapred.JobClient:     Launched map tasks=1
12/11/07 22:05:24 INFO mapred.JobClient:   FileSystemCounters
12/11/07 22:05:24 INFO mapred.JobClient:     FILE_BYTES_READ=926
12/11/07 22:05:24 INFO mapred.JobClient:     HDFS_BYTES_READ=474439229
12/11/07 22:05:24 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=1402
12/11/07 22:05:24 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=474438973
12/11/07 22:05:24 INFO mapred.JobClient:   Map-Reduce Framework
12/11/07 22:05:24 INFO mapred.JobClient:     Reduce input groups=7
12/11/07 22:05:24 INFO mapred.JobClient:     Combine output records=0
12/11/07 22:05:24 INFO mapred.JobClient:     Map input records=7
12/11/07 22:05:24 INFO mapred.JobClient:     Reduce shuffle bytes=0
12/11/07 22:05:24 INFO mapred.JobClient:     Reduce output records=0
12/11/07 22:05:24 INFO mapred.JobClient:     Spilled Records=14
12/11/07 22:05:24 INFO mapred.JobClient:     Map output bytes=424
12/11/07 22:05:24 INFO mapred.JobClient:     Map input bytes=569
12/11/07 22:05:24 INFO mapred.JobClient:     Combine input records=0
12/11/07 22:05:24 INFO mapred.JobClient:     Map output records=7
12/11/07 22:05:24 INFO mapred.JobClient:     Reduce input records=7

由上面的shell命令执行过程,在进行hadoop har文件归档的时候使用了MapReduce。需要注意的是:在创建archive文件后,源文件不会被更改或者删除。archive作为文件系统暴漏给外界。所以所有的fs shell命令都能在archive上运行,但是需要使用不同的URI。另外注意的是archive是不可改变的。所以重命名、删除和创建都会返回错误。

hadoop archive的URI是:

har://scheme-hostname:port/archivepath/fileinarchive。

如果想查看刚创建的归档文件,可以执行以下命令:

$ hadoop fs -lsr har:///tmp/geoway_portal.har
drw-r--r--   - Administrator supergroup          0 2012-11-07 22:05 /tmp/geoway_
portal.har/user
drw-r--r--   - Administrator supergroup          0 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator
drw-r--r--   - Administrator supergroup          0 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator/geoway_portal
-rw-r--r--  10 Administrator supergroup  419438592 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator/geoway_portal/SDE.DBF
-rw-r--r--  10 Administrator supergroup   54993818 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator/geoway_portal/likehua.zip
-rw-r--r--  10 Administrator supergroup       6144 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator/geoway_portal/tes2.dmp

分享到:
评论

相关推荐

    hadoop 归档源代码

    归档(Archiving)在Hadoop中通常指的是将大量的小文件进行合并,以提高HDFS(Hadoop Distributed File System)的存储效率和MapReduce操作的性能。在"hadop 归档源代码"中,我们可以深入理解Hadoop如何实现这一功能...

    hadoop命令大全.pdf

    - `hadoop archive`:用于创建Hadoop归档文件,用于优化HDFS上的小文件存储。 - `hadoop distcp`:分布式复制,可以在HDFS集群之间复制大量数据。 - `hadoop fs`:执行文件系统命令,如查看目录、删除文件等。 -...

    Hadoop分布式文件系统使用.pdf

    1. **文件上传**:当客户端想要上传一个文件到HDFS时,它首先会联系NameNode查询该文件是否已经存在,如果不存在,则向NameNode申请创建新的文件。NameNode会记录下这个文件的元数据信息,并返回给客户端。 2. **...

    hadoop源代码打包归档

    5. **打包归档**:编译完成后,可以使用Maven的`assembly:single`或者`jar:jar`插件创建归档文件,如tar.gz或zip格式,这包含了所有必要的库和配置文件,以便在目标环境中部署。 6. **配置调整**:在打包前,可能...

    Hadoop分布式文件系统使用指南

    ### Hadoop分布式文件系统使用指南 #### 一、Hadoop分布式文件系统简介 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,它为海量数据提供了高吞吐量访问的能力,非常适合大规模数据集上的应用。HDFS的...

    hadoop 历史源代码归档

    1. **Hadoop简介**:Hadoop是一个由Apache基金会开发的开源项目,最初由Doug Cutting和Mike Cafarella在2005年创建,灵感来源于Google的MapReduce和GFS(Google文件系统)论文。它是一个分布式计算框架,用于处理和...

    hadoop-tools:用于Hadoop工具,在编写时要考虑性能

    首先,`hadoop-tools`包含了多个子项目,如`hadoop-distcp`(分布式复制)、`hadoop-fs`(文件系统操作工具)、`hadoop-archive`(创建Hadoop归档文件,类似于tar)等。这些工具提供了对HDFS的便捷操作,例如数据...

    Hadoop权威指南 第二版(中文版)

     使用Hadoop归档文件  不足 第4章 Hadoop I/O  数据完整性  HDFS的数据完整性  LocalFileSystem  ChecksumFileSystem  压缩  codec  压缩和输入切分  在MapReduce中使用压缩  序列化  Writable接口  ...

    Hadoop权威指南(中文版)2015上传.rar

    使用Hadoop归档文件 不足 第4章 Hadoop I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem 压缩 codec 压缩和输入切分 在MapReduce中使用压缩 序列化 Writable接口 Writable类 实现定制的...

    10、HDFS小文件解决方案-Archive

    **创建Hadoop Archive的步骤** 1. **命令行工具**:`hadoop archive` 是用来创建HAR文件的命令行工具。它使用MapReduce任务执行归档过程。 2. **命令格式**:`hadoop archive -archiveName <name> -p <parent> * ...

    hadoop-lzo-0.4.21-SNAPSHOT.jar

    hadoop-lzo-0.4.21-SNAPSHOT.jar是该工具的Java归档(JAR)文件,它是Hadoop LZO的核心组件,包含了实现LZO压缩和解压缩功能的所有类和库。这个JAR文件需要添加到Hadoop的类路径(classpath)中,以便Hadoop集群能够...

    hadoop面试题汇总

    - **解释**: 处理小文件的有效方法包括归档文件、多Master设计、调整Block大小等,但将文件系统元数据存放到硬盘中并不是一个好的解决方案。 #### 18. HDFS文件写入机制 - **知识点**: HDFS支持的数据写入机制。 - ...

    Hadoop关于处理大量小文件的问题和解决方法.docx

    HAR文件通过MapReduce任务将小文件打包成一个大的归档文件,从而减少NameNode的内存负担。客户端可以像访问普通文件一样访问HAR文件,但读取效率较低,因为需要额外的索引查找步骤。尽管HAR文件可以作为MapReduce...

    Hadoop命令手册

    用于创建Hadoop存档文件,其格式通常为`.har`。通过这种方式,可以将多个文件打包成一个单一的归档文件,以便更高效地传输和访问。 - **用法**: `hadoop archive -archiveName NAME <src>... <dest>` - **选项**: -...

    文件归档系统

    此外,随着大数据和云计算的发展,现代文件归档系统还可能涉及大数据处理技术,如Hadoop或Spark,以及云存储服务,如Amazon S3或Google Cloud Storage。 总之,文件归档系统是信息时代不可或缺的基础设施,它不仅有...

    hadoop3.1以及jdk1.8

    同时,对于"01_jar包",这可能是指包含Hadoop相关应用程序或工具的Java归档文件,它们可以用于执行特定的任务,例如数据分析或数据迁移。在集群中运行这些jar包,通常使用Hadoop的命令行工具`hadoop jar`。

    Centos7中安装hadoop资源包

    我们有`hadoop-3.1.4.tar.gz`,这是一个归档文件,可以使用以下命令解压: ```bash tar -zxvf hadoop-3.1.4.tar.gz -C /opt/ ``` 这会将Hadoop解压到`/opt/hadoop-3.1.4`目录下。为了方便操作,创建一个软链接: ...

    win10环境下hadoop-3.3.1编译后的源码包

    - 编译完成后,源码会被打包成`hadoop-3.3.1.tar.gz`这样的归档文件,包含了Hadoop的所有源代码、文档和库文件。 - 解压后,你可以研究源码、进行本地开发、调试或定制Hadoop功能。 7. **使用编译后的源码**: -...

    Hadoop权威指引-中文版前三章.pdf

    - HDFS提供命令行接口和Java API供用户操作,包括文件创建、读取、删除等操作,以及通过`distcp`进行并行复制和Hadoop归档文件的使用。 书中的内容还涉及Hadoop的I/O特性,如数据完整性、压缩和序列化,以及...

Global site tag (gtag.js) - Google Analytics