`
heipark
  • 浏览: 2097266 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

使用Hadoop har归档历史文件(小文件)

阅读更多

应用场景

我们的hdfs中保存大量小文件(当然不产生小文件是最佳实践),这样会把namenode的namespace搞的很大。namespace保存着hdfs文件的inode信息,文件越多需要的namenode内存越大,但内存毕竟是有限的(这个是目前hadoop的硬伤)。

下面图片展示了,har文档的结构。har文件是通过mapreduce生成的,job结束后源文件不会删除。

 

 

har命令说明

  1.   参数“-p”为src path的前缀
  2.   src可以写多个path

 

archive -archiveName NAME -p <parent path> <src>* <dest>

生成HAR文件

  • 单个src文件夹:

 

hadoop archive -archiveName 419.har -p /fc/src/20120116/ 419 /user/heipark
  • 多个src文件夹
hadoop archive -archiveName combine.har -p /fc/src/20120116/ 419 512 334 /user/heipark
  • 不指定src path,直接归档parent path(本例为“ /fc/src/20120116/ ”, “ /user/heipark ”仍然为输出path),这招是从源码里翻出来的,嘿嘿。
hadoop archive -archiveName combine.har -p /fc/src/20120116/ /user/heipark

  •  使用模式匹配的src path,下面的示例归档10、11、12月文件夹的数据。这招也是从源码发出来的。
hadoop archive -archiveName combine.har -p /fc/src/2011 1[0-2] /user/heipark
 

查看HAR文件

hadoop fs -ls har:////user/heipark/20120108_15.har/
#输出如下:
drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2025
drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2029

 


#使用hdfs文件系统查看har文件
hadoop fs -ls /user/yue.zhang/20120108_15.har/
#输出如下:
-rw-r--r-- 2 hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/_SUCCESS
-rw-r--r-- 5 hdfs hadoop 2411 2012-01-17 16:30 /user/heipark/20120108_15.har/_index
-rw-r--r-- 5 hdfs hadoop 24 2012-01-17 16:30 /user/heipark/20120108_15.har/_masterindex
-rw-r--r-- 2 hdfs hadoop 191963 2012-01-17 16:30 /user/heipark/20120108_15.har/part-0

 

Har Java API (HarFileSystem )

 

public static void main(String[] args) throws Exception {
	Configuration conf = new Configuration();
	conf.set("fs.default.name", "hdfs://xxx.xxx.xxx.xxx:9000");
		
	HarFileSystem fs = new HarFileSystem();
	fs.initialize(new URI("har:///user/heipark/20120108_15.har"), conf);
	FileStatus[] listStatus = fs.listStatus(new Path("sub_dir"));
	for (FileStatus fileStatus : listStatus) {
		System.out.println(fileStatus.getPath().toString());
	}
}

 

 

参考文章:

http://denqiang.com/?m=20111114

http://c.hocobo.net/2010/08/05/har/

 

 

-- heipark

 

 

 

 

 

  • 大小: 29.2 KB
0
0
分享到:
评论
2 楼 heipark 2012-11-09  
superlxw1234 写道
请教一下,如果是一个hive表对应的小文件太多,能不能使用har来归档并且不影响该表的访问呢?


我使用mapreduce读取har文件没有成功,尽管官方说这很容易。

既有系统里很多小文件,会影响集群性能,还是建议从源头解决,不要让小文件进入HDFS,这样才能根本解决问题。
1 楼 superlxw1234 2012-11-07  
请教一下,如果是一个hive表对应的小文件太多,能不能使用har来归档并且不影响该表的访问呢?

相关推荐

    基于LZO的Hadoop文件归档优化方法.docx

    文件归档是Hadoop中管理大量历史数据的重要手段,它可以将不再频繁访问的数据转移到更经济的存储介质上,以节省昂贵的主存储空间。然而,原始的Hadoop文件归档存在一些问题,如数据访问效率低、存储开销大等。 三、...

    hadoop 归档源代码

    Hadoop的归档工具,通常称为Hadoop Archive(HAR),允许用户将多个小文件打包成一个大文件,这个大文件可以看作是一个虚拟目录结构,其中包含了原来小文件的信息。HAR文件是由Hadoop的档案工具创建的,它不是一个...

    hadoop的默认配置文件

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在廉价硬件上处理大量数据,提供了高可靠性、高扩展性和高效能的数据...在Hadoop的运维过程中,正确理解和使用这些配置文件是确保系统高效运行的关键。

    hadoop处理海小文件的改进方法

    ### hadoop处理海量小文件的改进方法 #### 一、引言 随着互联网技术的快速发展,数据量呈现出爆炸性增长趋势。在大数据处理领域,Hadoop作为一种流行的分布式计算框架,被广泛应用于各种大规模数据处理场景中。...

    hadoop的dll文件 hadoop.zip

    在提供的信息中,我们关注的是"Hadoop的dll文件",这是一个动态链接库(DLL)文件,通常在Windows操作系统中使用,用于存储可由多个程序共享的功能和资源。Hadoop本身是基于Java的,因此在Windows环境下运行Hadoop...

    hadoop源码归档.zip

    很抱歉,根据您提供的文件信息,"hadoop源码归档.zip"的描述中并没有包含任何与Hadoop源码相关的具体知识点。标签虽然指出了"Hadoop",但压缩包内的文件名称列表却与Hadoop或者IT技术无关,而是包含了各种文化和法律...

    Hadoop示例程序合并文件

    在Hadoop环境中,文件合并通常涉及使用MapReduce作业。这个示例程序可能包含以下步骤: - 分割输入文件:首先,HDFS会根据预设的块大小(通常是128MB或256MB)将输入文件分割为多个数据块。 - 数据分布:这些数据...

    HadoopHA集群配置文件

    本文将深入探讨Hadoop HA(高可用性)集群的配置文件,包括`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`、`yarn-site.xml`以及`slaves`文件,这些都是确保Hadoop集群稳定运行的基础。 1. `core-site.xml`:...

    hadoop2.8 window支持bin文件

    总的来说,"hadoop2.8 window支持bin文件"意味着在Windows环境下安装和配置Hadoop 2.8时,你需要关注"bin"目录的替换,确保正确设置环境变量,配置Hadoop的XML配置文件,并理解如何使用命令行工具与Hadoop集群交互。...

    hadoop/bin目录文件,含hadoop.dll + winutils.exe

    至于压缩包子文件“9.pptx”,可能是关于Hadoop、Spark在Windows环境下的使用教程或者介绍资料,可能包含了如何配置Hadoop环境、如何使用winutils.exe以及如何在Windows 7上开发和调试Spark应用程序等内容。...

    springmvc+hadoop+maven实现文件上传至hdfs

    在本项目中,我们结合了SpringMVC、Hadoop和Maven这三个技术,构建了一个能够实现文件从Web端上传到HDFS(Hadoop Distributed File System)的系统。下面将详细阐述这三个技术及其在项目中的应用。 首先,SpringMVC...

    Hadoop2.6.4/2.7.3环境配置文件

    根据提供的文件信息,本文将详细解析Hadoop 2.6.4/2.7.3环境配置的关键步骤,包括Linux开发环境的搭建、JDK安装、以及如何创建一个Hadoop虚拟集群。 ### 一、Linux开发环境搭建 #### 1. 准备工具 - **VMware ...

    上传文件到Hadoop失败的原因分析及解决方法.pdf

    Hadoop 文件上传失败原因分析及解决方法 本文主要讨论了在 Java Web 程序中上传文件到 Hadoop HDFS 文件系统中失败的原因分析及解决方法。通过对问题的分析和解决,可以总结出以下知识点: 1. Hadoop 文件上传失败...

    hadoop web tomcat上传文件

    在IT行业中,构建一个能够通过Web接口上传文件到Hadoop集群的应用是一项常见的需求。这个场景中,"hadoop web tomcat上传文件" 提供了一个基于Web的解决方案,它利用了Apache Tomcat作为Web服务器和Hadoop生态系统来...

    hadoop2.7.2安装依赖文件.zip

    DLL文件通常包含了可被多个程序同时使用的函数和其他资源,对于Hadoop而言,它可能包含了与文件系统操作、网络通信等相关的功能实现。 `winutils.exe`是Hadoop在Windows上的一个工具,类似于Linux环境下的`hadoop`...

    Hadoop 2.2.0 配置文件

    - `etc/hadoop/mapred-site.xml`:MapReduce框架的配置,包括作业历史服务器地址(`mapreduce.jobhistory.address`)和JobTracker的内存设置(`mapreduce.map.memory.mb`,`mapreduce.reduce.memory.mb`)。...

    Hadoop3.1.3 配置文件

    在实际部署和使用Hadoop3.1.3时,正确配置这些文件至关重要,因为它们直接影响到集群的性能、稳定性和可扩展性。配置时需要根据硬件资源、数据量和应用需求进行适当调整。同时,还需要注意配置文件的版本兼容性,...

    hadoop.dll 文件

    首先,`hadoop.dll`是Hadoop针对Windows平台编译的本地动态链接库文件,它包含了Hadoop的一些核心本地方法,主要用于处理文件系统操作、网络通信等底层功能。在Hadoop的源代码中,这些本地方法通常由C或C++编写,并...

Global site tag (gtag.js) - Google Analytics