使用Hadoop har归档历史文件（小文件）

heipark

浏览: 2101883 次
性别:
来自: 北京

最近访客更多访客>>

chenlmnet

ninedragon

w11h22j33

lbyzx123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

hadoop har

应用场景

我们的hdfs中保存大量小文件（当然不产生小文件是最佳实践），这样会把namenode的namespace搞的很大。namespace保存着hdfs文件的inode信息，文件越多需要的namenode内存越大，但内存毕竟是有限的（这个是目前hadoop的硬伤）。

下面图片展示了，har文档的结构。har文件是通过mapreduce生成的，job结束后源文件不会删除。

har命令说明

参数“-p”为src path的前缀
src可以写多个path

archive -archiveName NAME -p <parent path> <src>* <dest>

生成HAR文件

单个src文件夹：

hadoop archive -archiveName 419.har -p /fc/src/20120116/ 419 /user/heipark

多个src文件夹

hadoop archive -archiveName combine.har -p /fc/src/20120116/ 419 512 334 /user/heipark

不指定src path，直接归档parent path（本例为“ /fc/src/20120116/ ”， “ /user/heipark ”仍然为输出path），这招是从源码里翻出来的，嘿嘿。

hadoop archive -archiveName combine.har -p /fc/src/20120116/ /user/heipark

使用模式匹配的src path，下面的示例归档10、11、12月文件夹的数据。这招也是从源码发出来的。

hadoop archive -archiveName combine.har -p /fc/src/2011 1[0-2] /user/heipark

查看HAR文件

hadoop fs -ls har:////user/heipark/20120108_15.har/
#输出如下：
drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2025
drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2029

#使用hdfs文件系统查看har文件
hadoop fs -ls /user/yue.zhang/20120108_15.har/
#输出如下：
-rw-r--r-- 2 hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/_SUCCESS
-rw-r--r-- 5 hdfs hadoop 2411 2012-01-17 16:30 /user/heipark/20120108_15.har/_index
-rw-r--r-- 5 hdfs hadoop 24 2012-01-17 16:30 /user/heipark/20120108_15.har/_masterindex
-rw-r--r-- 2 hdfs hadoop 191963 2012-01-17 16:30 /user/heipark/20120108_15.har/part-0

Har Java API (HarFileSystem )

public static void main(String[] args) throws Exception {
	Configuration conf = new Configuration();
	conf.set("fs.default.name", "hdfs://xxx.xxx.xxx.xxx:9000");
		
	HarFileSystem fs = new HarFileSystem();
	fs.initialize(new URI("har:///user/heipark/20120108_15.har"), conf);
	FileStatus[] listStatus = fs.listStatus(new Path("sub_dir"));
	for (FileStatus fileStatus : listStatus) {
		System.out.println(fileStatus.getPath().toString());
	}
}

参考文章：

http://denqiang.com/?m=20111114

http://c.hocobo.net/2010/08/05/har/

-- heipark

查看图片附件

0
顶

0
踩

分享到：

Java内存参数设置笔记 | eclipse使用hadoop源码调试程序

2012-01-18 11:25
浏览 18519
评论(2)
分类:企业架构
查看更多

2 楼 heipark 2012-11-09

superlxw1234 写道

请教一下，如果是一个hive表对应的小文件太多，能不能使用har来归档并且不影响该表的访问呢？

我使用mapreduce读取har文件没有成功，尽管官方说这很容易。

既有系统里很多小文件，会影响集群性能，还是建议从源头解决，不要让小文件进入HDFS，这样才能根本解决问题。

1 楼 superlxw1234 2012-11-07

请教一下，如果是一个hive表对应的小文件太多，能不能使用har来归档并且不影响该表的访问呢？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论