- 浏览: 2094893 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (366)
- hadoop (91)
- DB (2)
- vmware (0)
- python (49)
- Java (72)
- Linux (57)
- 多线程 (2)
- hive (1)
- hbase (3)
- mongodb (5)
- Hibernate (3)
- nodejs (1)
- 模式与重构 (1)
- 持续集成CI (4)
- Mysql (2)
- chorme (1)
- 软件开发 (0)
- 敏捷 (5)
- maven (3)
- windows (7)
- 测试驱动 (1)
- scala (3)
- Jetty (0)
- android (1)
- eclipse (1)
- 设计模式 (1)
- 面向对象设计 (2)
- oracle (3)
- cassandra (15)
- pig (3)
- rails (1)
- redis (4)
- ruby (1)
- storm (0)
- 实时运算 (3)
- scribe (1)
- hadoop源码 (3)
- cassandra jna (1)
- Kafka (2)
- Sublime (2)
- C++ (2)
- C (1)
- 版本控制 (1)
- 服务器 (1)
- docker (0)
- flink (1)
最新评论
-
伍大都督:
解释太到位了,感谢分享
理解Linux系统中的load average(图文版) -
rfjian123:
非常感谢,用你的方法解决了问题。
Server sent unexpected return value (403 Forbidden) in response to OPTIONS -
yuhaifei12:
今天遇到同样的问题了。设置的是每分钟执行一次。结果发现每分钟执 ...
解决Linux下crontab同一时间重复执行问题 -
BigBird2012:
想问一下,使用ExecutorService每次都要调用 sh ...
spring quartz使用多线程并发“陷阱” -
zhuqx1130:
有用,谢谢
解决Sublime Text 3中文显示乱码(tab中文方块)问题
应用场景
我们的hdfs中保存大量小文件(当然不产生小文件是最佳实践),这样会把namenode的namespace搞的很大。namespace保存着hdfs文件的inode信息,文件越多需要的namenode内存越大,但内存毕竟是有限的(这个是目前hadoop的硬伤)。
下面图片展示了,har文档的结构。har文件是通过mapreduce生成的,job结束后源文件不会删除。
har命令说明
- 参数“-p”为src path的前缀
- src可以写多个path
archive -archiveName NAME -p <parent path> <src>* <dest>
生成HAR文件
- 单个src文件夹:
hadoop archive -archiveName 419.har -p /fc/src/20120116/ 419 /user/heipark
- 多个src文件夹
hadoop archive -archiveName combine.har -p /fc/src/20120116/ 419 512 334 /user/heipark
- 不指定src path,直接归档parent path(本例为“ /fc/src/20120116/ ”, “ /user/heipark ”仍然为输出path),这招是从源码里翻出来的,嘿嘿。
hadoop archive -archiveName combine.har -p /fc/src/20120116/ /user/heipark
- 使用模式匹配的src path,下面的示例归档10、11、12月文件夹的数据。这招也是从源码发出来的。
hadoop archive -archiveName combine.har -p /fc/src/2011 1[0-2] /user/heipark
查看HAR文件
hadoop fs -ls har:////user/heipark/20120108_15.har/
#输出如下:
drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2025
drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2029
#输出如下:
drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2025
drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2029
#使用hdfs文件系统查看har文件
hadoop fs -ls /user/yue.zhang/20120108_15.har/
#输出如下:
-rw-r--r-- 2 hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/_SUCCESS
-rw-r--r-- 5 hdfs hadoop 2411 2012-01-17 16:30 /user/heipark/20120108_15.har/_index
-rw-r--r-- 5 hdfs hadoop 24 2012-01-17 16:30 /user/heipark/20120108_15.har/_masterindex
-rw-r--r-- 2 hdfs hadoop 191963 2012-01-17 16:30 /user/heipark/20120108_15.har/part-0
hadoop fs -ls /user/yue.zhang/20120108_15.har/
#输出如下:
-rw-r--r-- 2 hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/_SUCCESS
-rw-r--r-- 5 hdfs hadoop 2411 2012-01-17 16:30 /user/heipark/20120108_15.har/_index
-rw-r--r-- 5 hdfs hadoop 24 2012-01-17 16:30 /user/heipark/20120108_15.har/_masterindex
-rw-r--r-- 2 hdfs hadoop 191963 2012-01-17 16:30 /user/heipark/20120108_15.har/part-0
Har Java API (HarFileSystem )
public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); conf.set("fs.default.name", "hdfs://xxx.xxx.xxx.xxx:9000"); HarFileSystem fs = new HarFileSystem(); fs.initialize(new URI("har:///user/heipark/20120108_15.har"), conf); FileStatus[] listStatus = fs.listStatus(new Path("sub_dir")); for (FileStatus fileStatus : listStatus) { System.out.println(fileStatus.getPath().toString()); } }
参考文章:
http://denqiang.com/?m=20111114
http://c.hocobo.net/2010/08/05/har/
-- heipark
评论
2 楼
heipark
2012-11-09
superlxw1234 写道
请教一下,如果是一个hive表对应的小文件太多,能不能使用har来归档并且不影响该表的访问呢?
我使用mapreduce读取har文件没有成功,尽管官方说这很容易。
既有系统里很多小文件,会影响集群性能,还是建议从源头解决,不要让小文件进入HDFS,这样才能根本解决问题。
1 楼
superlxw1234
2012-11-07
请教一下,如果是一个hive表对应的小文件太多,能不能使用har来归档并且不影响该表的访问呢?
发表评论
-
cloudera CDH5 vmware中cloudera manager报错"Internal error while querying the Host "
2014-07-22 10:19 2045无法获取host和service状态,解决办法: s ... -
thrift0.9.1简单教程(包含Java服务端和Java、python客户端)
2014-04-25 15:55 6404一、Thrift Java服务端和客户端 官 ... -
yum错误“Error in PREUN scriptlet in rpm package ”
2014-03-10 12:07 3980打算通过yum安装软件,发展之前有软件残骸。使用yu ... -
搭建cloudera yum私服
2014-03-05 11:08 3203一、安装Cloudera yum仓库 1. 下载仓库rpm ... -
cloudera创建私服错误一例
2014-02-24 11:41 1370执行“reposync -r cloudera-cdh4 ” ... -
Cloudera Manager的Hadoop配置文件管理
2014-02-11 10:21 11453本文基于Cloudera Manager 4.8,以下简称 ... -
修改cloudera manager管理主机名(转)
2014-02-10 14:22 7642I installed the Cloudera Mana ... -
cloudera manager tasktrakcer监控状态错误
2014-02-10 11:32 1279此文用作图片外链。cloudera网站坑爹呀! -
cloudera manager 4.8 添加设备DNS反向解析问题
2014-01-28 16:20 3762添加设备时agent会使用host命令反向解析获取clou ... -
apache kafka v0.8入门遇到问题
2014-01-23 12:20 1666官方文档:https://kafka.apache.org/ ... -
hadoop2.0(cdh4) fs client错误"java.io.IOException: No FileSystem for scheme: hdfe"
2013-12-31 12:32 10052启动dfs client时候报错:“java.io.IOE ... -
Hadoop Combiner的几个调用时间点
2013-12-20 08:37 2963Combiner是在Map端被执行,共有两个时机会被触 ... -
hadoop1.0中NameNode HA的妥协方案
2013-12-10 16:26 1525hadoop1.0没有HA,可以添加NFS做为metada ... -
hdaoop2.x (CDH4、5)下使用DFS Client(包含HA)
2013-12-09 16:42 3312一、不使用HA场景 1.1 获取FileSystem(下 ... -
Hadoop学习指南
2013-11-26 14:26 1391安装配置 CDH4(hadoop2.0) 端口 C ... -
cloudera cdh中hadoop-client包的作用
2013-11-22 22:12 4113hadoop-client是为了让开发者可以很方便的使用当前 ... -
could only be replicated to 0 nodes instead of minReplication (=1)
2013-11-18 17:02 13918一、出现这个错误,先看看DN是不是正常启动并与NN通信,使用 ... -
Hadoop Pig获取HDFS文件名
2013-11-15 08:37 3214A = LOAD 'input' using PigS ... -
cloudera CDH5正式版(与CDH4比较)
2013-11-04 22:14 2514要求JDK7以上,JDK6不被支持 基于a ... -
Pig写UDF解析XML遇到一诡异错误“ClassNotFoundException”
2013-10-16 10:11 1277UDF中使用apache digester做XML解析,代码 ...
相关推荐
文件归档是Hadoop中管理大量历史数据的重要手段,它可以将不再频繁访问的数据转移到更经济的存储介质上,以节省昂贵的主存储空间。然而,原始的Hadoop文件归档存在一些问题,如数据访问效率低、存储开销大等。 三、...
Hadoop的归档工具,通常称为Hadoop Archive(HAR),允许用户将多个小文件打包成一个大文件,这个大文件可以看作是一个虚拟目录结构,其中包含了原来小文件的信息。HAR文件是由Hadoop的档案工具创建的,它不是一个...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在廉价硬件上处理大量数据,提供了高可靠性、高扩展性和高效能的数据...在Hadoop的运维过程中,正确理解和使用这些配置文件是确保系统高效运行的关键。
### hadoop处理海量小文件的改进方法 #### 一、引言 随着互联网技术的快速发展,数据量呈现出爆炸性增长趋势。在大数据处理领域,Hadoop作为一种流行的分布式计算框架,被广泛应用于各种大规模数据处理场景中。...
在提供的信息中,我们关注的是"Hadoop的dll文件",这是一个动态链接库(DLL)文件,通常在Windows操作系统中使用,用于存储可由多个程序共享的功能和资源。Hadoop本身是基于Java的,因此在Windows环境下运行Hadoop...
很抱歉,根据您提供的文件信息,"hadoop源码归档.zip"的描述中并没有包含任何与Hadoop源码相关的具体知识点。标签虽然指出了"Hadoop",但压缩包内的文件名称列表却与Hadoop或者IT技术无关,而是包含了各种文化和法律...
在Hadoop环境中,文件合并通常涉及使用MapReduce作业。这个示例程序可能包含以下步骤: - 分割输入文件:首先,HDFS会根据预设的块大小(通常是128MB或256MB)将输入文件分割为多个数据块。 - 数据分布:这些数据...
本文将深入探讨Hadoop HA(高可用性)集群的配置文件,包括`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`、`yarn-site.xml`以及`slaves`文件,这些都是确保Hadoop集群稳定运行的基础。 1. `core-site.xml`:...
总的来说,"hadoop2.8 window支持bin文件"意味着在Windows环境下安装和配置Hadoop 2.8时,你需要关注"bin"目录的替换,确保正确设置环境变量,配置Hadoop的XML配置文件,并理解如何使用命令行工具与Hadoop集群交互。...
至于压缩包子文件“9.pptx”,可能是关于Hadoop、Spark在Windows环境下的使用教程或者介绍资料,可能包含了如何配置Hadoop环境、如何使用winutils.exe以及如何在Windows 7上开发和调试Spark应用程序等内容。...
Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,它们各自都有自己的默认配置文件,这些配置文件是Hadoop运行时的重要组成部分。在你提到的压缩包文件中,我们能看到四个主要的默认配置...
在本项目中,我们结合了SpringMVC、Hadoop和Maven这三个技术,构建了一个能够实现文件从Web端上传到HDFS(Hadoop Distributed File System)的系统。下面将详细阐述这三个技术及其在项目中的应用。 首先,SpringMVC...
在IT行业中,构建一个能够通过Web接口上传文件到Hadoop集群的应用是一项常见的需求。这个场景中,"hadoop web tomcat上传文件" 提供了一个基于Web的解决方案,它利用了Apache Tomcat作为Web服务器和Hadoop生态系统来...
DLL文件通常包含了可被多个程序同时使用的函数和其他资源,对于Hadoop而言,它可能包含了与文件系统操作、网络通信等相关的功能实现。 `winutils.exe`是Hadoop在Windows上的一个工具,类似于Linux环境下的`hadoop`...
- `etc/hadoop/mapred-site.xml`:MapReduce框架的配置,包括作业历史服务器地址(`mapreduce.jobhistory.address`)和JobTracker的内存设置(`mapreduce.map.memory.mb`,`mapreduce.reduce.memory.mb`)。...
Hadoop 文件上传失败原因分析及解决方法 本文主要讨论了在 Java Web 程序中上传文件到 Hadoop HDFS 文件系统中失败的原因分析及解决方法。通过对问题的分析和解决,可以总结出以下知识点: 1. Hadoop 文件上传失败...
在搭建Hadoop集群的过程中,配置文件起着至关重要的作用,它们定义了集群的运行方式、节点间通信方式以及数据存储和处理的策略。本压缩包包含的文件是全面的Hadoop集群配置集合,旨在帮助用户顺利构建和管理自己的...
在实际部署和使用Hadoop3.1.3时,正确配置这些文件至关重要,因为它们直接影响到集群的性能、稳定性和可扩展性。配置时需要根据硬件资源、数据量和应用需求进行适当调整。同时,还需要注意配置文件的版本兼容性,...