lihaosu

浏览: 1505 次

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1)

社区版块

存档分类

2015-10 ( 1)
更多存档...

最近在筹备hadoop，测试集群只有普通的6个虚拟机，每个1G内存，100G硬盘。所以在yarn进行资源调度的时候比较纠结，硬盘空间也有限。在执行作业的时候就希望能够尽量对输入数据进行压缩。 hadoop可以直接处理gz格式的压缩文件，但不会产生split，而是不论多大都直接交给一个Mapper去做，因为gz在算法上不支持split。虽然bzip2支持split，但压缩速度又比较慢，gz可以说是最常用的压缩方式了。一开始想当然的尝试压缩分卷，结果当然是失败，因为不管分多少个卷，gz还是要以一个整体来进行解压。因为我只是处理文本数据，而且都是基于文本行，每一行之间不像xml那样会具 ...

2015-10-21 13:48
浏览 1505
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

一个适合MapReduce处理的gz压缩方式

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

一个适合MapReduce处理的gz压缩方式

最近访客更多访客>>