在将mysql数据导入到hbase数据的过程中,发现hbase的数据容量增加很快,
原本在mysql存储30G容量的数据导入到hbase一直增加到快150G(还未完全导入,手动结束),
而采用默认3个备份储存的话,基本上真个集群有450G的容量。
查看了一些资料,发现hbase的储存确实耗空间,一般hbase采用压缩算法来解决,其中snappy
的算法收到Google的推崇,而且CDH中,直接安装了snappy的库,所以直接用了。
hbase> disable 'test'
hbase> alter 'test', {NAME => 'cf', COMPRESSION => 'SNAPPY'}
hbase> enable 'test'
使用后,没有立即生效,按照一些资料执行major_compact命令后,也没有发现生效,
但是过了一段时间以后发现表的容量变化了,压缩前原本150G,压缩后15G左右(查资料压缩率最好效果22%左右,这个还没有大量测试)
效果还比较明显。
相关推荐
标题中的“Hbase设置Snappy压缩测试”表明我们要探讨的是如何在HBase中配置Snappy压缩,这是一种常见的数据压缩技术,常用于提升大数据存储和处理的效率。Snappy以其较高的解压速度和较低的压缩率著称,尤其适用于...
1 介绍 大数据时代,海量数据的存储和分析是一个巨大的挑战...主流的HBase压缩方式有LZO和Snappy,Snappy的压缩比会稍微优于LZO,具体的对比,可参考这篇文章:http://www.cnblogs.com/zhengrunjian/p/4527165.html Sna
我们需要在`hbase-site.xml`中设置`hbase.regionserver.blockcompress.table.default`为true,启用默认的表压缩,并将`hbase.hregion.majorcompaction.compress`设置为Snappy,确保大范围合并时也使用Snappy压缩。...
本文将深入探讨"Hadoop hbase支持snappy压缩jar包"的相关知识,包括Snappy的特性、如何编译以及如何在HBase中集成和使用。 一、Snappy压缩库介绍 Snappy是由Google开发的一种快速、轻量级的压缩和解压缩库,主要...
- **压缩算法**:推荐使用SNAPPY压缩算法,以提高数据存储和检索的效率。 - **过滤器选择**:依据具体的业务场景选择合适的过滤器,以提高查询效率。 - **version版本数**:建议不超过3个版本,仅需最新数据时可设为...
1. **数据压缩**:Snappy可以用于HDFS(Hadoop Distributed File System)中的数据压缩,减小存储空间,提高网络传输效率。 2. **MapReduce优化**:在MapReduce任务中,使用Snappy压缩可以减少数据传输时间和内存...
Hadoop 2.7.2对Snappy的支持意味着用户可以在HDFS(Hadoop Distributed File System)中存储Snappy压缩的数据块。这需要在配置文件中启用Snappy压缩,例如在`core-site.xml`中设置`io.compression.codecs`属性,添加...
在Hadoop和HBase这样的大数据处理框架中,Snappy被广泛采用,因为它能在保持较低CPU使用率的同时提供良好的压缩比。以下是对"hadop snappy编译安装包"的详细说明: 一、Snappy简介 Snappy是由Google开发的开源压缩...
- 修改customer表的base列族下的内容使用snappy压缩:`alter 'ns1:customer', {NAME => 'base'}, {COMPRESSION => 'snappy'}`。 在使用压缩功能前,需要先禁用表,修改完成后使用enable命令恢复。 以上操作涵盖了...
支持Snappy意味着在Hadoop存储层面上,可以使用Snappy算法对数据进行压缩,进而提升存储效率,减少对磁盘空间的需求,并且在一定程度上提升网络传输的效率。 在实际应用中,选择合适的压缩算法需要根据具体的业务...
HBase支持多种压缩算法,如GZ、LZO、Snappy等。 6. **并行操作**:通过MapReduce或Spark等工具进行批量数据处理,利用并行计算提升效率。 7. **HBase运维参考**:在提供的“hbase运维参考手册(项目实战).docx”文...
选择合适的压缩算法(如Snappy、LZO、GZ等)可以兼顾存储和计算的平衡。 5. **缓存策略**:HBase 使用BlockCache和MemStore来缓存数据,合理配置缓存大小和策略能显著提升读写速度。例如,热数据可以设置在缓存中,...
* 压缩算法:可以使用 Snappy 算法,相比 LZO 算法,压缩率接近,压缩效率稍高,解压效率高很多。 * inmemory:表在内存中存放,可以提高查询速度,但需要注意内存使用率。 * bloomfilter:根据应用需求,判断是否...
GZIP、LZO、Zippy/Snappy是三种广泛使用的数据压缩算法,每种算法都有其特定的应用场景和性能特点,合理选择压缩算法对于提升系统性能和节约资源至关重要。 首先,GZIP是一种广泛使用的文件压缩工具,它基于DEFLATE...
- 压缩:开启列族级别的压缩,如SNAPPY,可以显著减少存储空间,同时提高读取效率。 - Bloom Filter:启用Bloom Filter可以避免不必要的磁盘I/O,提高查询效率,但会占用额外的内存资源。 - BlockCache:优化Block...
2. 表和Column Family的压缩优化:支持更多压缩算法,如LZO、Snappy和Gzip,可以灵活配置以节省存储空间。 3. Coprocessor框架:允许用户自定义逻辑在服务器端运行,实现细粒度的数据处理和验证,提高效率。 4. 新的...
- 压缩:HBase支持多种数据压缩算法(如Snappy、GZIP等),能够显著减少存储空间,提高读写性能。 - 高可用性:HBase利用Hadoop的高可用性机制和ZooKeeper来保证集群服务的持续可用性,即使***r或RegionServer宕机,...
HBase支持多种压缩算法,例如Snappy、GZ等。在设计表结构时,需要根据数据的特点选择合适的压缩算法。 分区(Region Splitting)是HBase表设计的另一个关键点。HBase表在底层被切分为多个区域(Region),每个区域...
1. `hbase-create-snappy.hbase`:这个脚本可能用于创建一个使用Snappy压缩的HBase表。Snappy是一种快速的压缩算法,适用于大数据场景,能够提高数据读写效率。 2. `hbase-drop.hbase`:通常用于删除HBase中的表,...
压缩配置则可以用来减少存储空间和提高I/O效率,HBase提供了多种压缩算法,如Snappy和GZip等。 此外,HBase的Demo程序能够实现数据的导入导出,常见的操作包括: - CellCounter:统计HBase表中的单元格数量。 - ...