转载请标明来源:http://blackwing.iteye.com/blog/1942037
此前使用的是LZO,近期想着试试snappy的实力,snappy的安装可以参考另外一篇文章:http://blackwing.iteye.com/blog/1940933
HBase添加snappy压缩步骤如下:
1. 验证snappy是否正常安装:
找某个文件,对其进行压缩测试
hbase org.apache.hadoop.hbase.util.CompressionTest hbase-hadoop-regionserver.log snappy
如果正确安装snappy则会显示SUCCESS字眼
2. 为表增加snappy压缩
1) 先disable该表
2) 修改表定义
alter 'mytable',{NAME=>'cf1',COMPRESSION => 'snappy'}
3) enable 'mytable'
表中此前的数据,还没有压缩,如果要让整个表的数据都压缩,需要对表进行major compact:
major_compact 'mytable'
之后打开该表所在某个rs的web界面,在Region Name找到表所在行,看Metrics中的:
storefileUncompressedSizeMB=160, storefileSizeMB=66, compressionRatio=0.4125
就可以看得,压缩前后容量以及压缩比。
如果enable表时卡死,可以强行退出后,根据这篇文章处理:http://blackwing.iteye.com/blog/1914841
分享到:
相关推荐
创建一个表并写入数据,然后通过HBase的管理工具或者shell命令查看相应的Region Server,确认StoreFiles是否已使用Snappy压缩。 此外,HBase还支持其他压缩算法,如GZ和LZO。选择哪种压缩算法取决于你的具体需求,...
1 介绍 大数据时代,海量数据的存储和分析是一个巨大的挑战...主流的HBase压缩方式有LZO和Snappy,Snappy的压缩比会稍微优于LZO,具体的对比,可参考这篇文章:http://www.cnblogs.com/zhengrunjian/p/4527165.html Sna
我们需要在`hbase-site.xml`中设置`hbase.regionserver.blockcompress.table.default`为true,启用默认的表压缩,并将`hbase.hregion.majorcompaction.compress`设置为Snappy,确保大范围合并时也使用Snappy压缩。...
Snappy 压缩算法是一种高效的压缩算法,广泛应用于 Hadoop 和 HBase 等大数据处理系统中。 本篇文章将介绍 Snappy 压缩算法在 Hadoop 集群上的安装配置过程,并分享一些遇到的问题和解决方案。 一、 Snappy 压缩...
在HBase中,可以设置表的存储层(StoreFile)使用Snappy压缩,提高数据读取效率。在Spark中,可以通过配置数据源参数来指定Snappy压缩,以优化数据的存储和传输。 总的来说,Hadoop 2.7.2对Snappy压缩的支持为大...
2. 重启HBase集群,新配置将生效,所有新创建的表默认使用Snappy压缩。 总结,Hadoop与Snappy的结合为大数据处理提供了高效的压缩解决方案。了解并掌握Snappy的编译和在HBase中的应用,有助于提升Hadoop和HBase系统...
【标题】"hadoop3.x带snappy(可用于windows本地开发)"所涉及的知识点主要集中在Hadoop 3.0版本以及Snappy压缩算法在Windows环境下的应用。Hadoop是一个开源的大数据处理框架,由Apache软件基金会开发,它使得在...
HBase支持多种压缩算法,例如Snappy、GZ等。在设计表结构时,需要根据数据的特点选择合适的压缩算法。 分区(Region Splitting)是HBase表设计的另一个关键点。HBase表在底层被切分为多个区域(Region),每个区域...
* 压缩算法:可以使用 Snappy 算法,相比 LZO 算法,压缩率接近,压缩效率稍高,解压效率高很多。 * inmemory:表在内存中存放,可以提高查询速度,但需要注意内存使用率。 * bloomfilter:根据应用需求,判断是否...
GZIP、LZO、Zippy/Snappy是三种广泛使用的数据压缩算法,每种算法都有其特定的应用场景和性能特点,合理选择压缩算法对于提升系统性能和节约资源至关重要。 首先,GZIP是一种广泛使用的文件压缩工具,它基于DEFLATE...
在HBase的配置中,可以通过修改`hbase.regionserver.blockcache.compression`设置为`SNAPPY`来启用Snappy压缩。 五、编译安装Snappy 对于Hadoop 2.4.1和HBase 0.98.3,你需要确保你的环境中已经正确安装了Snappy库...
│ Hbase性能优化-配置snappy压缩 │ Hbase中索引的介绍 │ PHoenix的编译及安装部署 │ PHoenix与Hbase表的关联使用 ├─03_笔记 │ [案例:Hbase的设计及企业优化].txt ├─04_代码 │ └─微博案例 ├─08_作业 ...
不过,HBase在默认配置下不支持Snappy压缩算法,由于版权问题,HBase在安装时并不包含所有可能的压缩库。例如,使用Hadoop自带的checknative工具可以发现系统当前支持哪些压缩库。通常情况下,snappy的so文件不会被...
1. `hbase-create-snappy.hbase`:这个脚本可能用于创建一个使用Snappy压缩的HBase表。Snappy是一种快速的压缩算法,适用于大数据场景,能够提高数据读写效率。 2. `hbase-drop.hbase`:通常用于删除HBase中的表,...
压缩配置则可以用来减少存储空间和提高I/O效率,HBase提供了多种压缩算法,如Snappy和GZip等。 此外,HBase的Demo程序能够实现数据的导入导出,常见的操作包括: - CellCounter:统计HBase表中的单元格数量。 - ...
- 修改customer表的base列族下的内容使用snappy压缩:`alter 'ns1:customer', {NAME => 'base'}, {COMPRESSION => 'snappy'}`。 在使用压缩功能前,需要先禁用表,修改完成后使用enable命令恢复。 以上操作涵盖了...
HBase支持多种压缩算法,如GZ、LZO、Snappy等。 6. **并行操作**:通过MapReduce或Spark等工具进行批量数据处理,利用并行计算提升效率。 7. **HBase运维参考**:在提供的“hbase运维参考手册(项目实战).docx”文...
* 启用压缩:使用GZIP、Snappy、LZO等压缩算法可以提高HBase的性能 * MemStore缓存配置: MemStore缓存可以提高HBase的性能 * Region拆分和合并:预建分区可以避免自动split,提高HBase的响应速度 * Region均衡:...
- 压缩:HBase支持多种数据压缩算法(如Snappy、GZIP等),能够显著减少存储空间,提高读写性能。 - 高可用性:HBase利用Hadoop的高可用性机制和ZooKeeper来保证集群服务的持续可用性,即使***r或RegionServer宕机,...