转载请标明出处:http://blackwing.iteye.com/blog/1943575
之前为HBase增加SNAPPY压缩的一篇文章:http://blackwing.iteye.com/blog/1942037
本以为这样hbase就能使用SNAPPY了,但发现RS的log不停报错:
IOException: Compression algorithm 'snappy' previously failed test
根据官方教程再做一遍:http://hbase.apache.org/book/snappy.compression.html
还是报错,后来发现差异。服务器安装的是ubuntu 64位版本,在hadoop的lib/native/下是Linux-amd64-64文件夹,而在HBase的lib/native目录下默认却是Linux-i386-32,我就是把hadoop和snappy的native so文件拷贝到Linux-i386-32下。
所以在hbase的lib/natvie下新建Linux-amd64-64,再把hadoop、snappy的so文件拷过来,重启hbase,再创建表:
create 'snappy',{NAME=>'t',COMPRESSION=>'SNAPPY'}
rs的log正常,跟着写入数据,flush后,看到已经正常压缩,rs log无错误。到此终于完整了整合snappy。
PS:确保HBASE能正确加载codec,可以在hbase-site.xml中配置:
<property>
<name>hbase.regionserver.codecs</name>
<value>snappy</value>
</property>
这样设置后,hbase启动就会检查,如果不能正确加载,rs会启动失败,正常启动则说明加载成功,比较保险。
分享到:
相关推荐
标题中的“Hbase设置Snappy压缩测试”表明我们要探讨的是如何在HBase中配置Snappy压缩,这是一种常见的数据压缩技术,常用于提升大数据存储和处理的效率。Snappy以其较高的解压速度和较低的压缩率著称,尤其适用于...
本篇文章将介绍 Snappy 压缩算法在 Hadoop 集群上的安装配置过程,并分享一些遇到的问题和解决方案。 一、 Snappy 压缩算法介绍 Snappy 是一种面向大数据处理的压缩算法,由 Google 开发,主要特点是高压缩比和...
在HBase中,可以设置表的存储层(StoreFile)使用Snappy压缩,提高数据读取效率。在Spark中,可以通过配置数据源参数来指定Snappy压缩,以优化数据的存储和传输。 总的来说,Hadoop 2.7.2对Snappy压缩的支持为大...
3. **跨平台兼容**:描述中提到该版本适用于Windows本地开发,这意味着Snappy在Windows环境下同样能够运行,解决了开发者在非Linux环境下使用Hadoop的难题。 在Windows上部署Hadoop和Snappy需要注意以下几点: 1. ...
1 介绍 大数据时代,海量数据的存储和分析是一个巨大的挑战...主流的HBase压缩方式有LZO和Snappy,Snappy的压缩比会稍微优于LZO,具体的对比,可参考这篇文章:http://www.cnblogs.com/zhengrunjian/p/4527165.html Sna
我们需要在`hbase-site.xml`中设置`hbase.regionserver.blockcompress.table.default`为true,启用默认的表压缩,并将`hbase.hregion.majorcompaction.compress`设置为Snappy,确保大范围合并时也使用Snappy压缩。...
总结,Hadoop与Snappy的结合为大数据处理提供了高效的压缩解决方案。了解并掌握Snappy的编译和在HBase中的应用,有助于提升Hadoop和HBase系统的性能,优化数据存储和处理流程,更好地应对大数据时代的挑战。
综上所述,"hadoop snappy编译安装包"是一个针对Hadoop 2.4.1和HBase 0.98.3优化的数据压缩解决方案,旨在提升大数据处理的效率。通过编译和正确部署Snappy,可以充分利用其优势,优化大数据系统的性能。
反之,如果需要将位图数据存储到数据库中,那么为了节省存储空间,可以考虑使用压缩率较高的GZIP算法。 综上所述,对于不同的应用场景和需求,选择合适的压缩算法非常重要。在选择时要综合考虑压缩率、压缩速度、...
- **压缩算法**:推荐使用SNAPPY压缩算法,以提高数据存储和检索的效率。 - **过滤器选择**:依据具体的业务场景选择合适的过滤器,以提高查询效率。 - **version版本数**:建议不超过3个版本,仅需最新数据时可设为...
首先,为什么要在Hadoop中使用压缩呢?大数据环境下存储的海量数据需要占据大量的磁盘空间,并且在进行数据传输时也会消耗较多的带宽资源。通过压缩技术,能够有效地减少存储需求和网络带宽的占用。然而,压缩和解...
Snappy is a compression/decompression library. It does not aim for maximum compression, or compatibility with any other compression library; instead, it aims for very high speeds and reasonable ...
本文将深入探讨如何进行HBase的安装、节点的添加与移除,以及如何解决常见的问题。 首先,Hadoop是HBase的基础,因此在安装HBase之前,必须先确保Hadoop环境已经正确配置并稳定运行。对于`hadoop-2.5.2-hbase-...
HBase是建立在Hadoop文件系统(HDFS)之上,为处理大规模数据提供了一个高效的数据存储解决方案。而Spring Data Hadoop是Spring框架的一部分,它提供了与Hadoop生态系统集成的工具,包括对HBase的操作支持。本篇文章...
在使用压缩功能前,需要先禁用表,修改完成后使用enable命令恢复。 以上操作涵盖了HBase的基本操作命令,从创建表、管理表结构、数据的增删改查到表的管理,能够满足大多数对HBase的基本操作需求。通过这些操作,...
### HBase 安装与使用知识点详解 #### 概述 HBase 是一款构建于 Hadoop 之上的分布式、可扩展的大规模数据存储系统。它提供了类似 Google BigTable 的功能特性,非常适合处理海量数据和高并发读写需求的应用场景。...
CompressionTest Tool C.2. hbase.regionserver.codecs C.3. LZO C.4. GZIP C.5. SNAPPY C.6. Changing Compression Schemes D. YCSB: The Yahoo! Cloud Serving Benchmark and HBase E. HFile format version 2 E....
为了在Hadoop项目中使用HBase进行明细查询,我们需要依赖特定的jar包。这些jar包包含了HBase运行所需的所有类库和函数,使得开发者可以在应用程序中调用HBase的相关API来操作数据。 首先,我们要理解HBase的架构。...
HBase 2.x之RIT问题解决 HBase 2.x中的Region-In-Transition(RIT)机制是一种Region状态变迁机制,例如merge、split、assign、unassign等操作。在RIT过程中,可能会出现异常情况,从而导致Region的状态一直保持在...