1.what is snappy
2.why to use it
3.how it to work
4.compare to similar compressions
5.install it on hadoop
6.intall it on hbase
6.2 verify
a.
b.
c.use tool 'HFile'
hbase org.apache.hadoop.hbase.io.hfile.HFile -f /hbase/#tablename#/f7cd3ee8cd7c72f1789b018f6803e837/f1/3197441493d14fc791f49f80c07fe656 -v -m -p
summary like below:
Trailer:
fileinfoOffset=91187,
loadOnOpenDataOffset=90953,
dataIndexCount=3,
metaIndexCount=0,
totalUncomressedBytes=288046,
entryCount=3391,
compressionCodec=SNAPPY,
uncompressedDataIndexSize=184,
numDataIndexLevels=1,
firstDataBlockOffset=0,
lastDataBlockOffset=82295,
comparatorClassName=org.apache.hadoop.hbase.KeyValue$KeyComparator,
majorVersion=2,
minorVersion=0
7.conclusion
相关推荐
在Hadoop中,我们可以在`hadoop-common-site.xml`或`hadoop-default.xml`中设置`io.compression.codecs`属性,添加Snappy压缩算法。对于HBase,我们需要在`hbase-site.xml`中设置`hbase.regionserver.blockcompress....
同时,HBase还支持多种数据压缩算法,如Snappy和LZO,通过`Compression`模块的源码,可以了解其压缩和解压缩的实现细节。 最后,HBase的客户端API提供了丰富的数据操作接口,包括`HTable`和`HBaseAdmin`等。这些...
Snappy在Hadoop中的使用并不局限于MapReduce,它也适用于其他组件,如HBase和Spark。在HBase中,可以设置表的存储层(StoreFile)使用Snappy压缩,提高数据读取效率。在Spark中,可以通过配置数据源参数来指定Snappy...
例如,在Hadoop的`core-site.xml`中设置`io.compression.codecs`包含`org.apache.hadoop.io.compress.SnappyCodec`,在HBase的`hbase-site.xml`中启用Snappy压缩。 3. 重启Hadoop和HBase服务以使更改生效。 七、...
Compression In HBase C.1. CompressionTest Tool C.2. hbase.regionserver.codecs C.3. LZO C.4. GZIP C.5. SNAPPY C.6. Changing Compression Schemes D. YCSB: The Yahoo! Cloud Serving Benchmark and HBase E....
在表的属性配置中,InMemory和压缩(Compression)是非常重要的配置项。InMemory表示将热点数据加载到内存中,以加速访问速度。压缩配置则可以用来减少存储空间和提高I/O效率,HBase提供了多种压缩算法,如Snappy和...
- 修改customer表的base列族下的内容使用snappy压缩:`alter 'ns1:customer', {NAME => 'base'}, {COMPRESSION => 'snappy'}`。 在使用压缩功能前,需要先禁用表,修改完成后使用enable命令恢复。 以上操作涵盖了...
- `compression`: 列族的压缩类型,如GZ或SNAPPY。 - `dataBlockEncoding`: 数据块的编码方式。 - `inMemory`和`blockCacheEnabled`: 是否将数据存储在内存或缓存中。 - `blocksize`: 存储文件的块大小。 - `...
在`kylin.properties`文件中,找到`kylin.hbase.default.compression.codec`配置项,将其值从`snappy`改为`gzip`。这样设置后,Kylin将在HBase表中使用gzip进行数据压缩。 2. **修改kylin_hive_conf.xml配置**: ...
去除多余的`{NAME => '0',COMPRESSION => 'SNAPPY'}`是为了优化表的存储格式。 10. **Kerberos TGT问题**: - Kerberos TGT (Ticket Granting Ticket)的有效期问题可能导致离线计算无法进行。"credentials are no ...