hbase关于bloom filter使用

piaoling

浏览: 267438 次
性别:
来自: 上海

最近访客更多访客>>

jx_colin

hujiajuexue

xpenxpen

蛤蟆丸子

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hbase

1.Bloomfilter的原理？
可参考 http://hi.baidu.com/yizhizaitaobi/blog/item/cc1290a0a0cd69974610646f.html

2.Bloomfilter在HBase中的作用？
HBase利用Bloomfilter来提高随机读（Get）的性能，对于顺序读（Scan）而言，设置Bloomfilter是没有作用的（0.92以后，如果设置了bloomfilter为ROWCOL，对于指定了qualifier的Scan有一定的优化，但不是那种直接过滤文件，排除在查找范围的形式）

3.Bloomfilter在HBase中的开销？
Bloomfilter是一个列族（cf）级别的配置属性，如果你在表中设置了Bloomfilter，那么HBase会在生成StoreFile时包含一份bloomfilter结构的数据，称其为MetaBlock；MetaBlock与DataBlock（真实的KeyValue数据）一起由LRUBlockCache维护。所以，开启bloomfilter会有一定的存储及内存cache开销。

4.Bloomfilter如何提高随机读（Get）的性能？
对于某个region的随机读，HBase会遍历读memstore及storefile（按照一定的顺序），将结果合并返回给客户端。如果你设置了bloomfilter，那么在遍历读storefile时，就可以利用bloomfilter，忽略某些storefile。

5.HBase中的Bloomfilter的类型及使用？

a)ROW, 根据KeyValue中的row来过滤storefile
举例：假设有2个storefile文件sf1和sf2，
sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）
sf2包含kv3（r3 cf:q1 v）、kv4（r4 cf:q1 v）
如果设置了CF属性中的bloomfilter为ROW，那么get(r1)时就会过滤sf1，get(r3)就会过滤sf2

b)ROWCOL,根据KeyValue中的row+qualifier来过滤storefile
举例：假设有2个storefile文件sf1和sf2，
sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）
sf2包含kv3（r1 cf:q2 v）、kv4（r2 cf:q2 v）
如果设置了CF属性中的bloomfilter为ROW，无论get(r1,q1)还是get(r1,q2)，都会读取sf1+sf2；而如果设置了CF属性中的bloomfilter为ROWCOL，那么get(r1,q1)就会过滤sf2，get(r1,q2)就会过滤sf1

6.ROWCOL一定比ROW效果好么？
不一定

a)ROWCOL只对指定列（Qualifier）的随机读（Get）有效,如果应用中的随机读get，只含row，而没有指定读哪个qualifier，那么设置ROWCOL是没有效果的，这种场景就应该使用ROW

b)如果随机读中指定的列（Qualifier）的数目大于等于2，在0.90版本中ROWCOL是无效的，而在0.92版本以后，HBASE-2794对这一情景作了优化，是有效的（通过KeyValueScanner#seekExactly）

c)如果同一row多个列的数据在应用上是同一时间put的，那么ROW与ROWCOL的效果近似相同，而ROWCOL只对指定了列的随机读才会有效，所以设置为ROW更佳

7.ROWCOL与ROW只在名称上有联系，ROWCOL并不是ROW的扩展，不能取代ROW

8.region下的storefile数目越多，bloomfilter的效果越好

9.region下的storefile数目越少，HBase读性能越好

如有错误，谢谢指正！

分享到：

mapreduce作业单元测试 | hbase优化总结一

2012-09-06 14:05
浏览 4698
评论(1)
分类:数据库
查看更多

1 楼 smartzjp 2014-05-09

可以理解为如果每行数据的所有列都有值，而且列名都是相等的，这个时候设置rowCol是没有任何意义的？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

HBase使用的jar包: 利用Bloom Filter减少不必要的磁盘I/O；以及利用二级索引和Coprocessors进行复杂查询等。总之，HBase的jar包是我们在Hadoop项目中进行明细查询的关键。正确引入并使用这些jar包，可以让我们在大数据环境下高效地...

HBase官方文档中文版-HBase手册中文版: 3. Bloom Filter：减少无效磁盘I/O，提高查询效率。 4. Coprocessor：在Region服务器端实现业务逻辑，减少网络传输。六、HBase监控与故障恢复 1. 监控指标：包括内存使用、磁盘I/O、网络流量等，通过JMX和Hadoop ...

hbase-2.4.17-bin 安装包: 4. Bloom Filter：使用Bloom Filter可以减少不必要的磁盘I/O，提高查询性能。 5. Indexing：虽然HBase本身不支持索引，但可以通过第三方库如 phoenix 或 hbase-indexer 实现索引功能。六、监控与维护 1. 使用...

hbase shell常用命令汇总: {NAME => 'cl3', VERSIONS => 1, IN_MEMORY => false, BLOOMFILTER => ROW, COMPRESSION => 'NONE', DATA_BLOCK_ENCODING => NONE, TTL => FOREVER, KEEP_DELETED_CELLS => false, BLOCKCACHE => true, MIN_...

HBase多表关联查找资料: * bloomfilter：根据应用需求，判断是否需要精确到 rowkey 或 column， bloomfilter 可以对 region 下的 hfile 进行查询优化。 2. rowkey 设计 rowkey 是 HBase 的 key-value 存储中的 key，通常使用用户要查询的...

Distributed-Systems-Bloom-Filters-Coded-Bloom-Filter-Counting-Bloom-Filter:在此项目中，我实现了Bloom Bloom过滤器，编码Bloom Bloom过滤器，Counting Bloom Filter计数。这些用于Google Bigtable，Apache HBase，Apache Cassandra和PostgreSQL等系统中: Google Bigtable，Apache HBase，Apache Cassandra和PostgreSQL使用Bloom过滤器来减少对不存在的行或列的磁盘查找。避免昂贵的磁盘查找，可大大提高数据库查询操作的性能。计数过滤器提供了一种在Bloom过滤器上...

HBase的性能优化: BloomFilter是一种probability数据结构，用于快速判断某个元素是否存在于集合中。启用BloomFilter可以提高读取性能，特别是在大规模数据集群环境中。调整Put操作 Put操作是HBase中的一种基本操作，用于将数据写入...

hbase性能优化: 例如，启用bloomfilter过滤器，bloomfilter可以在查询时过滤掉不存在的行，这将显著提高查询性能；增加HBase堆内存，根据业务需求调整hbase-env.sh中的HBASE_HEAPSIZE设置；增加RPC调用数量，通过修改hbase-site.xml...

Hbase中文文档: 2.9. Bloom Filter 3. 升级 3.1. 从HBase 0.20.x or 0.89.x 升级到 HBase 0.90.x 3.2. 从 0.90.x 到 0.92.x 4. The HBase Shell 4.1. 使用脚本 4.2. Shell 技巧 5. 数据模型 5.1. 概念视图 5.2. 物理视图 5.3. 表 ...

HBase实战实例: 2. Bloom Filter：利用Bloom Filter减少不必要的磁盘I/O，提高查询效率。 3. Compaction策略：适时进行Compaction，平衡存储空间和读取速度。六、挑战与解决方案 1. 数据一致性：在高并发场景下，如何保证数据的...

hbase-0.94.1.tar.gz: - ** Bloom Filter**：利用Bloom Filter减少不必要的磁盘I/O，提升查询效率。总之，HBase-0.94.1作为一个早期版本，展示了HBase在大数据实时处理中的强大能力。随着技术的发展，HBase已经迭代到更高的版本，但其...

Hbase Java API: 默认关闭 setBloomFilter 指定是否使用 BloomFilter。 HBase 的 Java API 提供了多种方法来操作数据，如 put、get、scan 和 delete。put 方法用于插入数据，get 方法用于获取数据，scan 方法用于扫描数据，delete ...

HBase权威指南中文版: 可以利用布隆过滤器（Bloom Filter）减少无效的磁盘I/O，以及Scan操作来批量获取数据。 7. **HBase与Hadoop集成**：HBase构建在Hadoop的HDFS之上，利用HDFS的分布式存储特性。MapReduce可以用于对HBase进行批量操作...

hbase 学习 hbase原理 hbase资料: - ** Bloom Filter**：减少不必要的磁盘I/O，提高查询效率。 - **BlockCache和MemStore**：缓存机制，提升读取性能。 - **Compaction**：定期合并Region中的文件，减少数据文件的数量，优化读写性能。 5. **...

hbase shell: {NAME=>'wp_test',FAMILIES=>[{NAME=>'id',BLOOMFILTER=>'NONE',REPLICATION_SCOPE=>'0',COMPRESSION=>'NONE',VERSIONS=>'3',TTL=>'2147483647',BLOCKSIZE=>'65536',IN_MEMORY=>'false',BLOCKCACHE=>'true'}, ...

HBase性能优化方法总结: 2. **布隆过滤器**：在不确定数据是否存在时，使用Bloom Filter避免无效的磁盘访问。 3. **Scan优化**：限制返回结果的数量，使用StartRow和StopRow控制扫描范围，避免全表扫描。五、运维优化 1. **监控与调优**：...

hbase 1.2.0源码: 通过对HBase 1.2.0源码的阅读，可以深入了解这些机制的实现细节，比如Region分配算法、数据读写的内部流程、Bloom Filter的构建和使用、以及Compaction策略的设定等。这将有助于开发者更好地优化HBase应用，解决实际...

hbase 表设计: HBase表设计的最后一个重要概念是布隆过滤器（Bloom Filter）。布隆过滤器是一种空间效率高的概率数据结构，用于判断一个元素是否在一个集合中。在HBase中使用布隆过滤器可以减少文件的打开次数，从而减少磁盘I/O。...

HBase上搭建广告实时数据处理平台-广点通.pdf: - 内存Cache优化：增大写入缓存，利用Bloom Filter减少磁盘I/O，部分小表设为全内存表。 - 负载均衡：针对时间序列数据的定制化算法，避免热点Region集中在单一节点。 - 单点故障避免：通过分类分发批处理操作和...

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论