论坛首页 Java企业应用论坛

聊聊Bloom Filter

浏览 4737 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2010-01-23  
最近在看Hadoop源代码的时候,发现了一个Bloom Filter的数据结构,觉得比较有意思,所以了解了一些,下面是大致的解释,需要detailed information的请Google之:

Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。



除了用来去重的场景外,大家有用到Bloom Filter吗?还有些什么场景下,我们可以考虑用它呢?
   发表时间:2010-01-28  
没有人对这个感兴趣吗?
0 请登录后投票
   发表时间:2010-01-28  
感兴趣,讲讲怎么回事!!以及实现原理思路
0 请登录后投票
   发表时间:2010-01-28  
我曾经想用它去实现 新数据和历史数据对比,看是否重复出现。不过这个布隆过滤器实现难度比较大,hash算法实现起来不容易,效果不是很好。有兴趣继续讨论
0 请登录后投票
   发表时间:2010-01-28  
zhangdp_neu 写道
我曾经想用它去实现 新数据和历史数据对比,看是否重复出现。不过这个布隆过滤器实现难度比较大,hash算法实现起来不容易,效果不是很好。有兴趣继续讨论

这个布隆过滤器的原理比较简单,设计一个好的布隆过滤器难度不小啊。
0 请登录后投票
   发表时间:2010-01-28  
jahcy 写道
感兴趣,讲讲怎么回事!!以及实现原理思路

你可以上网找找,《数学之美》系列文章里面有介绍。
0 请登录后投票
   发表时间:2010-01-28  
zhangdp_neu 写道
我曾经想用它去实现 新数据和历史数据对比,看是否重复出现。不过这个布隆过滤器实现难度比较大,hash算法实现起来不容易,效果不是很好。有兴趣继续讨论


我觉得实现起来,难道还是不大的,主要就是多了几次hash操作,以减少冲突的几率,但是理论上还是无法避免的。
0 请登录后投票
   发表时间:2010-01-28  
freesky110 写道
zhangdp_neu 写道
我曾经想用它去实现 新数据和历史数据对比,看是否重复出现。不过这个布隆过滤器实现难度比较大,hash算法实现起来不容易,效果不是很好。有兴趣继续讨论


我觉得实现起来,难道还是不大的,主要就是多了几次hash操作,以减少冲突的几率,但是理论上还是无法避免的。

整个框架实现起来难度不大,但是 在如何减少 hash的冲突,这个难度是比较大的。
Hadoop源代码 里面有这个?我不了解Hadoop,有时间去看看。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics