`
yugouai
  • 浏览: 494953 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Bloom Filter分析(转)

    博客分类:
  • java
 
阅读更多

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。
一. 实例
  为了说明Bloom Filter存在的重要意义,举一个实例:
  假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”,就需要知道蜘蛛已经访问过那些URL。给一个URL,怎样知道蜘蛛是否已经访问过呢?稍微想想,就会有如下几种方案:
  1. 将访问过的URL保存到数据库。
  2. 用HashSet将访问过的URL保存起来。那只需接近O(1)的代价就可以查到一个URL是否被访问过了。
  3. URL经过MD5或SHA-1等单向哈希后再保存到HashSet或数据库。
  4. Bit-Map方法。建立一个BitSet,将每个URL经过一个哈希函数映射到某一位。
  方法1~3都是将访问过的URL完整保存,方法4则只标记URL的一个映射位。
  以上方法在数据量较小的情况下都能完美解决问题,但是当数据量变得非常庞大时问题就来了。
  方法1的缺点:数据量变得非常庞大后关系型数据库查询的效率会变得很低。而且每来一个URL就启动一次数据库查询是不是太小题大做了?
  方法2的缺点:太消耗内存。随着URL的增多,占用的内存会越来越多。就算只有1亿个URL,每个URL只算50个字符,就需要5GB内存。
  方法3:由于字符串经过MD5处理后的信息摘要长度只有128Bit,SHA-1处理后也只有160Bit,因此方法3比方法2节省了好几倍的内存。
  方法4消耗内存是相对较少的,但缺点是单一哈希函数发生冲突的概率太高。还记得数据结构课上学过的Hash表冲突的各种解决方法么?若要降低冲突发生的概率到1%,就要将BitSet的长度设置为URL个数的100倍。
  实质上上面的算法都忽略了一个重要的隐含条件:允许小概率的出错,不一定要100%准确!也就是说少量url实际上没有没网络蜘蛛访问,而将它们错判为已访问的代价是很小的——大不了少抓几个网页呗。
二. Bloom Filter的算法
  废话说到这里,下面引入本篇的主角——Bloom Filter。其实上面方法4的思想已经很接近Bloom Filter了。方法四的致命缺点是冲突概率高,为了降低冲突的概念,Bloom Filter使用了多个哈希函数,而不是一个。
 Bloom Filter算法如下:
  创建一个m位BitSet,先将所有位初始化为0,然后选择k个不同的哈希函数。第i个哈希函数对字符串str哈希的结果记为h(i,str),且h(i,str)的范围是0到m-1 。
(1) 加入字符串过程
  下面是每个字符串处理的过程,首先是将字符串str“记录”到BitSet中的过程:
  对于字符串str,分别计算h(1,str),h(2,str)…… h(k,str)。然后将BitSet的第h(1,str)、h(2,str)…… h(k,str)位设为1。

(2) 检查字符串是否存在的过程

  下面是检查字符串str是否被BitSet记录过的过程:

  对于字符串str,分别计算h(1,str),h(2,str)…… h(k,str)。然后检查BitSet的第h(1,str)、h(2,str)…… h(k,str)位是否为1,若其中任何一位不为1则可以判定str一定没有被记录过。若全部位都是1,则“认为”字符串str存在。

  若一个字符串对应的Bit不全为1,则可以肯定该字符串一定没有被Bloom Filter记录过。(这是显然的,因为字符串被记录过,其对应的二进制位肯定全部被设为1了)

  但是若一个字符串对应的Bit全为1,实际上是不能100%的肯定该字符串被Bloom Filter记录过的。(因为有可能该字符串的所有位都刚好是被其他字符串所对应)这种将该字符串划分错的情况,称为false positive 。

(3) 删除字符串过程

字符串加入了就被不能删除了,因为删除会影响到其他字符串。实在需要删除字符串的可以使用Counting bloomfilter(CBF),这是一种基本Bloom Filter的变体,CBF将基本Bloom Filter每一个Bit改为一个计数器,这样就可以实现删除字符串的功能了。

  Bloom Filter跟单哈希函数Bit-Map不同之处在于:Bloom Filter使用了k个哈希函数,每个字符串跟k个bit对应。从而降低了冲突的概率。

三. Bloom Filter参数选择

(1)哈希函数选择

  哈希函数的选择对性能的影响应该是很大的,一个好的哈希函数要能近似等概率的将字符串映射到各个Bit。选择k个不同的哈希函数比较麻烦,一种简单的方法是选择一个哈希函数,然后送入k个不同的参数。

(2)Bit数组大小选择

  哈希函数个数k、位数组大小m、加入的字符串数量n的关系可以参考参考文献1。该文献证明了对于给定的m、n,当 k = ln(2)* m/n 时出错的概率是最小的。

  同时该文献还给出特定的k,m,n的出错概率。例如:根据参考文献1,哈希函数个数k取10,位数组大小m设为字符串个数n的20倍时,false positive发生的概率是0.0000889 ,这个概率基本能满足网络爬虫的需求了。

四. Bloom Filter实现代码

  下面给出一个简单的Bloom Filter的Java实现代码:

 

import java.util.BitSet;

public class BloomFilter 
{
    /*  BitSet初始分配2^24个bit  */ 
    private static final int DEFAULT_SIZE = 1 << 25; 
    /* 不同哈希函数的种子,一般应取质数 */
    private static final int[] seeds = new int[] { 5, 7, 11, 13, 31, 37, 61 };
    private BitSet bits = new BitSet(DEFAULT_SIZE);
    /* 哈希函数对象 */ 
    private SimpleHash[] func = new SimpleHash[seeds.length];

    public BloomFilter() 
    {
        for (int i = 0; i < seeds.length; i++)
        {
            func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
        }
    }

    // 将字符串标记到bits中
    public void add(String value) 
    {
        for (SimpleHash f : func) 
        {
            bits.set(f.hash(value), true);
        }
    }

    //判断字符串是否已经被bits标记
    public boolean contains(String value) 
    {
        if (value == null) 
        {
            return false;
        }
        boolean ret = true;
        for (SimpleHash f : func) 
        {
            ret = ret && bits.get(f.hash(value));
        }
        return ret;
    }

    /* 哈希函数类 */
    public static class SimpleHash 
    {
        private int cap;
        private int seed;

        public SimpleHash(int cap, int seed) 
        {
            this.cap = cap;
            this.seed = seed;
        }

        //hash函数,采用简单的加权和hash
        public int hash(String value) 
        {
            int result = 0;
            int len = value.length();
            for (int i = 0; i < len; i++) 
            {
                result = seed * result + value.charAt(i);
            }
            return (cap - 1) & result;
        }
    }
}

 


分享到:
评论

相关推荐

    带bloom filter 的c网络爬虫

    - **bloomfilter.h**:这是一个头文件,很可能包含了Bloom Filter的数据结构定义和相关操作函数的声明。在C语言中,头文件通常用于提供接口给其他源文件使用,这里可能是为了在spider.c中方便地调用Bloom Filter的...

    分布式环境下改进的BloomFilter过滤技术

    ### 分布式环境下改进的BloomFilter过滤技术 #### 概述 随着互联网技术的快速发展,分布式数据管理和处理变得越来越重要。特别是在对等网络(Peer-to-Peer, P2P)环境中,如何高效地进行数据搜索和管理成为了研究...

    shingling、simhash、bloom filter

    在IT领域,尤其是在大数据分析和信息检索中,`shingling`、`simhash` 和 `bloom filter` 是三个非常重要的概念。这些技术主要用于处理大量数据,进行相似性检测和去重,从而提高效率和准确性。下面将详细介绍这三个...

    BloomFilter及其应用综述

    Bloom filter是一个简明的空间效率极高的随机的数据结构。用Bloom filter 表示 cache 内容 ,可以高效地实现cache 协作。本文对BloomFilter及其改进型进行了综述性分析,探讨了它的实用性。

    介绍Bloom Filter(布隆过滤器)原理、实现及具体应用

    布隆过滤器(Bloom Filter)是一种空间效率极高的概率型...通过学习提供的9个PPT和PDF文档,你可以深入了解Bloom Filter的工作机制、性能分析以及在不同场景下的应用实例,从而更好地理解和掌握这一重要的数据结构。

    Bloom Filter 在数据库系统的应用

    在数据仓库和数据挖掘中,Bloom Filter 可以用来快速判断某个元素是否在某个集合中,从而提高查询效率和数据分析速度。 Bloom Filter 是一种高效的集合表示方法,广泛应用于分布式计算和数据库系统中。但是,它...

    Bloom Filter用于url去重

    ##### 2.2 Bloom Filter误差分析 Bloom Filter的主要缺点是存在一定的误报率。误报率是指一个不在集合中的元素被错误地标记为存在的概率。这个概率可以通过调整位数组的大小和散列函数的数量来控制。理论上,误报率...

    一种新的基于Bloom filter数据结构的数据消冗算法.pdf

    "一种新的基于Bloom filter数据结构的数据消冗算法" 本文提出了一种新的基于Bloom filter数据结构的数据消冗算法,该算法首先利用完全文件检测算法对数据进行检验匹配,通过的数据块再利用CDC分块检测算法进行...

    LDFD-BloomFilter-master.zip

    为了解决这个问题,"LDFD-BloomFilter-master.zip"提供了一种基于Bloom Filter的高效解决方案。 Bloom Filter是一种空间效率极高的概率数据结构,用于判断一个元素是否在一个集合中。它可能会产生假阳性(False ...

    bloom filter

    在压缩包中的`BloomFilter_-_Object_Pascal`文件中,很可能包含了用Delphi编写的布隆过滤器的源代码示例。源代码可能会定义一个BloomFilter类,包含初始化、插入和查询等方法,同时实现了多个哈希函数。通过阅读和...

    Go-bloom-Bloomfilters在Go中的实现

    Bloom Filter是一种空间效率极高的概率型数据结构,用于判断一个元素是否可能在一个集合中。在Go语言中,实现Bloom Filter可以利用其高效并发处理和内存管理的优势,使得这种数据结构在大数据场景下更加实用。本文将...

    C语言实现的Bloomfilter算法。.zip

    Bloom Filter是一种空间效率极高的概率型数据结构,用于判断一个元素是否可能在一个集合中。在C语言中实现Bloom Filter涉及到多个关键知识点,包括哈希函数、位数组和概率计算。 1. **哈希函数**:Bloom Filter通常...

    bloom filter概念讲解以及代码分析

    Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员,这种检测只会对在集合内的数据错判,而不会对不是集合内的数据进行...

    Go-Cuckoofilter:在Go中计数bloomfilter的一个更好替换

    为了解决这些问题,研究人员提出了Cuckoo Filter,它在某些场景下被认为是Bloom Filter的一种更好的替代方案。本文将深入探讨Go-CuckooFilter,它是用Go语言实现的Cuckoo Filter,适用于Go开发环境中的数据结构和...

    论文研究-Bloom filter在网络取证中的应用研究.pdf

    由于ADSL(Asymmetric Digital Subscriber Line)端到端的通讯结构,传统的监听技术很难进行,在分析了ADSL数据承载方式和用户认证的基础上,设计了一种基于DSLAM(Digital Subscribe Loop Access Multiplexer)技术...

    网络游戏-基于动态可分裂Bloom+Filter的网络爬虫URL去重方法.zip

    总之,基于动态可分裂Bloom Filter的网络爬虫URL去重方法是一种高效且适用于大规模数据处理的技术,它在节省内存资源的同时,提供了快速的URL去重能力,对于网络游戏行业的数据分析和决策支持具有重要的价值。

    Bloom过滤器的C++实现

    这在处理大规模词汇表时尤其有用,如自然语言处理、文本分析等领域。 C++实现Bloom过滤器的关键在于优化哈希函数的选择和位数组的大小,以达到最佳的空间效率和查准率。同时,可以考虑使用动态调整位数组大小或替换...

    bloomfilter:Bloom过滤器的简单轻量级实现

    在`bloomfilter-master`这个压缩包中,很可能包含了Bloom过滤器的C++实现代码,包括位数组的管理、哈希函数的设计以及添加和查询元素的接口。通过阅读和分析这些源代码,我们可以深入理解Bloom过滤器的工作原理和...

Global site tag (gtag.js) - Google Analytics