布隆过滤器布隆算法 BloomFilter - 知识改变思维，思维改变生活 - ITeye博客

`

woshizn

浏览: 211677 次
性别:
来自: 成都

最近访客更多访客>>

morelily

wonderfulpersuit

lin598428859

魔鬼的献祭

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

冯健松：博主你好！我看你这个博客里面说你得项目里面有多个源文件目录， ...
ant配置build.xml 指定多个classpath 编译多个src目录
bee1314：这样并不能完全解决黑莓的签名问题吧，一个项目里除了调用Disp ...
避免黑莓签名
Eric.Yan：学习了，但是我有一个问题，error-code是在web.xm ...
HTTP常见错误 400 401 403 404 405 406 407 412 414 500 501 502
于云耀：
网络爬虫 (spider) URL消重设计 URL去重设计
琼露露：大虾,能不能放源码啊........
播放MP3的小应用（边写边学Android 一）

布隆过滤器布隆算法 BloomFilter

博客分类：

网络爬虫(Spider)

阅读更多

package com.spider;

import java.util.BitSet;

public class BloomFilter {
private int defaultSize = 2 << 24;

private int basic = defaultSize - 1;

private BitSet bits;

public BloomFilter() {
   bits = new BitSet(defaultSize);
}

public boolean contains(String url) {
   if (url == null) {
    return true;
   }
   int pos1 = hash1(url);
   int pos2 = hash2(url);
   int pos3 = hash3(url);
   if (bits.get(pos1) && bits.get(pos2) && bits.get(pos3)) {
    return true;
   }
   return false;
}

public void add(String url) {
   if (url == null) {
    return;
   }
   int pos1 = hash1(url);
   int pos2 = hash2(url);
   int pos3 = hash3(url);
   bits.set(pos1);
   bits.set(pos2);
   bits.set(pos3);
}

private int hash3(String line) {
   int h = 0;
   int len = line.length();
   for (int i = 0; i < len; i++) {
    h = 37 * h + line.charAt(i);
   }
   return check(h);
}

private int hash2(String line) {
   int h = 0;
   int len = line.length();
   for (int i = 0; i < len; i++) {
    h = 33 * h + line.charAt(i);
   }
   return check(h);
}

private int hash1(String line) {
   int h = 0;
   int len = line.length();
   for (int i = 0; i < len; i++) {
    h = 31 * h + line.charAt(i);
   }
   return check(h);
}

private int check(int h) {
   return basic & h;
}

public void test() {
   String url = "http://www.pp.tv";
   System.out.println(contains(url));
   add(url);
   System.out.println(contains(url));
}

public static void main(String arg[]) {
   BloomFilter bf = new BloomFilter();
   bf.test();
}
}

分享到：

网络爬虫（spider）中 LRU算法的设计与 ... | Java 多线程爬虫程序（spider）设计与实 ...

2009-11-28 23:33
浏览 2898
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java实现的布隆过滤器算法: 布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，用于判断一个元素是否在一个集合中。它可能会误判，但不会漏判，即如果它说一个元素在集合中，那可能是错误的，但如果它说一个元素不在集合中，那么...

bloom filter布隆过滤器学习资料大全: 布隆过滤器（Bloom Filter）是一种空间效率极高...通过这个“bloom filter布隆过滤器学习资料大全”，你可以深入研究布隆过滤器的理论、算法实现以及在不同场景下的应用实例，提升对这一重要数据结构的理解和应用能力。

PDD–基于高级布隆过滤器算法用于高效得删除数据流中的近似重复数据: 首先，我们要理解什么是布隆过滤器（Bloom Filter）。布隆过滤器是一种空间效率极高的概率型数据结构，用于判断一个元素是否可能在一个集合中。它可能会误判，即可能将不存在的元素判断为存在，但不会漏掉真正存在的...

9 Redis布隆过滤器插件安装.zip: Redis布隆过滤器插件是Redis数据库中一个非常实用的扩展功能，主要用于高效地判断一个元素是否可能存在于集合中。由于其独特的数据结构和算法，它在存储空间和查询效率之间取得了良好的平衡，尤其适用于大数据场景下...

基于python第三方库pybloom-live实现的redis布隆过滤器类: 布隆过滤器因其占用空间小和查询速度快的特点，在处理大规模数据去重问题时显得尤为关键。Python作为一门广泛应用于数据处理的语言，其丰富的第三方库为开发者提供了便捷的工具。在本文中，将详细介绍如何使用Python...

布隆过滤器: 布隆过滤器是一种概率型数据结构，用于判断一个元素是否可能在一个集合中存在。它由布伦南·布隆在1970年提出，主要应用于大数据存储和检索，尤其是在空间效率和查询效率方面有着显著优势。由于布隆过滤器会存在一定...

大文件去重布隆算法: 最后，"BloomFilter"可能是一个源代码文件夹，包含了布隆过滤器的实现代码。综合这些文件，我们可以推测这是一个使用C#或.NET开发的布隆过滤器实现，包含了源码、测试和构建配置。通过阅读源代码和执行测试，我们...

Python+Redis实现布隆过滤器: 　布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多...

python实现布隆过滤器及原理解析: 本质上布隆过滤器( BloomFilter )是一种数据结构，比较巧妙的概率型数据结构（probabilistic data structure），特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”。相比于传统的 Set、...

分布式爬虫应用中布隆过滤器的研究.docx: 为了解决URL去重问题，提高爬虫的检索效率，布隆过滤器（Bloom Filter）成为了一种理想的解决方案。布隆过滤器是一种概率型数据结构，它能够在有限的空间内高效地判断一个元素是否可能存在于某个集合中，虽然存在...

algorithm_coding:推荐算法、相似度算法、布隆过滤器、均值算法、一致性Hash、数据结构、leetcode练习: bloom_filter_code [布隆过滤器] 1: bloom 布隆过滤器 consistent_hash_code [一致性Hash算法] 1: consistent 一致性Hash算法 leet_code [leet_code刷题] 1: leet_code刷题 heap [堆] 1: max_heap_test 大顶推 ...

网络安全事件关联分析系统设计——基于布隆过滤器的.pdf: 为了解决这些问题，论文引入了布隆过滤器（Bloom Filter），这是一种高效的、空间效率高的数据结构，用于判断一个元素是否可能存在于一个大规模集合中，而不会产生假阴性（false negative）结果，允许一定程度的假...

Python-cljcbloom一个用Clojure脚本实现的跨平台布隆过滤器: 在这个项目中，Clojure被用来编写布隆过滤器的底层算法，提供高效的性能。 3. **跨平台性**： Python-cljcbloom使用Clojure的Java绑定特性，使得这个库能够在任何支持JVM的平台上运行，包括Windows、Linux、macOS...

C++ 数据结构之布隆过滤器: 布隆过滤器（Bloom Filter）是一种空间效率很高的随机数据结构，可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，但缺点是有一定的误识别率和删除错误。一、历史背景...

Compressed Bloom filters: 布隆过滤器（Bloom Filter）作为一种高效的空间优化随机数据结构，在支持成员查询方面表现卓越，尤其在数据集庞大时能显著节省存储空间。然而，布隆过滤器存在假阳性的可能性，即可能错误地报告某个元素属于一个集合...

Redis实现布隆过滤器的方法及原理: 布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多，...

bloom filter 相关论文资料: 综上所述，这份“bloom filter”的论文资料集是深入理解、研究和应用布隆过滤器的重要资源，涵盖了从基本概念到实际应用的多个方面，对于IT从业者尤其是数据结构和算法领域的专业人士来说，是非常宝贵的参考资料。

bfilter:用于 JavaScript 的布隆过滤器: 用于 JavaScript 的布隆过滤器。用法 const bfilter = require ( 'bfilter' ) ; 贡献和许可协议如果你向这个项目贡献代码，你就隐含地允许你的代码在 MIT 许可下分发。您还隐式验证所有代码都是您的原创作品。 ...

基于redis的bloomfilter.zip: 为了解决这一问题，业界不断探索和开发出新的数据结构和算法，其中，布隆过滤器（Bloom Filter）就是一种在大数据环境下表现出色的高效数据结构。布隆过滤器是一种空间效率很高的概率型数据结构，它用于判断一个...

Global site tag (gtag.js) - Google Analytics