Hadoop之BloomFilter - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1250887 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

Hadoop之BloomFilter

博客分类：

MapReduce

阅读更多

BloomFilter概述：

目的是检索元素是否在某个集合中，基于hash，速度比较快，不需要存储所有的元素，只需要按照某种方式存储hash值即可，因此比较节约内存，因此可以常驻内存加快查找速度。同时利用多个hash来解决hash冲突问题

我们假定集合元素为一个列表，我们可以用一个bit列表来存储此元素是否存在，如下所示：

存在为1不存在为0，不过由于hash很容易冲突，那么可以基于多hash函数进行冲突的避免，每次设置对于的hash值为1，如下所示：

也就是说x1经过三次hash那么设置对应的下标为1，x2同理，当查找判断的时候我们只需要同样获取三次hash值进行定位，当都为1的时候证明存在，反之则不存在，如下所示：

也就是说y1为不存在，因为有0，而y2，原则上存在，为什么是原则上呢？因为多次对位集合进行设置为1，而不清楚为0，那么很容易形成一个覆盖，也就是说不存在的判断是准确的，而存在的判断是不准确的。

转发请注明出处：http://snv.iteye.com/

总之：

1. BloomFilter能很快的判断某元素是否存在

2.BloomFilter能准确判断不存在的，概率性判断存在的

3.常驻内存对大数据操作很快

Hadoop中的实现：

BloomFilter
CountingBloomFilter
DynamicBloomFilter
RetouchedBloomFilter

使用场景：

1.操作的文件很多，那么当一个请求过来之后首先在内存做判断，如果有那么操作，如果没有那么直接返回，如nosql系列等

2.大数据处理时，如爬虫采集时对url做判断，如果没有采集过那么采集等

3.对否要求高，对是要求低的操作

查看图片附件

0
顶

0
踩

分享到：

Hadoop之InputFormat | UUID在Java中的两种产生方式

2014-01-16 18:58
浏览 1444
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

一种新的基于Bloom filter数据结构的数据消冗算法.pdf: "一种新的基于Bloom filter数据结构的数据消冗算法" 本文提出了一种新的基于Bloom filter数据结构的数据消冗算法，该算法首先利用完全文件检测算法对数据进行检验匹配，通过的数据块再利用CDC分块检测算法进行...

hadoop0.23.9离线api: org.apache.hadoop.metrics2.filter org.apache.hadoop.metrics2.lib org.apache.hadoop.metrics2.sink org.apache.hadoop.metrics2.sink.ganglia org.apache.hadoop.metrics2.source org.apache.hadoop....

5堂Hadoop必修课，不会这些勿称高手: 4. 掌握MapReduce的Join算法，包括Reduce Join、Map Join、Semi Join和Bloom Filter。 5. 学习Zookeeper的基本原理和架构，以及如何在分布式环境中部署Zookeeper，包括配置管理Hadoop集群。 6. 掌握Hadoop和Spark...

Hadoop倒排索引程序: 此外，还可以考虑使用更高级的分布式索引结构，如Bloom Filter或Lucene等，以提高索引质量和查询效率。总的来说，“Hadoop倒排索引程序”是Hadoop并行框架在文本处理和信息检索领域的成功实践，它展示了大数据处理...

基于Hadoop和HBase的大规模海量数据去重.zip: 常见的去重算法有基于哈希的去重（如Bloom Filter）、排序后去重、位图法等。在Hadoop环境中，通常使用MapReduce实现这些算法。例如，Map阶段计算数据的哈希值，Reduce阶段检查并去除重复的哈希值。 5. **...

后Hadoop时代的大数据架构.pdf: 内存数据库如VoltDB和MemSQL提供了高性能的实时处理能力，而HyperLogLog、Bloom Filter和CountMin Sketch等算法则用于高效的数据预处理和统计分析，以减少存储需求。最后，CAP定理指出，在分布式系统中，一致性、...

hadoop相关知识习题: 9. Bloom Filter是一种空间效率高的概率型数据结构，用于测试一个元素是否在一个集合中，存在一定的误判率。 10. HBase可以在CentOS、Ubuntu和RedHat等Linux系统上安装。分布式模式通常建议至少3个节点，虚拟分布式...

通用大数据存储和分析处理平台-Hadoop.docx: - **Bloom filter**、**Hashing**、**bit-map**、**堆**、**双层桶划分**、**数据库索引**、**倒排索引**、**外排序**、**trie树**等技术用于解决特定的大数据问题。综上，Hadoop是大数据领域的核心工具，其分布式...

hive面试题（Hadoop）: - **Bloom Filter支持**：在新版本的ORC中，引入了Bloom Filter来进一步提高谓词下推的效率。 #### Parquet文件优势 - **嵌套数据模型**：Parquet支持类似Protocol Buffers的嵌套数据结构。 - **紧凑存储**：通过...

hadoop-2.6.0-cdh5.16.2.tar.gz for linux 支持snappy: 例如，可以通过`io.seqfile.compress.blocksize`来设置SequenceFile的压缩块大小，或者通过`io.mapfile.bloom.size`控制Bloom Filter的大小，以优化性能。此外，对于MapReduce作业，可以考虑是否在map阶段就进行压缩...

hbase-0.98.17-hadoop2-bin.tar.gz: - 读取时，HBase会从内存和HDFS中的HFile查找数据，利用布隆过滤器（Bloom Filter）优化查找效率。以上就是关于HBase 0.98.17在Linux环境下的安装、配置和使用的基本知识点。在实际生产环境中，还需要考虑集群...

04-29 后Hadoop时代的大数据架构.docx: 例如，内存数据库如VoltDB和MemSQL提供了高性能的事务处理能力，而HyperLogLog、Bloom Filter和CountMin Sketch等算法则在大数据场景中用于基数估算、数据去重和近似计数，有效降低了计算资源的消耗。总之，后...

04-29 后Hadoop时代的大数据架构.pdf: 为了减少存储开销，数据结构如HyperLogLog、Bloom Filter和CountMin Sketch被广泛采用。这些算法通过使用哈希函数来近似计算数据集的基数、检测元素的存在性，从而节省存储空间，虽然可能会有误判，但在大数据场景下...

通用大数据存储与分析处理平台_Hadoop.docx: 最后，文档探讨了海量数据处理的思路，包括Bloom filter、Hashing、bit-map、堆、双层桶划分、数据库索引（如倒排索引）和外排序等方法，并引用了关于Hadoop框架和MapReduce模式的经典文章，帮助读者深入理解海量...

基于Hadoop平台的通信数据分布式查询算法的设计与实现: 4. **索引构建**：为了加速查询，论文可能会讨论如何在分布式环境中构建和维护索引，如Bloom Filter或Bitmap索引，以减少不必要的数据扫描。 5. **查询执行引擎**：论文可能提出了一个特定的查询执行框架，用于解析...

Hadoop硬实战 [（美）霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载带书签目录高清完整版.rar ): 技术点56　通过MapReduce 对Bloom filter 进行semi-join 7．3　本章小结 8　结合R 和Hadoop 进行数据统计 8．1　比较R 和MapReduce 集成的几种方法 8．2　R 基础知识 8．3　R 和Streaming 8．3．1　Streaming 和...

sensei-hadoop-indexing-1.6.0.zip: 3. 哈希集（Hash Set）和布隆过滤器（Bloom Filter）：哈希集用于存储不重复元素，而布隆过滤器则是在空间效率和误判率之间做出平衡，用于判断一个元素是否可能存在于集合中。 4. 位数组（Bit Array）和压缩数组...

Global site tag (gtag.js) - Google Analytics