BloomFilter和trie - 大神带我来搬砖 - ITeye博客

`

kabike

浏览: 616696 次
性别:
来自: 大连

最近访客更多访客>>

agreetech

confused9090

kavy

aininim

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

fei33423：同意你的说法. hbase 的强一致性分为两部分来说. 数据分 ...
浅谈Hbase 的强一致性
zengwenbo5566： ,高人，刚安装了 genymotion 那个附带 virtu ...
VirtualBox报错Unable to load R3 module GetLastError=1790 (VERR_UNRESOLVED_ERROR
kabike： QQ1289714862 写道这代码有问题吧 bar1 bar ...
AtomicBoolean运用
QQ1289714862：这代码有问题吧 bar1 bar2 那来的你是不是new了两 ...
AtomicBoolean运用
DEMONU：需要依赖这么多东西啊
hbase 0.96和hadoop 2.2 java 客户端的jar依赖

BloomFilter和trie

博客分类：

基础

阅读更多

记录下最近刚刚了解到了两种数据结构BloomFilter和trie

trie:
有一天,有个同学问了个问题,假设有个敏感词列表["敏感词1","敏感词2","敏感词3","敏感词4"],
如何快速判断一组字符串的每个字符串是否包含了所有的敏感词.
这要是用双重for循环,contains那套方法,估计都能跑死.所以我当时想到了把敏感词列表预先做成自动机.然后循环一遍
字符串数组.不过怎么构造那个自动机呢,后来那同学提到了trie的概念.trie可以用来实现高速的字符串匹配.这是典型的空间换时间
具体可以看http://en.wikipedia.org/wiki/Trie

BloomFilter:
BloomFilter是做hadoop semijoin时发现的,它的思路是用容错率来换空间.就像一个hashset,只是BloomFilter有一定的不准确性.
具体可以看http://en.wikipedia.org/wiki/Bloom_filter

分享到：

[转载]MySQL索引背后的数据结构及算法原理 | IE7下absolute定位的hover伪类元素的一个 ...

2012-12-26 14:47
浏览 1422
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于FPGA的3G数据包过滤算法设计及实现.pdf: 与传统的包过滤技术相比，如并行BV、Bloom Filter和Trie CAM（Ternary Content-Addressable Memory），Hash算法具有较高的处理速度和较低的存储需求。尽管Bloom Filter在节省存储空间方面表现出色，但可能会出现误判...

基于Trie的算法中具有计数BloomFilter的高效IP地址查找: 计数Bloom Filter的引入，替代了原有的单比特位Bloom Filter，它能够通过多比特计数来记录匹配情况，从而支持Trie节点的删除和插入操作。此外，Bloom Filter的原理是通过哈希函数将元素映射到一个位数组中，如果...

《编程之法：面试和算法心得1》数据结构: 综合演练部分则涉及海量数据处理，如关联式容器、分而治之策略、simhash算法、外排序、MapReduce、多层划分、Bitmap、Bloom filter和Trie树等，这些都是大数据处理和分布式计算中的核心技术。此外，书的附录还包含...

SuRF: Practical Range Query Filtering with Fast Succinct Tries原文: SuRF旨在解决传统Bloom Filter无法同时高效处理单键查找和范围查询的问题。文章由来自卡内基梅隆大学、慕尼黑工业大学、英特尔实验室和惠普企业实验室的研究人员共同撰写。SuRF基于一个名为Fast Succinct Trie（FST...

大数据量,海量数据处理方法总结.docx: 本文主要探讨两种常见的处理方法：Bloom Filter和Hashing。 1. **Bloom Filter** Bloom Filter是一种空间效率极高的概率型数据结构，用于测试一个元素是否在一个集合中。它利用多个独立的哈希函数将元素映射到一...

Scalable Name Lookup with Adaptive Prefix Bloom Filter for Named Data Networking: 这篇文章的标题为：“Scalable Name Lookup with Adaptive Prefix Bloom Filter for Named Data Networking”，可以将其翻译为“面向命名数据网络的可扩展名称查找与自适应前缀布隆过滤器”。文章的主体讨论了在命名...

海量数据处理: 这些方法的核心思想是通过哈希函数、分布式计算、数据结构优化（如Bloom Filter、trie树、hash_map等）以及外部排序（如归并排序）来处理大数据。在实际应用中，还需要考虑磁盘I/O效率、数据冗余、错误率控制等因素...

java源码：预输入搜索 Cleo.zip: 它采用了一些先进的数据结构和算法，如Trie树（字典树）和Bloom Filter，以实现高效的数据存储和查询。下面我们将逐一解析这些关键组件。 1. **Trie树**：Trie树是一种字符串查找的数据结构，每个节点代表一个前缀...

常见算法面试题--海量数据专题.doc: 这些题目展示了在处理大规模数据时常见的策略，如分而治之、哈希映射、Bloom Filter、Trie树、分布式计算（如MapReduce）等。这些方法都是为了在有限的内存条件下高效地处理大数据集，降低时间复杂度，以及在必要时...

Filter Solution v11.0: 1. **数据过滤算法**：Filter Solution可能包含多种先进的过滤算法，如Bloom Filter、Trie树、Bitwise Filter等，用于快速定位和剔除特定数据，同时保持较低的误报率。 2. **高性能处理**：软件可能优化了多线程...

Towards Practical Use of Bloom Filter based IP Lookup in Operational Network: 特别是，前缀布隆过滤器（Prefix Bloom Filter, PBF）被提出，旨在利用片上布隆过滤器来代表用于查找最长匹配前缀的trie树结构。PBF能够在平均情况下大幅减少对片外内存的访问次数，相比传统的三态内容寻址存储器...

海量排序总结.txt: 在处理海量数据时，Bloom Filter是一种非常高效的数据结构，主要用于判断一个元素是否在一个集合中，具有空间效率高和查询速度快的特点。它通过将元素映射到一个位数组中来实现这一点。 1. **原理介绍**：Bloom ...

Java_一个简单的搜索引擎，用于学习基本概念.zip: 总结来说，这个Java实现的简单搜索引擎涵盖了以下知识点：倒排索引、搜索算法（如Trie树和Bloom Filter）、文件I/O、相关性排序（TF-IDF和PageRank）、线程安全与并发控制以及项目结构设计。通过实践这个项目，初学...

以太坊的数据结构（状态树、交易树、收据树）及代码分析: 文章目录一、状态树1.1 trie1.2 Patricia tree(trie)1.3 Merkle Patricia tree(trie)1.4 Modified Merkle Patricia tree(trie)1.5 账户状态值存储二...Merkle Patricia tree(trie)2.3 布隆过滤器（bloom filter）2.4 总结...

CPPNotes:【C++ 面试 + C++ 学习指南】一份涵盖大部分 C++ 程序员所需要掌握的核心知识: CPPNotes 如下是 C++ 后台研发技术路线以及知识点，...BloomFilter原理 Trie树原理 LSM树原理 linux下操作命令以及工具工作中常用的linux 命令编译工具GCC 调试工具GDB 性能优化工具Perf 内存泄露检查工具Valgrind

《Java面试必知必会》-海量数据类高频问题和参考答案.pdf: - **处理策略**：分而治之（hash映射）、数据结构优化（如Bloom filter、Bitmap、Trie树、堆、数据库索引等）、分布式处理（Hadoop、MapReduce）。 3. **Bloom Filter** - **应用**：数据判重、集合交集判断。 -...

海量数据处理方法: 海量数据处理是指基于海量数据上的存储、处理、操作，解决方案包括巧妙的算法搭配适合的数据结构，如 Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie 树，以及大而化小、分而治之的策略。根据数据处理的场景，...

精选17道海量数量处理面试题！.pdf: - 方案2和方案3在处理query频率排序时提到了Trie树和Hash Map。Trie树是一种字符串查找的数据结构，能高效地进行查询；Hash Map则用于存储key-value对，提供快速的查找和更新操作。 5. **外部排序与归并**： - 在...

Global site tag (gtag.js) - Google Analytics