`
isiqi
  • 浏览: 16499856 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

一个字符串搜索的Aho-Corasick算法

阅读更多

Aho和Corasick对KMP算法(Knuth–Morris–Pratt algorithm)进行了改进,Aho-Corasick算法(Aho-Corasick algorithm)利用构建树,总时间复杂度是O(n)。原理图如下(摘自Aho-Corasick string matching in C#):

Building of the keyword tree (figure 1 - after the first step, figure 2 - tree with the fail function)

C#版本的实现代码可以从Aho-Corasick string matching in C#得到,也可以点击这里获得该算法的PDF文档。

这是一个应用示例:

预览图

它能将载入的RTF文档中的搜索关键字高亮,检索速度较快,示例没有实现全字匹配,算法代码简要如下:

示例下载页面:http://www.uushare.com/user/m2nlight/file/2722093

StringSearch.7z
StringSearch.7z
类型:7Z 压缩文件
大小:32.5 KB
分享到:
评论

相关推荐

    Aho-Corasick算法的Java实现与分析1

    Aho-Corasick算法是一种文本搜索算法,由Aho和Corasick于1975年提出,主要用于在大量文本中高效地查找多个模式串。它的核心思想是通过构建一个确定有限状态自动机(Deterministic Finite Automaton, DFA),使得在...

    Aho-Corasick字符串高效搜索算法

    Aho-Corasick字符串高效搜索算法是一种在文本中查找多个模式串(字符串模式)的算法,由艾兹格·A·霍夫曼和门德尔松·科拉斯克于1975年提出。这个算法主要应用于信息检索、生物信息学等领域,其中需要快速查找大量...

    aho-corasick:Aho-Corasick算法的Java实现,可实现高效的字符串匹配

    阿霍·科拉西克(Aho-Corasick) 相依性 在您的POM中包括此依赖项。 确保在Maven Central中检查... Aho-Corasick算法在查找多个单词时会发光。 它没有使用所有关键字来构建结构,而不是将搜索文本切碎。 关键的Aho-C

    java笔试题算法-aho-corasick:DannyYoo在Java中实现的Aho-Corasick算法,几乎没有改进

    Aho-Corasick算法是一种在文本中查找...综上所述,Aho-Corasick算法是一种强大的字符串匹配工具,尤其适用于处理大量模式的搜索。Java中的实现可以帮助开发者理解和应用这个算法,而开源代码则为学习和定制提供了便利。

    py-aho-corasick:Aho-Corasick算法的纯Python实现

    我已经检查了Python的其他Aho-Corasick实现,但是没有一个满足我的要求。 Wojciech Mula的 无法在Python 2.x中使用unicode。 杰夫·唐纳(Jeff Donner)的《 不支持pickle协议。 由斯特凡Behnel 不支持将值与字符串...

    AC自动机-Set Matching and Aho-Corasick Algorithm

    Aho-Corasick算法不仅利用了关键词树,还引入了额外的预处理步骤来提高搜索效率,主要包括: ##### 1. 失配链接(Fail Links) 为了在遇到不匹配时快速跳转到可能的匹配路径,算法为每个非根节点v构造一条失配链接...

    Aho-Corasick 算法 和 KMP搜索算法

    Aho-Corasick 算法, 用于从文本串中识别一组关键字,所需的时间和文本长度和所有关键字总长成正比,见编译原理. KMP搜索算法, 由Knuth, Morris, Pratt 提出的一种在文本串中识别单个关键字的算法. 自己在学习编译有理...

    Aho-corasick算法1

    Aho-Corasick 算法是一种高效地进行字符串搜索的算法,由...总之,Aho-Corasick算法通过构建一个自动机,有效地避免了传统的多模式匹配中的回溯操作,实现了线性时间复杂度的高效搜索,极大地提升了字符串匹配的性能。

    Aho-Corasick 多模式匹配算法、AC自动机详解1

    Aho-Corasick多模式匹配算法是计算机科学中...总结起来,Aho-Corasick算法是解决多模式匹配问题的一个强大工具,通过构建AC自动机,能够在文本搜索中实现快速高效的模式匹配,广泛应用于文本分析、生物信息学等领域。

    aho-corasick-node:基于DoubleArray Trie的Aho-Corasick字符串匹配算法的Node实现

    aho-corasick-node 基于DoubleArray Trie的Aho-Corasick字符串匹配算法的Node实现。安装npm install aho-corasick-node --save用法建造const AhoCorasick = require ( 'aho-corasick-node' ) ;const keywords = [ 'b...

    aho-corasick-lua:Aho-Corasick字符串匹配算法的Lua实现

    在Lua中实现Aho-Corasick算法,可以极大地提高处理大量字符串搜索任务的效率。 首先,我们需要理解Aho-Corasick算法的基本思想。该算法基于两个主要的数据结构:字典树(也称为AC自动机或字典树)和失败指针。字典...

    php_aho_corasick:Aho-Corasick字符串搜索算法PHP扩展实现

    如果有大量的针头数据库(=要搜索的字符串,例如病毒签名),则特别有效。 另一个优点是,内置搜索结构在搜索之前在单独的调用中被初始化,因此可以在不同的干草堆中多次调用它,从而节省了时间。 用本机代码(PHP...

    aho-corasick:Go中的Aho-Corasick字符串搜索算法

    Go中Aho-Corasick字符串搜索算法的实现。 根据MIT许可获得许可。 细节 从几年前的,此实现就没有使用 。 这大大减少了构建时间,但以更高的内存消耗为代价。 搜索时间仍然很快,并且可以与我在github上发现的...

    深入理解Aho-Corasick自动机算法1

    Aho-Corasick自动机(简称AC自动机)是一种在字符串搜索中非常高效的算法,尤其在处理多个模式串匹配时。该算法由Aho和Corasick在1975年提出,它结合了Trie树和KMP算法的优点,减少了重复匹配,提高了匹配效率。 **...

    goac:在 Golang 中实现的 Aho-Corasick 字符串匹配库

    goac --- Aho-Corasick多模式字符串匹配算法Go语言实现 An Aho-Corasick multi-pattern string matching lib written in Golang Author: Inspired by: Usage Example package goac import "goac" func ...

    C#,字符串匹配(模式搜索)AC(Aho Corasick)算法的源代码

    Aho-Corasick算法简称AC算法,也称为AC自动机(Aho-Corasick)算法,1975年产生于贝尔实验室(The Bell Labs),是一种用于解决多模式字符串匹配的经典算法之一。字符串匹配是计算机科学中最古老、研究最广泛的问题...

    Aho-Corasick自动机实现

    Aho-Corasick自动机(AC自动机)是一种在文本搜索中非常高效的算法,由艾兹格·阿霍(Aho)和莫里斯·科拉斯克(Morris Corasick)于1975年提出。它扩展了KMP算法,能够一次性查找多个模式字符串,避免了对每个模式...

    Aho–Corasick 字符串匹配算法 C # 实现_代码_下载

    3. **字典树(AC自动机)**:Aho-Corasick算法的核心数据结构,它是一个 Trie(字典树),每个节点包含一个字符,并且从根节点到任何叶子节点的路径表示一个模式串。每个节点还包含一个失败指针,指向字典树中可能的...

    pyahocorasick:实现Aho-Corasick算法的Python模块(C扩展和纯Python)

    pyahocorasick是一个快速且内存有效的库,用于精确或近似的多模式字符串搜索,这意味着您可以在某些输入文本中一次找到多个键字符串。 该库提供了一个ahocorasick Python模块,您可以将其用作类似于dict的Trie,也...

    Algorithm-php_aho_corasick.zip

    Aho-Corasick算法,由艾兹格·A·霍斯(Aho)和莫里斯·科拉斯克(Corasick)于1975年提出,是一种字符串搜索算法,主要用于在一个文本中一次性查找多个模式串(pattern strings)。这个算法在PHP中也有实现,名为...

Global site tag (gtag.js) - Google Analytics