`
yzmduncan
  • 浏览: 330389 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
文章分类
社区版块
存档分类
最新评论

AC自动机——Aho-Corasick Algorithm

阅读更多

    初学者关于AC自动机的疑问:什么是AC自动机?为什么要学习AC自动机?学习AC自动机需要哪些知识?如何构造AC自动机及其应用?

    1. 什么是AC自动机

    AC的意思和KMP相似,是由Aho-Corasick这两个人创造的,用于多字符串匹配问题的算法。比如给你一个文本文件,再给你k个目标串,让你寻找这k个目标串是否存在在这个文件中。

    2. 为什么要学习AC自动机

    相信大家都了解KMP算法,它是用于单模式串的线性匹配算法。它的主要思想是当主串和模式串匹配不成功时,模式串不用从头开始匹配,而是回退到tk处,其中k为满足T0T1..Tk-1=Tj-k+1..Tj-Ttj的最大值。充分利用了模式串本身的性质。KMP的时间复杂度为O(m+k),m为主串长度,k为模式串长度。

    若用KMP来做多模式串匹配,复杂度为O(m+k1+m+k2+...m+kk)=(n+km),k为模式串个数,n=sigma(ki),即模式串的总长度之和。可见在多模式串匹配中,采用KMP算法求解就不再是线性的了。哈哈!AC自动机派上用场了,它用于多模式串匹配问题,时间复杂度可以达到O(m+n+z),其中z为主串中模式串的总个数。是不是很有诱惑力?

    3. 学习AC自动机需要的知识

    要想学好AC自动机,需要真正弄懂KMP算法和Trie树(单词查找树)。

    4. 如何构造AC自动机

    构造AC自动机分两步:根据模式串构造Trie树;BFS创建失败指针。

    所谓失败指针类似于KMP中的next数组,当主串在Trie上进行匹配时,如果当前节点不能继续匹配时,就应当退回到当前节点的失败指针所指向的节点。

    在这里主要说下失败指针的构造:首先与根直接相邻的点的失败指针指向根节点,并入队列;设当前节点p1的子节点c1含字符C,沿着这个节点的失败指针走,一直走到某个节点p2,它的某个子节点c2含也字符C,那么把c1的失败指针指向c2,其含义是c1所代表的串的后缀和c2所代表的串的前缀相等且相同部分最长。

    5. 在AC自动机上的查询

    若当前主串的字符和Trie树上的匹配,看这个节点是否是某个串的结束标志,若是,记录这个节点(注意,还要继续根据该节点的失败指针继续查找,这是因为它的后缀也有可能是模式串,比如在找串yashe中,she和he是两个模式串,它会先找到she,再找到he)。然后沿着路径继续向下走,继续匹配下一个字符;若当前字符不匹配,则去当前节点的失败指针继续寻找;重复这两者中的任意一个,直到主串走到结尾为止。 

   例:说了这么多,来看看例题吧。

   HDU2222,2896,AC自动机裸题。

   POJ1204,比前面两题稍微复杂点。附代码。

 

/**
* 题意:
*   在一个r*c(r,c<=1000)的word puzzle中,寻找m个单词,
*   输出单词的起始位置和方向(8个方向,从上开始顺时针,分别为ABCDEFGH)
* 解:
*   根据单词反向建立ac自动机。在puzzle以8个方向分别查询。
*/
#include <iostream>
#include <cstdio>
#include <cstring>
#include <algorithm>
#include <queue>
#include <vector>
using namespace std;
const int Max = 1005;
int r,c,w;
char puzzle[Max][Max];
char wd[Max*3];
int len[Max];
int dir[8][2] = {{-1,0},{-1,1},{0,1},{1,1},{1,0},{1,-1},{0,-1},{-1,-1}};//up .... eight directions
char d[8] = {'E','F','G','H','A','B','C','D'};

//
struct Trie_Node
{
    Trie_Node* fail;
    Trie_Node* next[26];
    int value;
    Trie_Node()
    {
        value = 0;
        fail = NULL;
        memset(next,0,sizeof(next));
    }
};

void insertWord(Trie_Node* root, char* s, int len, int seq) //反向建立单词
{
    int del;
    Trie_Node* p = root;
    for(int i = len-1; i >= 0; i--)
    {
        del = s[i] - 'A';
        if(p->next[del] == NULL)
            p->next[del] = new Trie_Node();
        p = p->next[del];
    }
    p->value = seq;
}

void build_ac_automachine(Trie_Node* root)
{
    int i;
    queue<Trie_Node*> que;
    root->fail = NULL;
    for(i = 0; i < 26; i++)
    {
        if(root->next[i] != NULL)
        {
            root->next[i]->fail = root;
            que.push(root->next[i]);
        }
    }
    Trie_Node* now;
    while(!que.empty())
    {
        now = que.front();
        que.pop();
        for(i = 0; i < 26; i++)
        {
            if(now->next[i] == NULL)
                continue;
            Trie_Node* p = now->fail;
            while(p!=NULL&&p->next[i]==NULL)
                p = p->fail;
            if(p == NULL)
                now->next[i]->fail = root;
            else
                now->next[i]->fail = p->next[i];
            que.push(now->next[i]);
        }
    }
}
//

int X[Max],Y[Max],D[Max];

void SearchPatterns(Trie_Node* root, int i, int j, int k)
{
    int x=i,y=j;
    int del;
    Trie_Node* now = root;
    while(true)
    {
        if(x<0||x>=r||y<0||y>=c)
            break;
        del = puzzle[x][y]-'A';
        while(now->next[del]==NULL&&now!=root)
            now = now->fail;
        now = now->next[del];
        if(now == NULL)
            now = root;
        Trie_Node* p = now;
        while(p!=root&&p->value)
        {
            X[p->value] = x;
            Y[p->value] = y;
            D[p->value] = k;
            p->value = 0;
            p = p->fail;
        }
        x += dir[k][0];
        y += dir[k][1];
    }
}

int main()
{
    int i,j;
    Trie_Node* root = new Trie_Node();
    scanf("%d %d %d",&r,&c,&w);
    for(i = 0; i < r; i++)
        scanf("%s",puzzle[i]);
    for(i = 1; i <= w; i++)
    {
        scanf("%s",wd);
        len[i] = strlen(wd);
        insertWord(root,wd,strlen(wd),i);
    }
    build_ac_automachine(root);
    //8个方向上的查询
    for(i = 0; i < r; i++)
    {
        SearchPatterns(root,i,0,2);
        SearchPatterns(root,i,c-1,6);
        SearchPatterns(root,i,0,3);
        SearchPatterns(root,i,c-1,7);
        SearchPatterns(root,i,0,1);
        SearchPatterns(root,i,c-1,5);
    }
    for(j = 0; j < c; j++)
    {
        SearchPatterns(root,r-1,j,0);
        SearchPatterns(root,0,j,4);
        SearchPatterns(root,0,j,3);
        SearchPatterns(root,r-1,j,7);
        SearchPatterns(root,r-1,j,1);
        SearchPatterns(root,0,j,5);
    }
    for(i = 1; i <= w; i++)
        printf("%d %d %c\n",X[i],Y[i],d[D[i]]);
    return 0;
}

 

 

 

分享到:
评论

相关推荐

    AC自动机算法(Aho-Corasick 多模式匹配算法)

    AC自动机算法(Aho-Corasick 多模式匹配算法)C#实现

    AC自动机-Set Matching and Aho-Corasick Algorithm

    AC自动机(Aho-Corasick Algorithm)是一种高效解决多个模式匹配问题的经典算法。它能在一个目标文本中同时查找多个模式的所有出现位置,并在最坏情况下达到线性时间复杂度。本篇将详细介绍AC自动机的基本原理及其在...

    Algorithm-php_aho_corasick.zip

    这个算法在PHP中也有实现,名为"php_aho_corasick",并以zip文件"Algorithm-php_aho_corasick.zip"的形式提供。 Aho-Corasick算法的核心在于构建一个“自动机”(Automaton),也称为“试错树”或“前缀树”。这个...

    Algorithm-ahocorapy.zip

    《算法之Aho-Corasick实现与应用》 在计算机科学领域,算法是解决特定问题的精确步骤集合,是程序设计的基础。Aho-Corasick算法便是其中一种高效的字符串匹配算法,尤其在处理大量模式搜索时,其优势尤为显著。本篇...

    多模式匹配 ac自动机 dawg自动机

    #### AC自动机(Aho-Corasick Algorithm) AC自动机是由Aho和Corasick在1975年提出的,它是基于有限状态自动机的一种高效多模式匹配算法。该算法能够在一个文本中同时查找多个模式,并且具有线性时间复杂度\(O(n+m)...

    AC自动机模板

    **AC自动机(Aho-Corasick Algorithm)模板** AC自动机是一种字符串搜索算法,它在文本中查找多个模式串的出现情况。该算法由艾伦·科拉斯和戈登·科拉斯在1975年提出,是KMP算法和后缀自动机的结合,具有高效性和...

    Algorithm-ahocorasick.zip

    在JavaScript中实现Aho-Corasick算法,首先需要理解其基本结构——自动机。自动机由一个根节点和一系列子节点组成,每个子节点代表字符串中的一个字符。当遇到与当前节点对应的输入字符时,就会沿着边移动到下一个...

    Algorithm-ahocorasickphp.zip

    本文将深入探讨一种高效的字符串搜索算法——Aho-Corasick算法,并介绍如何通过PHP实现这一算法的库——Algorithm-ahocorasickphp。我们将从算法的基本原理、PHP库的功能特性以及实际应用等方面展开讨论,旨在帮助...

    Algorithm-synonym-extractor.zip

    "Algorithm-synonym-extractor.zip"是一个利用改进的Aho-Corasick算法实现的程序,其主要功能是从文本中高效、全面地提取同义词和关键词。本文将深入探讨这一算法及其在同义词提取中的应用。 Aho-Corasick算法,由...

    一种存储优化的多模式匹配算法

    多模式匹配算法,例如AC(Aho-Corasick)自动机,能够在一次遍历中同时查找多个模式串。 【AC自动机】 Aho-Corasick算法是多模式匹配的经典方法,它通过构建Trie树(字典树)并进行预处理,形成一个有限状态自动机...

    AC算法和AC-BM算法

    首先,AC算法,全称为Aho-Corasick算法,是由Aho和Corasick在1975年提出的。该算法基于前缀树(也称为自动机或字典树)的数据结构,构建了一个高效的字符串搜索工具。AC算法的核心思想是:在构建的自动机中,一旦在...

    AC-BM算法

    AC-BM算法,全称是Aho-Corasick自动机(Aho-Corasick Algorithm),是一种在文本中高效地进行多模式匹配的算法。这个算法由Aho和Corasick在1975年提出,它扩展了KMP算法的功能,能够同时查找多个模式串在主串中的...

    AC算法(java实现)

    AC自动机(Aho-Corasick Algorithm)是一种用于字符串搜索的高效算法,它在多模式匹配问题中表现出色。这个算法是由Aho和Corasick在1975年提出的,能够同时查找多个模式串(pattern)在一个文本串(text)中出现的...

    关键字查询AC算法 +(java)

    **AC自动机(Aho-Corasick Algorithm)算法详解** AC自动机,全称为Aho-Corasick字符串匹配算法,是一种在大量文本中查找多个模式(关键字)的高效方法。这个算法是由Aho和Corasick在1975年提出的,主要解决了KMP...

    [转载]多模匹配算法(C++)

    AC自动机(Aho-Corasick Algorithm),是由Aho和Corasick在1975年提出的一种多模匹配算法,是解决这一问题的有效方法。 **AC自动机** AC自动机的核心思想是构建一个有向图(通常称为"失败指针"的 Trie 树),这个...

    带拼音城市数据库AC版

    AC版城市数据库则进一步优化了这一功能,它采用了高效的AC自动机(Aho-Corasick Algorithm)算法,提高了拼音搜索的性能,实现了快速的多模式匹配。 AC自动机是一种字符串搜索算法,能一次性处理多个模式串的匹配...

    autoComplete

    对于效率,往往需要考虑使用如Trie树、AC自动机(Aho-Corasick algorithm)等数据结构来优化。 4. **结果显示**:匹配到的建议需要实时显示在输入框下方,通常以下拉列表的形式呈现。这需要使用HTML和CSS来布局和...

    字符串近似匹配 源代码 linux

    在实际应用中,字符串近似匹配算法可能会结合其他数据结构,如Trie树、AC自动机(Aho-Corasick algorithm)或者后缀数组,以提高搜索效率。此外,为了优化性能,还可以使用哈希函数和位运算技巧。 该项目中的源代码...

    MyAutoComplete

    在数据处理方面,一般会采用如Trie树、AC自动机(Aho-Corasick Algorithm)或者模糊匹配算法,这些算法能高效地查找与用户输入相匹配的候选词。例如,Trie树结构允许我们快速地查找以特定前缀开头的所有单词,而AC...

    自动补全结合Tabs

    1. **实时搜索算法**:这通常涉及到字符串匹配算法,如Trie树、AC自动机(Aho-Corasick Algorithm)、Levenshtein距离等,用于快速找出与用户输入相匹配的候选结果。 2. **缓存策略**:为了提高性能,系统通常会...

Global site tag (gtag.js) - Google Analytics