字符串匹配的KMP算法
字符串匹配是计算机的基本任务之一。
举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"?
许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一。它以三个发明者命名,起头的那个K就是著名科学家Donald Knuth。
这种算法不太容易理解,网上有很多解释,但读起来都很费劲。直到读到Jake Boxer的文章,我才真正理解这种算法。下面,我用自己的语言,试图写一篇比较好懂的KMP算法解释。
1.
首先,字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的第一个字符,进行比较。因为B与A不匹配,所以搜索词后移一位。
2.
因为B与A不匹配,搜索词再往后移。
3.
就这样,直到字符串有一个字符,与搜索词的第一个字符相同为止。
4.
接着比较字符串和搜索词的下一个字符,还是相同。
5.
直到字符串有一个字符,与搜索词对应的字符不相同为止。
6.
这时,最自然的反应是,将搜索词整个后移一位,再从头逐个比较。这样做虽然可行,但是效率很差,因为你要把"搜索位置"移到已经比较过的位置,重比一遍。
7.
一个基本事实是,当空格与D不匹配时,你其实知道前面六个字符是"ABCDAB"。KMP算法的想法是,设法利用这个已知信息,不要把"搜索位置"移回已经比较过的位置,继续把它向后移,这样就提高了效率。
8.
怎么做到这一点呢?可以针对搜索词,算出一张《部分匹配表》(Partial Match Table)。这张表是如何产生的,后面再介绍,这里只要会用就可以了。
9.
已知空格与D不匹配时,前面六个字符"ABCDAB"是匹配的。查表可知,最后一个匹配字符B对应的"部分匹配值"为2,因此按照下面的公式算出向后移动的位数:
移动位数 = 已匹配的字符数 - 对应的部分匹配值
因为 6 - 2 等于4,所以将搜索词向后移动4位。
10.
因为空格与C不匹配,搜索词还要继续往后移。这时,已匹配的字符数为2("AB"),对应的"部分匹配值"为0。所以,移动位数 = 2 - 0,结果为 2,于是将搜索词向后移2位。
11.
因为空格与A不匹配,继续后移一位。
12.
逐位比较,直到发现C与D不匹配。于是,移动位数 = 6 - 2,继续将搜索词向后移动4位。
13.
逐位比较,直到搜索词的最后一位,发现完全匹配,于是搜索完成。如果还要继续搜索(即找出全部匹配),移动位数 = 7 - 0,再将搜索词向后移动7位,这里就不再重复了。
14.
下面介绍《部分匹配表》是如何产生的。
首先,要了解两个概念:"前缀"和"后缀"。 "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。
15.
"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例,
- "A"的前缀和后缀都为空集,共有元素的长度为0;
- "AB"的前缀为[A],后缀为[B],共有元素的长度为0;
- "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;
- "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;
- "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;
- "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;
- "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。
16.
"部分匹配"的实质是,有时候,字符串头部和尾部会有重复。比如,"ABCDAB"之中有两个"AB",那么它的"部分匹配值"就是2("AB"的长度)。搜索词移动的时候,第一个"AB"向后移动4位(字符串长度-部分匹配值),就可以来到第二个"AB"的位置。
相关推荐
KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称KMP算法)。KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的...
《字符串模式匹配KMP算法》教学课例设计 在这篇教学设计中,我们旨在帮助学生掌握KMP字符串模式匹配算法的基本概念和应用。通过本课例设计,学生将了解KMP算法的应用普遍性、实现机制和时间复杂度,并掌握计算next...
本篇文章将详细探讨四种常见的字符串匹配算法:平凡算法(SimpleSM)、KMP算法(KMPSM)、BM算法(bmSM)以及RK算法(rkSM),并分析它们的基本原理和C代码实现。 1. **平凡算法(SimpleSM)** 平凡算法是最基础的...
### 字符串模式匹配KMP算法详解 #### 一、引言 在计算机科学领域,字符串模式匹配是一项基本且重要的任务。它涉及到在一个较大的文本字符串(通常称为“主串”或“目标串”)中寻找一个较小的字符串(称为“模式串...
### KMP字符串匹配算法及其C语言实现 #### KMP算法简介 KMP(Knuth-Morris-Pratt)算法是一...本篇通过详细的C语言实现介绍了KMP算法的基本原理和实现方法,希望能帮助读者更好地理解和应用这一高效的字符串匹配技术。
本篇文章将详细介绍由ACM金牌得主朱泽园撰写的《字符串匹配算法》中的核心知识点,包括KMP模式匹配算法、单词前缀树算法以及后缀树算法等。 #### 2. KMP模式匹配算法 ##### 2.1 KMP算法简介 KMP算法是由Donald ...
本篇将详细介绍一个基于Qt框架实现的字符串匹配程序,该程序涵盖了多种经典的字符串匹配算法,包括BF算法(Brute Force)、KMP算法(Knuth-Morris-Pratt)以及BM算法(Boyer-Moore)。这些算法是计算机科学中的基础...
串匹配算法则是处理字符串问题的关键技术,常用于文本处理、模式识别、数据搜索等多个场景。本篇我们将深入探讨串和匹配算法的相关知识。 串匹配,简单来说,就是在一个主串(文本)中查找一个模式串(目标)的过程...
总的来说,这篇研究探讨了如何利用GPU的并行计算能力优化字符串匹配算法,通过CUDA实现Sunday算法的并行化,以提高实际应用中的匹配效率。这一方法对于提高信息处理速度,尤其是在大数据时代,具有很大的实践意义。
### KMP字符串模式匹配详解 #### 一、引言 KMP字符串模式匹配算法是一种高效的在文本中查找特定模式的方法。相较于传统的简单匹配...通过本篇文章的学习,希望能够帮助读者更好地理解KMP算法的原理及其实际应用价值。
### C++语言中的KMP算法实现 ...本篇文章通过对KMP算法的基本原理和C++实现进行了详细介绍,希望能帮助读者更好地理解和掌握这一算法。在实际应用中,KMP算法广泛应用于文本搜索、数据压缩等领域,具有重要的实用价值。
总结,KMP算法是一种高效的字符串匹配算法,通过部分匹配表避免了不必要的回溯,提高了搜索效率。C语言实现KMP算法需要理解其核心思想并正确构建部分匹配表。通过不断优化,我们可以进一步提升算法的性能。
KMP算法是由D.E.Knuth、V.R.Morris和J.H.Pratt三位学者于1970年提出的一种字符串匹配算法。它避免了在匹配过程中对已比较过的字符进行重复比较,从而提高了效率。传统的字符串匹配算法,如朴素字符串匹配,在遇到不...
本篇文章将聚焦于易语言中的一个核心算法模块——KMP(Knuth-Morris-Pratt)算法,通过对"易语言源码KMP算法模块源码.rar"中的源码进行深入解读,旨在帮助读者理解并掌握这一经典的字符串匹配算法。 KMP算法是由D.M...
字符串的多模式匹配算法在计算机科学中是一种高效处理多个模式串与一个长文本进行匹配的技术。这个主题在信息检索、生物信息学、数据挖掘等领域有着广泛的应用。在本篇文章中,我们将深入探讨这一算法,特别是Aho-...
KMP算法是字符串匹配中的一个重要工具,通过构建部分匹配表来避免不必要的回溯,提高搜索效率。在Python中实现KMP算法,可以方便地应用于抄袭检测,快速定位可能存在抄袭的文本段落。通过对多个文本进行KMP算法匹配...
字符串匹配是计算机科学中一个基础且重要的问题,它在数据搜索、文本处理、生物信息学等领域有着广泛应用。KMP(Knuth-Morris-Pratt)算法是一种高效的字符串匹配算法,由D.E. Knuth、V.R. Morris和J.H. Pratt在1970...
KMP算法(Knuth-Morris-Pratt算法)作为字符串匹配算法中的经典之一,被广泛应用于文本处理、搜索引擎等领域。此次分享的是使用易语言实现的KMP算法模块源码。易语言是一种面向中国用户的编程语言,具有易于学习、...
KMP(Knuth-Morris-Pratt)算法是一种高效的字符串匹配算法,它避免了不必要的字符比较,从而提高了效率。本篇文章将深入浅出地解析KMP算法的核心思想和next数组的计算方法。 一、KMP算法概述 KMP算法是由D.E....