`
saybody
  • 浏览: 908497 次
  • 性别: Icon_minigender_2
  • 来自: 西安
文章分类
社区版块
存档分类
最新评论

正则基础之——NFA引擎匹配原理

阅读更多

NFA引擎匹配原理

1 为什么要了解引擎匹配原理

一个个音符杂乱无章的组合在一起,弹奏出的或许就是噪音,同样的音符经过作曲家的手,就可以谱出非常动听的乐曲,一个演奏者同样可以照着乐谱奏出动听的乐曲,但他/她或许不知道该如何去改变音符的组合,使得乐曲更动听。

作为正则的使用者也一样,不懂正则引擎原理的情况下,同样可以写出满足需求的正则,但是不知道原理,却很难写出高效且没有隐患的正则。所以对于经常使用正则,或是有兴趣深入学习正则的人,还是有必要了解一下正则引擎的匹配原理的。

2 正则表达式引擎

正则引擎大体上可分为不同的两类:DFANFA,而NFA又基本上可以分为传统型NFAPOSIX NFA

DFADeterministic finite automaton 确定型有穷自动机

NFA Non-deterministic finite automaton 非确定型有穷自动机

Traditional NFA

POSIX NFA

DFA引擎因为不需要回溯,所以匹配快速,但不支持捕获组,所以也就不支持反向引用和$number这种引用方式,目前使用DFA引擎的语言和工具主要有awkegrep lex

POSIX NFA主要指符合POSIX标准的NFA引擎,它的特点主要是提供longest-leftmost匹配,也就是在找到最左侧最长匹配之前,它将继续回溯。同DFA一样,非贪婪模式或者说忽略优先量词对于POSIX NFA同样是没有意义的。

大多数语言和工具使用的是传统型的NFA引擎,它有一些DFA不支持的特性:

  捕获组、反向引用和$number引用方式;

  环视(Lookaround(?<=)(?<!)(?=)(?!)),或者有的有文章叫做预搜索;

  忽略优化量词(??*?+?{m,n}?{m,}?),或者有的文章叫做非贪婪模式;

  占有优先量词(?+*+++{m,n}+{m,}+,目前仅JavaPCRE支持),固化分组(?>…)

引擎间的区别不是本文的重点,仅做简要的介绍,有兴趣的可参考相关文献。

3 预备知识

3.1 字符串组成

01

对于字符串abc而言,包括三个字符和四个位置。

3.2 占有字符和零宽度

正则表达式匹配过程中,如果子表达式匹配到的是字符内容,而非位置,并被保存到最终的匹配结果中,那么就认为这个子表达式是占有字符的;如果子表达式匹配的仅仅是位置,或者匹配的内容并不保存到最终的匹配结果中,那么就认为这个子表达式是零宽度的。

占有字符是互斥的,零宽度是非互斥的。也就是一个字符,同一时间只能由一个子表达式匹配,而一个位置,却可以同时由多个零宽度的子表达式匹配。

3.3 控制权和传动

正则的匹配过程,通常情况下都是由一个子表达式(可能为一个普通字符、元字符或元字符序列组成)取得控制权,从字符串的某一位置开始尝试匹配,一个子表达式开始尝试匹配的位置,是从前一子表达匹配成功的结束位置开始的。如正则表达式:

(子表达式一)(子表达式二)

假设(子表达式一)为零宽度表达式,由于它匹配开始和结束的位置是同一个,如位置0,那么(子表达式二)是从位置0开始尝试匹配的。

假设(子表达式一)为占有字符的表达式,由于它匹配开始和结束的位置不是同一个,如匹配成功开始于位置0,结束于位置2,那么(子表达式二)是从位置2开始尝试匹配的。

而对于整个表达式来说,通常是由字符串位置0开始尝试匹配的。如果在位置0开始的尝试,匹配到字符串某一位置时整个表达式匹配失败,那么引擎会使正则向前传动,整个表达式从位置1开始重新尝试匹配,依此类推,直到报告匹配成功或尝试到最后一个位置后报告匹配失败。

4 正则表达式简单匹本过程

4.1 基础匹配过程

02

源字符串:abc

正则表达式:abc

匹配过程:

首先由字符a取得控制权,从位置0开始匹配,由a来匹配a,匹配成功,控制权交给字符b;由于a已被a匹配,所以b从位置1开始尝试匹配,由b来匹配b,匹配成功,控制权交给c;由c来匹配c,匹配成功。

此时正则表达式匹配完成,报告匹配成功。匹配结果为abc,开始位置为0,结束位置为3

4.2 含有匹配优先量词的匹配过程——匹配成功(一)

03

源字符串:abc

正则表达式:ab?c

量词“?”属于匹配优先量词,在可匹配可不匹配时,会先选择尝试匹配,只有这种选择会使整个表达式无法匹配成功时,才会尝试让出匹配到的内容。这里的量词“?”是用来修饰字符“b”的,所以“b?”是一个整体。

匹配过程:

首先由字符a取得控制权,从位置0开始匹配,由a来匹配a,匹配成功,控制权交给字符b?;由于“?”是匹配优先量词,所以会先尝试进行匹配,由b?来匹配b,匹配成功,控制权交给c,同时记录一个备选状态;由c来匹配c,匹配成功。记录的备选状态丢弃。

此时正则表达式匹配完成,报告匹配成功。匹配结果为abc,开始位置为0,结束位置为3

4.3 含有匹配优先量词的匹配过程——匹配成功(二)

04

源字符串:ac

正则表达式:ab?c

匹配过程:

首先由字符a取得控制权,从位置0开始匹配,由a来匹配a,匹配成功,控制权交给字符b?;先尝试进行匹配,由b?来匹配c,同时记录一个备选状态,匹配失败,此时进行回溯,找到备选状态,“b?”忽略匹配,让出控制权,把控制权交给“c”;由c来匹配c,匹配成功。

此时正则表达式匹配完成,报告匹配成功。匹配结果为ac,开始位置为0,结束位置为2。其中“b?”不匹配任何内容。

4.4 含有匹配优先量词的匹配过程——匹配失败

05

源字符串:abd

正则表达式:ab?c

匹配过程:

首先由字符a取得控制权,从位置0开始匹配,由a来匹配a,匹配成功,控制权交给字符b?;先尝试进行匹配,由b?来匹配b,同时记录一个备选状态,匹配成功,控制权交给c;由c来匹配d,匹配失败,此时进行回溯,找到记录的备选状态,“b?”忽略匹配,即“b?”不匹配“b”,让出控制权,把控制权交给“c”;由c来匹配b,匹配失败。此时第一轮匹配尝试失败。

正则引擎使正则向前传动,由位置1开始尝试匹配,由a来匹配b,匹配失败,没有备选状态,第二轮匹配尝试失败。

继续向前传动,直到在位置3尝试匹配失败,匹配结束。此时报告整个表达式匹配失败。

4.5 含有忽略优先量词的匹配过程——匹配成功

06

源字符串:abc

正则表达式:ab??c

量词“??”属于忽略优先量词,在可匹配可不匹配时,会先选择不匹配,只有这种选择会使整个表达式无法匹配成功时,才会尝试进行匹配。这里的量词“??”是用来修饰字符“b”的,所以“b??”是一个整体。

匹配过程:

首先由字符a取得控制权,从位置0开始匹配,由a来匹配a,匹配成功,控制权交给字符b??;先尝试忽略匹配,即b??不进行匹配,同时记录一个备选状态,控制权交给c;由c来匹配b,匹配失败,此时进行回溯,找到记录的备选状态,“b??”尝试匹配,即“b??”来匹配“b”,匹配成功,把控制权交给“c”;由c来匹配c,匹配成功。

此时正则表达式匹配完成,报告匹配成功。匹配结果为abc,开始位置为0,结束位置为3。其中“b??”匹配字符“b”。

4.6 零宽度匹配过程

07

源字符串:a12

正则表达式:^(?=[a-z])[a-z0-9]+$

元字符“^”和“$”匹配的只是位置,顺序环视“(?=[a-z])”只进行匹配,并不占有字符,也不将匹配的内容保存到最终的匹配结果,所以都是零宽度的。

这个正则的意义就是匹配由字母或数字组成的,第一个字符是字母的字符串。

匹配过程:

首先由元字符^取得控制权,从位置0开始匹配,^匹配的就是开始位置位置0,匹配成功,控制权交给顺序环视“(?=[a-z])”;

(?=[a-z])”要求它所在位置右侧必须是字母才能匹配成功,零宽度的子表达式之间是不互斥的,即同一个位置可以同时由多个零宽度子表达式匹配,所以它也是从位置0尝试进行匹配,位置0的右侧是字符“a”,符合要求,匹配成功,控制权交给“[a-z0-9]+”;

因为“(?=[a-z])”只进行匹配,并不将匹配到的内容保存到最后结果,并且“(?=[a-z])”匹配成功的位置是位置0,所以“[a-z0-9]+”也是从位置0开始尝试匹配的,“[a-z0-9]+”首先尝试匹配“a”,匹配成功,继续尝试匹配,可以成功匹配接下来的“1”和“2”,此时已经匹配到位置3,位置3的右侧已没有字符,这时会把控制权交给“$”;

元字符“$”从位置3开始尝试匹配,它匹配的是结束位置,也就是位置3,匹配成功。

此时正则表达式匹配完成,报告匹配成功。匹配结果为a12,开始位置为0,结束位置为3。其中“^”匹配位置0,“(?=[a-z])”匹配位置0,“[a-z0-9]+”匹配字符串“a12”,“$”匹配位置3

分享到:
评论

相关推荐

    白色简洁的艺术展示网页模板下载.zip

    白色简洁的艺术展示网页模板下载.zip

    电商平台开发需求文档.doc

    电商平台开发需求文档.doc

    STM32F030单片机控制LED灯.zip

    1、嵌入式物联网单片机项目开发例程,简单、方便、好用,节省开发时间。 2、代码使用KEIL 标准库开发,当前在STM32F030C8T6运行,如果是STM32F030其他型号芯片,依然适用,请自行更改KEIL芯片型号以及FLASH容量即可。 3、软件下载时,请注意keil选择项是jlink还是stlink。 4、有偿指导v:wulianjishu666; 5、如果接入其他传感器,请查看账号发布的其他资料。 6、单片机与模块的接线,在代码当中均有定义,请自行对照。 7、若硬件有差异,请根据自身情况调整代码,程序仅供参考学习。 8、代码有注释说明,请耐心阅读。 9、编译时请注意提示,请选择合适的编译器版本。

    数电期末练习题.doc

    数电期末练习题.doc

    交易流水证明_用于材料证明_20241225_174557.zip

    交易流水证明_用于材料证明_20241225_174557.zip

    计算机网络期末复习(第八版)谢希仁

    计算机网络期末复习(第八版)谢希仁

    基于微信小程序的汽车销售系统的设计与实现springboot.zip

    汽车销售系统使用Java语言进行编码,使用Mysql创建数据表保存本系统产生的数据。系统可以提供信息显示和相应服务,其管理汽车销售系统信息,查看汽车销售系统信息,管理汽车销售系统。 用户信息管理页面,此页面提供给管理员的功能有:用户信息的查询管理,可以删除用户信息、修改用户信息、新增用户信息,还进行了对用户名称的模糊查询的条件。 汽车信息管理页面,此页面提供给管理员的功能有:查看已发布的汽车信息数据,修改汽车信息,汽车信息作废,即可删除,还进行了对汽车信息名称的模糊查询 汽车信息信息的类型查询等等一些条件。 汽车类型管理页面,此页面提供给管理员的功能有:根据汽车类型进行条件查询,还可以对汽车类型进行新增、修改、查询操作等等。

    VB+ACCESS网络计时管理系统设计(源代码+系统)(2024gv).7z

    1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于计算机科学与技术等相关专业,更为适合;

    电视盒子的远程输入法应用,可跨屏远程输入和跨屏远程控制盒子.7z

    电视盒子的远程输入法应用,可跨屏远程输入和跨屏远程控制盒子.7z

    白色大气的旅游度假酒店企业网站模板下载.zip

    白色大气的旅游度假酒店企业网站模板下载.zip

    【信息融合】基于matlab多维卡尔曼滤波器传感器信息融合(含GPS)【含Matlab源码 9980期】含报告.zip

    Matlab领域上传的视频均有对应的完整代码,皆可运行,亲测可用,适合小白; 1、代码压缩包内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

    (177453248)用python代 码放烟花.zip

    标题中的“用python代码放烟花”表明我们将讨论如何使用Python编程语言来模拟烟花绽放的效果。在Python编程中,实现这样的视觉效果通常涉及到图形用户界面(GUI)或者更具体地说是图形渲染。描述中的内容与标题一致,暗示我们将深入探讨一个使用Python编写的烟花模拟程序。 `main.py`是这个项目的核心文件,它很可能是整个烟花秀的主入口点。在这个文件中,开发者可能定义了程序的主循环,以及调用其他模块如`particle.py`的代码。`particle.py`可能包含了粒子系统的设计,因为烟花效果通常是通过模拟无数粒子的运动来实现的。粒子系统是一种常见的计算机图形学技术,用于模拟大量独立对象(在这里是烟花)的行为。 在`particle.py`中,我们可以预期找到类或函数来定义烟花粒子的属性,比如位置、速度、颜色、生命周期等。这些粒子可能会随着时间的推移而改变状态,例如从升空到爆炸,再到散开形成绚丽的图案。开发者可能使用了物理学原理,如重力和随机力,来模拟粒子的运动。 `.gitignore`文件是一个配置文件,告诉Git版本控制系统忽略特定的文件或目录。在这个项目中,它可

    白色创意风格的图片浏览源码下载.zip

    白色创意风格的图片浏览源码下载.zip

    白色大气风格的设计公司CSS3单页模板.zip

    白色大气风格的设计公司CSS3单页模板.zip

    Chapter 03 复合数据类型-1(资源)

    Chapter 03 复合数据类型-1(资源)项目中编写代码部分的源代码示例,包括石头剪刀布程序和用户登录以及增删改查程序

    白色大气风格的电子邮件订阅模板下载.zip

    白色大气风格的电子邮件订阅模板下载.zip

    IMG_20241225_230314.jpg

    IMG_20241225_230314.jpg

    白色简洁风格的安卓游戏卡通动漫人物整站网站模板.zip

    白色简洁风格的安卓游戏卡通动漫人物整站网站模板.zip

    (180204840)变电站红外电压电流互感器绝缘子检测图像数据集

    变电站红外电压电流互感器绝缘子检测图像数据集,数据集总共1600张左右图片,标注为VOC格式图像数据集,数据集总共1600张左右图片,标注为VOC格式。内容来源于网络分享,如有侵权请联系我删除。另外如果没有积分的同学需要下载,请私信我。

Global site tag (gtag.js) - Google Analytics