`
xzliulin
  • 浏览: 57260 次
  • 性别: Icon_minigender_1
  • 来自: 江苏徐州
社区版块
存档分类
最新评论

表达式的递归匹配

    博客分类:
  • JAVA
阅读更多
1. 表达式的递归匹配

    有时候,我们需要用正则表达式来分析一个计算式中的括号配对情况。比如,使用表达式 "\( [^)]* \)" 或者 "\( .*? \)" 可以匹配一对小括号。但是如果括号 内还嵌有一层括号的话 ,如 "( ( ) )",则这种写法将不能够匹配正确,得到的结果是 "( ( )" 。类似情况的还有 HTML 中支持嵌套的标签如 "<font> </font>" 等。本节将要讨论的是,想办法把有嵌套的的成对括号或者成对标签匹配出来。

匹配未知层次的嵌套:

    有的正则表达式引擎,专门针对这种嵌套提供了支持。并且在栈空间允许的情况下,能够支持任意未知层次的嵌套:比如 Perl,PHP,GRETA 等。在 PHP 和 GRETA 中,表达式中使用 "(?R)" 来表示嵌套部分。

    匹配嵌套了未知层次的 "小括号对" 的表达式写法如下:"\(  ([^()]  |  (?R))*  \)"。

    [Perl 和 PHP 的示例代码]

匹配有限层次的嵌套:

    对于不支持嵌套的正则表达式引擎,只能通过一定的办法来匹配有限层次的嵌套。思路如下:

    第一步,写一个不能支持嵌套的表达式:"\( [^()]* \)","<font>((?!</?font>).)*</font>"。 这两个表达式在匹配有嵌套的文本时,只匹配最内层。

    第二步,写一个可匹配嵌套一层的表达式:"\( ([^()] | \( [^()]* \))* \)"。这个表达式在匹配嵌套层数大于一时,只能匹配最里面的两层,同时,这个表达式也能匹配没有嵌套的文本或者嵌套的最里层。

    匹配嵌套一层的 "<font>" 标签,表达式为:"<font>((?!</?font>).|(<font>((?!</?font>).)*</font>))*</font>"。这个表达式在匹配 "<font>" 嵌套层数大于一的文本时,只匹配最里面的两层。

    第三步,找到匹配嵌套(n)层的表达式 与 嵌套(n-1)层的表达式之间的关系。比如,能够匹配嵌套(n)层的表达式为:

    [标记头]  ( [匹配 [标记头] 和 [标记尾] 之外的表达式] | [匹配 n-1 层的表达式] )*  [标记尾]

    回头来看前面编写的“可匹配嵌套一层”的表达式:

  \( ( [^()] | \(([^()])*\) )* \)
<font> ( (?!</?font>). | (<font>((?!</?font>).)*</font>) )* </font>
             
PHP 和 GRETA 的简便之处在于,匹配嵌套(n-1)层的表达式用 (?R) 表示:
\( ( [^()] | (?R) )* \)

    第四步,依此类推,可以编写出匹配有限(n)层的表达式。这种方式写出来的表达式,虽然看上去很长,但是这种表达式经过编译后,匹配效率仍然是很高的。


2. 非贪婪匹配的效率

    可能有不少的人和我一样,有过这样的经历:当我们要匹配类似 "<td>内容</td>" 或者 "[b]加粗[/b]" 这样的文本时,我们根据正向预搜索功能写出这样的表达式:"<td>([^<]|<(?!/td>))*</td>" 或者 "<td>((?!</td>).)*</td>"。

    当发现非贪婪匹配之时,恍然大悟,同样功能的表达式可以写得如此简单:"<td>.*?</td>"。 顿时间如获至宝,凡是按边界匹配的地方,尽量使用简捷的非贪婪匹配 ".*?"。特别是对于复杂的表达式来说,采用非贪婪匹配 ".*?" 写出来的表达式的确是简练了许多。

    然而,当一个表达式中,有多个非贪婪匹配时,或者多个未知匹配次数的表达式时,这个表达式将可能存在效率上的陷阱。有时候,匹配速度慢得莫名奇妙,甚至开始怀疑正则表达式是否实用。

效率陷阱的产生:

    在本站基础文章里,对非贪婪匹配的描述中说到:“如果少匹配就会导致整个表达式匹配失败的时候,与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。”

    具体的匹配过程是这样的:

  1. "非贪婪部分" 先匹配最少次数,然后尝试匹配 "右侧的表达式"。
  2. 如果右侧的表达式匹配成功,则整个表达式匹配结束。如果右侧表达式匹配失败,则 "非贪婪部分" 将增加匹配一次,然后再尝试匹配 "右侧的表达式"。
  3. 如果右侧的表达式又匹配失败,则 "非贪婪部分" 将再增加匹配一次。再尝试匹配 "右侧的表达式"。
  4. 依此类推,最后得到的结果是 "非贪婪部分" 以尽可能少的匹配次数,使整个表达式匹配成功。或者最终仍然匹配失败。

    当一个表达式中有多个非贪婪匹配,以表达式 "d(\w+?)d(\w+?)z" 为例,对于第一个括号中的 "\w+?" 来说,右边的 "d(\w+?)z" 属于它的 "右侧的表达式",对于第二个括号中的 "\w+?" 来说,右边的 "z" 属于它的 "右侧的表达式"。

    当 "z" 匹配失败时,第二个 "\w+?" 会 "增加匹配一次",再尝试匹配 "z"。如果第二个 "\w+?" 无论怎样 "增加匹配次数",直至整篇文本结束,"z" 都不能匹配,那么表示 "d(\w+?)z" 匹配失败,也就是说第一个 "\w+?" 的 "右侧" 匹配失败。此时,第一个 "\w+?" 会增加匹配一次,然后再进行 "d(\w+?)z" 的匹配。循环前面所讲的过程,直至第一个 "\w+?" 无论怎么 "增加匹配次数",后边的 "d(\w+?)z" 都不能匹配时,整个表达式才宣告匹配失败。

    其实,为了使整个表达式匹配成功,贪婪匹配也会适当的“让出”已经匹配的字符。因此贪婪匹配也有类似的情况。当一个表达式中有较多的未知匹配次数的表达式时,为了让整个表达式匹配成功,各个贪婪或非贪婪的表达式都要进行尝试减少或增加匹配次数,由此容易形成一个大循环的尝试,造成了很长的匹配时间。本文之所以称之为“陷阱”,因为这种效率问题往往不易察觉。

    举例:"d(\w+?)d(\w+?)d(\w+?)z" 匹配 "ddddddddddd..." 时,将花费较长一段时间才能判断出匹配失败 。

效率陷阱的避免:

    避免效率陷阱的原则是:避免“多重循环”的“尝试匹配”。并不是说非贪婪匹配就是不好的,只是在运用非贪婪匹配的时候,需要注意避免过多“循环尝试”的问题。

    情况一:对于只有一个非贪婪或者贪婪匹配的表达式来说,不存在效率陷阱。也就是说,要匹配类似 "<td> 内容 </td>" 这样的文本,表达式 "<td>([^<]|<(?!/td>))*</td>" 和 "<td>((?!</td>).)*</td>" 和 "<td>.*?</td>" 的效率是完全相同的。

    情况二:如果一个表达式中有多个未知匹配次数的表达式,应防止进行不必要的尝试匹配。

    比如,对表达式 "<script language='(.*?)'>(.*?)</script>" 来说, 如果前面部分表达式在遇到 "<script language='vbscript'>" 时匹配成功后,而后边的 "(.*?)</script>" 却匹配失败,将导致第一个 ".*?" 增加匹配次数再尝试。而对于表达式真正目的,让第一个 ".*?" 增加匹配成“vbscript'>”是不对的,因此这种尝试是不必要的尝试。

    因此,对依靠边界来识别的表达式,不要让未知匹配次数的部分跨过它的边界。前面的表达式中,第一个 ".*?" 应该改写成 "[^']*"。后边那个 ".*?" 的右边再没有未知匹配次数的表达式,因此这个非贪婪匹配没有效率陷阱。于是,这个匹配脚本块的表达式,应该写成:"<script language='([^']*)'>(.*?)</script>" 更好。

分享到:
评论

相关推荐

    正则表达式--递归匹配与非贪婪匹配

    ### 正则表达式——递归匹配与非贪婪匹配 #### 一、递归匹配 在正则表达式中,递归匹配是一个重要的概念,它主要用于处理那些具有嵌套结构的数据,例如数学公式中的括号匹配或HTML标签的匹配。 ##### 1.1 嵌套...

    算术表达式递归下降分析程序设计

    在计算机科学中,递归下降分析(Recursive Descent Parsing)是一种自顶向下的解析方法,常用于编译器和解释器的设计中。本项目的目标是设计一个C++源程序,用于解析给定的算术表达式。根据描述,提供的算术表达式...

    语法分析:算术表达式递归下降分析程序设计(实验)

    在这个实验中,我们将探讨如何设计一个递归下降分析程序来处理给定的算术表达式文法。 算术表达式文法如下: E --&gt; E + T | T T --&gt; T * F | F F --&gt; (E) | i 这个文法定义了三个非终结符E、T和F,以及两个终结符...

    另一个递归查找文件:递归搜索路径名与通配符或正则表达式模式匹配的文件。-matlab开发

    函数以递归方式在路径中搜索与通配符表达式(例如“ images *。*”)或正则表达式(例如“ images [0-9]。* \。*”)匹配的文件名。 该函数返回与给定模式匹配的每个文件的完整路径的元胞数组。

    JS正则表达式葵花宝典

    "JS正则表达式葵花宝典"深入讲解了正则表达式的使用技巧和高级特性,特别是针对URL验证的正则表达式,以及递归匹配和非贪婪匹配的概念。 首先,我们来谈谈URL验证的正则表达式。一个完整的URL通常包含协议(如http...

    表达式括号匹配配对判断实验报告(内附源代码)

    在计算机科学中,表达式括号匹配是一项基本且重要的任务,它涉及到算法设计与实现,尤其是在编译原理、解析器构造以及程序验证等领域。本实验报告将深入探讨这个主题,并提供源代码作为实践示例。 首先,我们需要...

    C#正则表达式的递归匹配分析

    本文主要聚焦于C#正则表达式的递归匹配,这对于解析嵌套结构的数据非常有用,例如匹配嵌套的括号。在C#中,虽然不直接支持`(?R)`这样的递归语法,但可以通过其他方式实现类似的功能。 递归匹配的核心概念是让正则...

    表达式计算器递归方式

    - **错误处理**:在实际的表达式计算器中,需要处理语法错误(如缺少运算符、括号不匹配等)和数值溢出等问题。 - **性能优化**:递归虽然直观,但可能会导致大量的函数调用,增加计算开销。可以考虑使用迭代方法...

    正则表达式匹配

    根据提供的文件标题、描述、标签以及部分内容,我们可以深入解析与正则表达式匹配相关的知识点。 ### 正则表达式匹配 #### 概述 正则表达式是一种强大的文本处理工具,用于模式匹配、搜索和替换字符串。在软件开发...

    使用递归下降算法分析数学表达式

    递归下降解析可能会遇到无法匹配的情况,这时需要进行错误处理。一种常见的方式是采用回溯机制,当解析失败时,回溯到上一步,尝试其他可能的解析路径。 **6. 示例与应用** 通过递归下降解析,我们可以分析各种...

    使用递归下降算法分析数学表达式 使用递归下降算法分析数学表达式 编译原理 课程设计报告.zip

    本课程设计报告聚焦于如何使用递归下降算法来分析数学表达式,这是编译器设计的重要环节,旨在理解并实现一个简单的编译器前端。 一、递归下降解析概述 递归下降解析是基于自顶向下的分析方法,它利用函数的递归...

    SQLserver2008使用表达式递归查询

    在SQL Server 2008中,表达式递归查询是一种强大的工具,尤其适用于处理具有层级关系的数据,如组织结构、目录树或者分类系统。这种技术主要依赖于公用表表达式(Common Table Expression, CTE),它允许在单个查询...

    循序渐进掌握递归正则表达式【推荐】

    &gt;`表示固化分组,意味着该分组匹配的内容不会被回溯到,这在处理复杂的递归匹配时非常有帮助。 在理解递归正则表达式的过程中,我们需要明白它们的工作原理。一个递归正则表达式在匹配时,会尝试最短或最长的可能...

    易语言模拟正则表达式匹配

    在“易语言模拟正则表达式匹配”这个主题中,我们主要关注的是如何在易语言环境中实现正则表达式的功能,这对于处理文本数据、进行模式匹配和搜索等任务非常有用。 正则表达式(Regular Expression)是一种强大的...

    PL0语法分析器(递归子程序法)

    3. **递归子程序法工作原理**:此方法的核心在于,每一个非终结符都对应一个函数,这个函数会尝试匹配文法规则,并通过递归调用来处理子规则。如果匹配成功,函数返回;如果不成功,则抛出错误。例如,对于PL0的...

    yufa.rar_用递归下降法分析表达式实验_递归下降实验

    本实验"yufa.rar_用递归下降法分析表达式实验_递归下降实验"正是基于这个理论进行的实践操作。 递归下降分析法的基本思想是将文法规则转化为一系列相互递归的函数,每个函数对应文法的一个非终结符。通过这些函数,...

    递归下降分析法模拟c++

    本实验旨在通过C++编程语言,让学生深入理解和应用递归下降分析法来解析和计算表达式。 递归下降分析法,也称为递归下降解析或自顶向下解析,是基于上下文无关文法(Context-Free Grammar, CFG)的一种解析策略。在...

    逆波兰算法-java实现

    6. **异常处理**:在处理过程中,需要考虑空栈、除数为零、运算符和操作数不匹配等错误情况,确保程序的健壮性。 7. **测试与调试**:编写单元测试用例,覆盖各种可能的输入,包括有效的表达式和无效的表达式,以...

Global site tag (gtag.js) - Google Analytics