`
我是老威
  • 浏览: 26697 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

正则表达式:表达式的递归匹配及非贪婪模式的效率 【转】

 
阅读更多
引言

本文将逐步讨论一些正则表达式的使用话题。本文为本站基础篇之后的扩展,在阅读本文之前,建议先阅读正则表达式参考文档一文。


1. 表达式的递归匹配
<iframe id="aswift_1" style="left: 0; position: absolute; top: 0;" name="aswift_1" frameborder="0" marginwidth="0" marginheight="0" scrolling="no" width="200" height="200"></iframe>

有时候,我们需要用正则表达式来分析一个计算式中的括号配对情况。比如,使用表达式 "\( [^)]* \)" 或者 "\( .*? \)" 可以匹配一对小括号。但是如果括号 内还嵌有一层括号的话 ,如 "( ( ) )",则这种写法将不能够匹配正确,得到的结果是 "( ( )" 。类似情况的还有 HTML 中支持嵌套的标签如 "<font> </font>" 等。本节将要讨论的是,想办法把有嵌套的的成对括号或者成对标签匹配出来。

匹配未知层次的嵌套:

有的正则表达式引擎,专门针对这种嵌套提供了支持。并且在栈空间允许的情况下,能够支持任意未知层次的嵌套:比如 Perl,PHP,GRETA 等。在 PHP 和 GRETA 中,表达式中使用 "(?R)" 来表示嵌套部分。

匹配嵌套了未知层次的 "小括号对" 的表达式写法如下:"\(  ([^()]  |  (?R))*  \)"。

    [Perl 和 PHP 的示例代码]

匹配有限层次的嵌套:

对于不支持嵌套的正则表达式引擎,只能通过一定的办法来匹配有限层次的嵌套。思路如下:

第一步,写一个不能支持嵌套的表达式:"\( [^()]* \)","<font>((?!</?font>).)*</font>"。 这两个表达式在匹配有嵌套的文本时,只匹配最内层。

第二步,写一个可匹配嵌套一层的表达式:"\( ([^()] | \( [^()]* \))* \)"。这个表达式在匹配嵌套层数大于一时,只能匹配最里面的两层,同时,这个表达式也能匹配没有嵌套的文本或者嵌套的最里层。

匹配嵌套一层的 "<font>" 标签,表达式为:"<font>((?!</?font>).|(<font>((?!</?font>).)*</font>))*</font>"。这个表达式在匹配 "<font>" 嵌套层数大于一的文本时,只匹配最里面的两层。

第三步,找到匹配嵌套(n)层的表达式 与 嵌套(n-1)层的表达式之间的关系。比如,能够匹配嵌套(n)层的表达式为:

    [标记头]  ( [匹配 [标记头] 和 [标记尾] 之外的表达式] | [匹配 n-1 层的表达式] )*  [标记尾]

    回头来看前面编写的“可匹配嵌套一层”的表达式:

  \( ( [^()] | \(([^()])*\) )* \)
<font> ( (?!</?font>). | (<font>((?!</?font>).)*</font>) )* </font>
             
PHP 和 GRETA 的简便之处在于,匹配嵌套(n-1)层的表达式用 (?R) 表示:
\( ( [^()] | (?R) )* \)

    第四步,依此类推,可以编写出匹配有限(n)层的表达式。这种方式写出来的表达式,虽然看上去很长,但是这种表达式经过编译后,匹配效率仍然是很高的。


2. 非贪婪匹配的效率

    可能有不少的人和我一样,有过这样的经历:当我们要匹配类似 "<td>内容</td>" 或者 "[b]加粗[/b]" 这样的文本时,我们根据正向预搜索功能写出这样的表达式:"<td>([^<]|<(?!/td>))*</td>" 或者 "<td>((?!</td>).)*</td>"。

    当发现非贪婪匹配之时,恍然大悟,同样功能的表达式可以写得如此简单:"<td>.*?</td>"。 顿时间如获至宝,凡是按边界匹配的地方,尽量使用简捷的非贪婪匹配 ".*?"。特别是对于复杂的表达式来说,采用非贪婪匹配 ".*?" 写出来的表达式的确是简练了许多。

    然而,当一个表达式中,有多个非贪婪匹配时,或者多个未知匹配次数的表达式时,这个表达式将可能存在效率上的陷阱。有时候,匹配速度慢得莫名奇妙,甚至开始怀疑正则表达式是否实用。

效率陷阱的产生:

    在本站基础文章里,对非贪婪匹配的描述中说到:“如果少匹配就会导致整个表达式匹配失败的时候,与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。”

    具体的匹配过程是这样的:

  1. "非贪婪部分" 先匹配最少次数,然后尝试匹配 "右侧的表达式"。
  2. 如果右侧的表达式匹配成功,则整个表达式匹配结束。如果右侧表达式匹配失败,则 "非贪婪部分" 将增加匹配一次,然后再尝试匹配 "右侧的表达式"。
  3. 如果右侧的表达式又匹配失败,则 "非贪婪部分" 将再增加匹配一次。再尝试匹配 "右侧的表达式"。
  4. 依此类推,最后得到的结果是 "非贪婪部分" 以尽可能少的匹配次数,使整个表达式匹配成功。或者最终仍然匹配失败。

    当一个表达式中有多个非贪婪匹配,以表达式 "d(\w+?)d(\w+?)z" 为例,对于第一个括号中的 "\w+?" 来说,右边的 "d(\w+?)z" 属于它的 "右侧的表达式",对于第二个括号中的 "\w+?" 来说,右边的 "z" 属于它的 "右侧的表达式"。

    当 "z" 匹配失败时,第二个 "\w+?" 会 "增加匹配一次",再尝试匹配 "z"。如果第二个 "\w+?" 无论怎样 "增加匹配次数",直至整篇文本结束,"z" 都不能匹配,那么表示 "d(\w+?)z" 匹配失败,也就是说第一个 "\w+?" 的 "右侧" 匹配失败。此时,第一个 "\w+?" 会增加匹配一次,然后再进行 "d(\w+?)z" 的匹配。循环前面所讲的过程,直至第一个 "\w+?" 无论怎么 "增加匹配次数",后边的 "d(\w+?)z" 都不能匹配时,整个表达式才宣告匹配失败。

    其实,为了使整个表达式匹配成功,贪婪匹配也会适当的“让出”已经匹配的字符。因此贪婪匹配也有类似的情况。当一个表达式中有较多的未知匹配次数的表达式时,为了让整个表达式匹配成功,各个贪婪或非贪婪的表达式都要进行尝试减少或增加匹配次数,由此容易形成一个大循环的尝试,造成了很长的匹配时间。本文之所以称之为“陷阱”,因为这种效率问题往往不易察觉。

    举例:"d(\w+?)d(\w+?)d(\w+?)z" 匹配 "ddddddddddd..." 时,将花费较长一段时间才能判断出匹配失败 。

效率陷阱的避免:

    避免效率陷阱的原则是:避免“多重循环”的“尝试匹配”。并不是说非贪婪匹配就是不好的,只是在运用非贪婪匹配的时候,需要注意避免过多“循环尝试”的问题。

    情况一:对于只有一个非贪婪或者贪婪匹配的表达式来说,不存在效率陷阱。也就是说,要匹配类似 "<td> 内容 </td>" 这样的文本,表达式 "<td>([^<]|<(?!/td>))*</td>" 和 "<td>((?!</td>).)*</td>" 和 "<td>.*?</td>" 的效率是完全相同的。

    情况二:如果一个表达式中有多个未知匹配次数的表达式,应防止进行不必要的尝试匹配。

    比如,对表达式 "<script language='(.*?)'>(.*?)</script>" 来说, 如果前面部分表达式在遇到 "<script language='vbscript'>" 时匹配成功后,而后边的 "(.*?)</script>" 却匹配失败,将导致第一个 ".*?" 增加匹配次数再尝试。而对于表达式真正目的,让第一个 ".*?" 增加匹配成“vbscript'>”是不对的,因此这种尝试是不必要的尝试。

 

    因此,对依靠边界来识别的表达式,不要让未知匹配次数的部分跨过它的边界。前面的表达式中,第一个 ".*?" 应该改写成 "[^']*"。后边那个 ".*?" 的右边再没有未知匹配次数的表达式,因此这个非贪婪匹配没有效率陷阱。于是,这个匹配脚本块的表达式,应该写成:"<script language='([^']*)'>(.*?)</script>" 更好。

 

 

来源:http://www.regexlab.com/zh/regtopic.htm

分享到:
评论

相关推荐

    正则表达式--递归匹配与非贪婪匹配

    ### 正则表达式——递归匹配与非贪婪匹配 #### 一、递归匹配 在正则表达式中,递归匹配是一个重要的概念,它主要用于处理那些具有嵌套结构的数据,例如数学公式中的括号匹配或HTML标签的匹配。 ##### 1.1 嵌套...

    C语言正则表达式库

    1. **语法兼容性**:如描述所述,PCRE库的正则表达式语法与Perl语言高度兼容,这意味着开发者可以利用Perl中广泛使用的正则表达式语法,如贪婪和非贪婪量词、分支选择、反向引用等。 2. **Unicode支持**:PCRE库...

    JS正则表达式葵花宝典

    "JS正则表达式葵花宝典"深入讲解了正则表达式的使用技巧和高级特性,特别是针对URL验证的正则表达式,以及递归匹配和非贪婪匹配的概念。 首先,我们来谈谈URL验证的正则表达式。一个完整的URL通常包含协议(如http...

    regexp正则表达式正则表达式正则表达式

    ### 正则表达式(Regexp)基础知识及高级应用 #### 一、正则表达式的概念与作用 正则表达式(Regular Expression),通常简称为“regex”或“regexp”,是一种用于模式匹配的强大工具,广泛应用于文本处理领域,如...

    传智播客_张孝祥_JavaScript7_正则表达式

    - 定义:正则表达式是一种模式匹配工具,用于描述一种特定的字符串模式。 - 基本元素:如字符类([])、量词(*、+、?、{n,m})、转义字符(\)等。 - 特殊符号:^表示开头,$表示结尾,.表示任意字符,\b表示...

    史上最好的正则表达式教程.pdf

    12. 平衡组/递归匹配:属于高级特性,用于匹配成对出现的模式,如括号、引号等。 13. 正则表达式的实际使用需要大量的实践和理解。初学者应从简单例子入手,逐步深入学习,练习中不断总结规律,才能提高使用正则...

    正则表达式帮助文档(正则表达式)

    正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串。它通过一套特定的规则(模式)来定义字符串的匹配模式,广泛应用于编程语言、文本编辑器、搜索引擎等多个领域。以下是对正则表达式的一些...

    正则表达式(学习的好资料)

    好东西 都是好东西咧 里面包括 C#中的常用正则表达式总结 javascript 验证url的正则表达式 JavaScript中的正则表达式学习1-2 JS与正则式强化训练作业 ...正则表达式--递归匹配与非贪婪匹配 正则式测试工具 等等等等

    非常好的正则表达式验证工具

    - **功能演示**:模拟各种正则表达式的匹配行为,如贪婪与非贪婪模式、量词范围等。 - **元字符高亮**:突出显示正则表达式中的特殊字符,便于理解其含义。 - **预编译与性能分析**:评估正则表达式的执行效率,...

    正则表达式入门教程(pdf版

    此外,正则表达式的一些高级特性如平衡组和递归匹配,也是处理某些复杂文本问题时不可或缺的工具,但这些内容通常需要更深入的学习和理解。 最后,教程中还提到了一些资源链接和参考文献,这些建议的资源可以为读者...

    正则表达式简明参考.pdf

    平衡组和递归匹配是正则表达式中的高级功能,它们允许匹配嵌套的模式,例如HTML标签或括号内的内容。 注释是在正则表达式中插入解释性文本,它不会作为匹配的一部分,也不会影响匹配结果。注释语法因不同的正则...

    正则表达式详解(20分钟看懂正则)

    平衡组用于匹配嵌套结构,如括号或引号,而递归匹配允许在正则表达式中使用自身进行匹配,处理复杂的嵌套模式。 #### 十四、进阶主题 正则表达式还包括前瞻断言(positive lookahead)、后瞻断言(negative ...

    各种正则表达式教程集合

    正则表达式(Regular Expression,简称regex)是用于匹配字符串的一种模式,广泛应用于文本处理、数据验证、搜索和替换等场景。在这个“各种正则表达式教程集合”中,我们可能会发现不同编程语言如JavaScript(js)...

    Python基础入门知识之正则表达式学习 正则表达式30分钟入门教程 共21页.pdf

    正则表达式是编程语言中用于模式匹配的强大工具,尤其在数据处理和文本搜索替换时极为有用。Python作为一门广泛使用的编程语言,内置了强大的正则表达式支持。本教程旨在帮助初学者在30分钟内对Python中的正则表达式...

    正则表达式30 分钟入门教程

    最后,正则表达式是一个庞大且不断发展的领域,存在许多高级特性,如平衡组/递归匹配等,它们可以处理更加复杂和特定的文本处理需求。对于初学者而言,理解和掌握基础的正则表达式功能是一个良好的起点,随着学习的...

    各种正则表达式的不同

    正则表达式(Regular Expression,简称regex)是用于匹配字符串的一种模式,广泛应用于文本处理、数据验证、搜索和替换等场景。不同的编程语言或工具可能支持不同的正则表达式语法,但基本概念和核心功能是相通的。...

    正则表达式入门教程。

    10. **处理选项** 和 **平衡组/递归匹配**: 不同的正则表达式引擎提供了不同的选项来改变匹配行为,如忽略大小写、多行模式等。平衡组和递归匹配则是更高级的技术,用于处理嵌套结构。 学习正则表达式需要时间和...

    正则表达式.zip

    正则表达式是一种强大的文本处理工具,用于在字符串中匹配、查找、替换或者提取符合特定模式的文本。它由特殊字符(称为“元字符”)和普通字符组成,通过组合这些字符来定义复杂的搜索模式。在编程语言和各种文本...

    正则表达式30分钟入门 pdf

    正则表达式是一种强大的文本处理工具,用于模式匹配、搜索和替换字符串中的特定模式。它在编程、数据清洗、文本分析等领域有着广泛的应用。《正则表达式30分钟入门》是一份旨在快速引导初学者掌握正则表达式基础知识...

    正则表达式30分钟入门教程.pdf

    正则表达式是一种强大的文本模式匹配工具,广泛应用于编程、数据处理和网页开发中,用于搜索、替换和验证字符串模式。《正则表达式30分钟入门教程》旨在帮助初学者快速理解和应用正则表达式的基本概念和语法。以下是...

Global site tag (gtag.js) - Google Analytics