`
xieye
  • 浏览: 831653 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

正则表达式应用

    博客分类:
  • PHP
阅读更多
原文作者:Karthik Viswanathan
原文链接:Crucial Concepts Behind Advanced Regular Expressions
译者:笨活儿

    英文原文来自Smashing Magazine。由笨活儿翻译。转载请注明出处。

正则表达式(Regular Expression, abbr. regex) 功能强大,能够用于在一大串字符里找到所需信息。它利用约定俗成的字符结构表达式来发生作用。不幸的是,简单的正则表达式对于一些高级运用,功能远远不够。若要进行筛选的结构比较复杂,你可能就需要用到高级正则表达式。

本文为您介绍正则表达式的高级技巧。我们筛选出了八个常用的概念,并配上实例解析,每个例子都是满足某种复杂要求的简单写法。如果你对正则的基本概念尚缺乏了解,请先阅读这篇文章,或者这个教程,或者维基条目。

这里的正则语法适用于PHP,与Perl兼容。


1. 贪婪/懒惰

Greed

所有能多次限定的正则运算符都是贪婪的。他们尽可能多地匹配目标字符串,也就是说匹配结果会尽可能地长。不幸的是,这种做法并不总是我们想要的。因此,我们添加“懒惰”限定符来解决问题。在各个贪婪运算符后添加“?”能让表达式只匹配尽可能短的长度。另外,修改器“U”也能惰化能多次限定的运算符。理解贪婪与懒惰的区别是运用高级正则表达式的基础。
贪婪操作符

操作符 * 匹配之前的表达式零次或零次以上。它是一个贪婪操作符。请看下面的例子:

1.preg_match( '/<h1>.*</h1>/', '<h1>这是一个标题。</h1>
2.<h1>这是另一个。</h1>', $matches );

句点(.)能代表除换行符外的任意字符。上面的正则表达式匹配 h1 标签以及标签内的所有内容。它用句点(.)和星号(*)来匹配标签内的所有内容。匹配结果如下:

1.<h1>这是一个标题。</h1><h1>这是另一个。</h1>

整个字串都被返回。* 操作符会连续匹配所有内容—— 甚至包括中间的 h1 闭合标签。因为它是贪婪的,匹配整个字串是符合其利益最大化原则。
懒惰操作符

把上面的式子稍作修改,加上一个问号(?),能让表达式变懒惰:

1./<h1>.*?</h1>/

这样它会觉得,只需匹配到第一个 h1 结尾标签就完成任务了。

另一个有着类似属性的贪婪操作符是 {n,} 。它代表之前的匹配模式重复n次或n次以上,如果没有加上问号,它会寻找尽可能多的重复次数,加上的话,则会尽可能少重复(当然也就是“重复n次”最少)。

1.# 建立字串
2.$str = 'hihihi oops hi';
3.# 使用贪婪的{n,}操作符进行匹配
4.preg_match( '/(hi){2,}/', $str, $matches );  # matches[0] 将是 'hihihi'
5.# 使用堕化了的 {n,}? 操作符匹配
6.preg_match( '/(hi){2,}?/', $str, $matches );  # matches[0] 将是 'hihi'
2. 回返引用(Back referencing)

Back Referencing
有什么用?

回返引用(Back referencing)一般被翻译成“反向引用”、“后向引用”、“向后引用”,个人觉得“回返引用”更为贴切[笨活儿]。它是在正则表达式内部引用之前捕获到的内容的方法。例如,下面这个简单例子的目的是匹配出引号内部的内容:

01.# 建立匹配数组
02.$matches = array();
03.
04.# 建立字串
05.$str = ""This is a 'string'"";
06.
07.# 用正则表达式捕捉内容
08.preg_match( "/("|').*?("|')/", $str, $matches );
09.
10.# 输出整个匹配字串
11.echo  $matches[0];

它会输出:

1."This is a'

显然,这并不是我们想要的内容。

这个表达式从开头的双引号开始匹配,遭遇单引号之后就错误地结束了匹配。这是因为表达式里说:(”|’),也就是双引号(”)和单引号(’)均可。要修正这个问题,你可以用到回返引用。表达式1,2,…,9 是对前面已捕获到的各个子内容的编组序号,能作为对这些编组的“指针”而被引用。在此例中,第一个被匹配的引号就由 1 代表。
如何运用?

将上面的例子中,后面的闭合引号替换为1:

1.preg_match( '/("|').*?1/', $str, $matches );

这会正确地返回字串:

1."This is a 'string'"

    译注思考题:

    如果是中文引号,前引号和后引号不是同一个字符,怎么办?

还记得PHP函数 preg_replace 吗?其中也有回返引用。只不过我们没有用 1 … 9,而是用了 $1 … $9 … $n (此处任意数目均可)作为回返指针。例如,如果你想把所有的段落标签<p>都替换成文本:

1.$text = preg_replace( '/<p>(.*?)</p>/',
2."&lt;p&gt;$1&lt;/p&gt;", $html );

参数$1是一个回调引用,代表段落标签<p>内部的文字,并插入到替换后的文本里。这种简便易用的表达式写法为我们提供了一个获取已匹配文字的简单方法,甚至在替换文本时也能使用。
3. 已命名捕获组(Named Groups)

当在一个表达式内多次用到回调引用时,很容易就把事情搞混淆,要弄清那些数字(1 … 9)都代表哪一个子内容是件很麻烦的事。回调引用的一个替代方法是使用带名字的捕获组(下文简称“有名组”)。有名组使用(?P<name>pattern)来设定,name代表组名,pattern是配合该有名组的正则结构。请看下面的例子:

1./(?P<quote>"|').*?(?P=quote)/

上式中,quote就是组名,”|’ 的是匹配内容的正则。后面的(?P=quote)是在调用组名为quote的有名组。这个式子的效果和上面的回调引用实例一样,只不过是用了有名组来实现。是不是更加易读易懂了?

有名组也能用于处理已匹配内容之数组的内部数据。赋予特定正则的组名也能作为所匹配到的内容在数组内部的索引词。

1.preg_match( '/(?P<quote>"|')/', "'String'", $matches );
2.
3.# 下面的语句输出“'”(不包括双引号)
4.echo $matches[1];
5.
6.# 使用组名调用,也会输出“'”
7.echo $matches['quote'];

所以,有名组并不只是让写代码更容易,它也能用于组织代码。
4. 字词边界(Word Boundaries)

Word Boundaries

字词边界是字串里的字词字符(包括字母、数字和下划线,自然也包括汉字)和非字词字符之间的位置。其特殊之处就在于,它并不匹配某个实在的字符。它的长度是零。 b 匹配所有字词边界。

不幸的是,字词边界一般都被忽视掉了,大部分人都没有在意他的现实意义。 例如,如果你想要匹配单词“import”:

1./import/

注意了!正则表达式有时候很调皮的。下面的字串也能和上面的式子匹配成功:

1.important

你或许觉得,只要在import前后加上空格,不就可以匹配这个独立的单词了:

1./ import /

那如果遇上这种情况呢:

1.The trader voted for the import

当 import 这个词在字串开头或者结尾时,修改后的表达式仍然不能用。因此,考虑各种情况是必须的:

1./(^import | import | import$)/i

别慌,还没完呢。如果遇到标点符号了呢?就为了满足这一个单词的匹配,你的正则可能就需要这样写:

1./(^import(:|;|,)? | import(:|;|,)? | import(.|?|!)?$)/i

对于只匹配一个单词来说,这样做实在是有点大动干戈了。正因如此,字词边界才显得意义重大。要适应上述要求,以及很多其他情况变种,有了字符边界,我们所需写的代码只是:

1./bimportb/

上面所有情况都得到了解决。 b 的灵活性就在于,它是一个没有长度的匹配。它只匹配两个实际字符之间想象出的位置。它检查两个相邻字符是否是一个为单字,另一个为非单字。情况符合,就返回匹配。如果遇到了单词的开头或结尾, b 会把它当成是非单词字符对待。由于import里面的 i 仍然被看成是单词字符,import 就被匹配出来了。

注意,与b相对,我们还有 B,此操作符匹配两个单字或者两个非单字之间的位置。因此,如果你想匹配在某个单词内部的‘hi’,可以使用:

1.BhiB

“this”、“hight”,都会返回匹配,而“hi there”则会返回不匹配。
5. 最小组团(Atomic Groups)

Advanced Operators

最小组团是无捕捉的特殊正则表达式分组。通常用来提高正则表达式的效能,也能用于消除特定匹配。一个最小组团可以用(?>pattern) 来定义,其中pattern是匹配式。

1./(?>his|this)/

当正则引擎针对最小组团进行匹配时,它会跳过组团内标记的回溯位置。以单词“smashing”为例,当用上面的正则表达式匹配时,正则引擎会先尝试在“smashing”里寻找“his”。显然,找不到任何匹配。此时,最小组团就发挥作用了:正则引擎会放弃所有回溯位置。也就是说,它不会尝试再从 “smashing”里查找“this”。为什么要这样设置?因为“his”都没有返回匹配结果,包含有“his”的“this”当然就更匹配不了了!

上面的例子并没有什么实用性,我们用/t?his?/ 也能达到效果。再看看下面的例子:

1./b(engineer|engrave|end)b/

如果把“engineering”拿去匹配,正则引擎会先匹配到“engineer”,但接下来就遇到了字词边界,b,所以匹配不成功。然后,正则引擎又会尝试在字串里寻找下一个匹配内容:engrave。匹配到eng的时候,后面的又对不上了,匹配失败。最后,尝试“end”,结果同样是失败。仔细观察,你会发现,一旦engineer匹配失败,并且都抵达了字词边界,“engrave”和“end”这两个词就已经不可能匹配成功了。这两个词都比 engineer短小,正则引擎不应该再多做无谓的尝试。

1./b(?>engineer|engrave|end)b/

上面的替代写法更能节省正则引擎的匹配时间,提高代码的工作效率。
6. 递归(Recursion)

Recursion

递归(Recursion)用于匹配嵌套结构,例如括弧嵌套, (this (that)),HTML标签嵌套<div><div></div></div>。我们使用(?R)来代表递归过程中的子模式。下面是一个匹配嵌套括弧的例子:

1./(((?>[^()]+)|(?R))*)/

最外层使用了反义符的括号“(”匹配嵌套结构的开端。然后是一个多选项操作符( * | * ),可能匹配除括号外的所有字符 “(?>[^()]+)”,也可能是通过子模式“(?R)”来再次匹配整个表达式。请注意,这个操作符会尽量多地匹配所有嵌套。

递归的另一个实例如下:

1./<([w]+).*?>((?>[^<>]+)|((?R)))*</1>/

以上表达式综合运用了字符分组,贪婪操作符、回溯,以及最小化组团来匹配嵌套标签。第一个括弧内分组([w]+)匹配出标签名,用于接下来的应用。若找到这尖括号样式的标签,则尝试寻找标签内容的剩余部分。下一个括弧括起来的子表达式和上一个实例非常相似:要么匹配不包括尖括号的所有字符 (?>[^<>]+),要么递归匹配整个表达式(?R)。整个表达式最后一部分就是尖括号样式的闭合标签</1>。
7. 回调(Callbacks)

Callbacks

匹配结果中的特定内容有时可能会需要某种特别的修改。要应用多重而复杂的修改,正则表达式的回调就有了用武之地。回调是用于函数preg_replace_callback中的动态修改字串的方式。你可以为preg_replace_callback指定某个函数为参数,此函数能接收匹配结果数组为参数,并将数组修改后返回,作为替换的结果。

例如,我们想将某字串中的字母全部转变成大写。十分不巧,PHP没有直接转化字母大小写的正则操作符。要完成这项任务,就可以用到正则回调。首先,表达式要匹配出所有需要被大写的字母:

1./bw/

上式同时使用了字词边界和字符类。光有这个式子还不够,我们还需要一个回调函数:

1.function upper_case( $matches ) {
2.return strtoupper( $matches[0] );
3.}

函数upper_case接收匹配结果数组,并将整个匹配结果转化成大写。 在此例中,$matches[0]代表需要被大写化的字母。然后,我们再利用preg_replace_callback实现回调:

1.preg_replace_callback( '/bw/', "upper_case", $str );

一个简单的回调即有这般强大的力量。
8. 注释(Commenting)

Commenting

注释不用来匹配字串,但确实是正则表达式中最重要的部分。当正则越写越深入,越写越复杂,要推译出究竟什么东西被匹配就会变得越来越困难。在正则表达式中间加上注释,是最小化将来的迷糊和困惑的最佳方式。

要在正则表达式内部加上注释,使用(?#comment)格式。把“comment”替换成你的注释语句:

1./(?#数字)d/

如果你打算把代码公之于众,为正则表达式加上注释就显得尤为重要。这样别人才能更容易看懂和修改你的代码。和其他场合的注释一样,这样做也能为你重访自己以前写的程序时提供方便。

考虑使用“x”或“(?x)”修改器来格式化注释。这个修改器让正则引擎忽略表达式参数之间的空格。“有用的”空格仍然能够通过[ ]或(反义符加空格)来匹配。

1./
2.d    #digit
3.[ ]   #space
4.w+   #word
5./x

上面的代码与下面的式子作用一样:

1./d(?#digit)[ ](?#space)w+(?#word)/

请时刻注意代码的可读性。
更多资源(英文)

    * Regular-Expressions.infoComprehensive website on regular expressions
    * Cheat SheetInformative regular expressions cheat sheet
    * Regex GeneratorJavaScript regular expressions generator

关于作者

Karthik Viswanathan 是一个喜欢编程和做网站的高中生。你可以到他的博客上查看他的作品:Lateral Code。你也可以关注一下他的线上Twitter应用。
分享到:
评论

相关推荐

    java 正则表达式应用jar包 regex-smart.jar

    总之,`regex-smart.jar`是一个旨在简化Java正则表达式应用的库,它提供了预定义的验证和处理方法,使得开发者能更专注于业务逻辑,而不是复杂的正则表达式编写。通过使用这个库,你可以更加高效地完成字符串的验证...

    Java正则表达式应用总结

    Java正则表达式是编程语言Java中用于处理字符串和文本的强大工具。它允许开发者通过模式匹配来执行复杂的文本分析和操作。在Java中,正则表达式的操作主要涉及两个核心类:`java.util.regex.Matcher`和`java.util....

    易语言正则表达式应用一例

    本压缩包文件“正则表达式应用一例”提供了一个易语言实现的正则表达式应用示例,帮助用户了解和掌握在易语言中如何使用正则表达式。 正则表达式(Regular Expression)是一种强大的文本处理工具,广泛应用于数据...

    vb正则表达式实例(正则表达式测试程序)

    这个“vb正则表达式实例”很可能是为了帮助开发者测试和理解正则表达式的工作原理而设计的一个应用程序。下面将详细探讨正则表达式的基本概念、在VB.NET中的应用以及如何使用它们进行文本匹配。 1. 正则表达式基础 ...

    正则表达式转换工具

    4. **正则表达式在编程中的应用** - 数据验证:在表单提交时,可以使用正则表达式验证输入格式,如邮箱、电话号码等。 - 文件搜索:在代码编辑器中,使用正则表达式快速查找和替换特定模式的文本。 - 数据清洗:...

    Oracle数据库正则表达式

    Oracle 数据库正则表达式应用详解 在 Oracle 数据库中,正则表达式是一种强大的模式匹配工具,可以帮助用户快速搜索、替换和验证数据。从 Oracle 10g 开始,Oracle 内建了符合 IEEE POSIX (Portable Operating ...

    PB实现的正则表达式

    在实际应用中,使用正则表达式可能涉及到以下步骤: 1. 创建正则表达式:定义你要匹配的模式,例如`^[\d]{3}-[\d]{4}$`用于匹配美国电话号码格式。 2. 编译模式:将正则表达式编译成一个可以执行的对象,以提高后续...

    源码(精通正则表达式&实战正则表达式)

    其次,"实战正则表达式两部视频"可能涉及将正则表达式应用于实际项目中的场景,例如: 1. **数据验证**:在表单验证中,使用正则表达式检查邮箱、电话号码、日期格式等。 2. **文本处理**:从大量文本中提取特定...

    正则表达式应用案例共18页.pdf.zip

    在这个名为"正则表达式应用案例共18页.pdf.zip"的压缩包中,我们期待找到一系列关于正则表达式实际运用的案例,这些案例可能涵盖了各种常见和复杂的正则表达式应用场景。 首先,正则表达式的基本构成包括字符集、...

    正则表达式(Deelx版)|正则表达式(Deelx版)支持库

    Deelx版是专门为提高正则表达式性能和功能而设计的一个支持库,适用于各种编程语言和应用场景。 1. **正则表达式基本概念** - **模式匹配**:正则表达式的核心在于模式,它是由特殊字符和普通字符组成的字符串,...

    完整版正则表达式应用一例1.e.rar

    完整版正则表达式应用一例1.e.rar 完整版正则表达式应用一例1.e.rar 完整版正则表达式应用一例1.e.rar 完整版正则表达式应用一例1.e.rar 完整版正则表达式应用一例1.e.rar 完整版正则表达式应用一例1.e.rar

    常用正则表达式HTML,JAVA合集

    在这个“常用正则表达式HTML,JAVA合集”中,我们主要关注的是HTML和Java环境下的正则表达式应用。 1. **HTML中的正则表达式**: 在HTML中,正则表达式通常用于表单验证,例如输入字段(如邮箱、电话号码、手机号码...

    qt使用正则表达式限制lineEdit的输入,对正则表达式进行了封装,可以直接引入,工程编译正常

    接下来,我们探讨如何在lineEdit中应用正则表达式。Qt的lineEdit组件是用于接收用户单行文本输入的控件。通常,我们可以通过重载其`textChanged()`信号或者自定义一个槽函数来监控lineEdit的内容变化,并在其中加入...

    完整版正则表达式应用一例.rar

    完整版正则表达式应用一例.rar 完整版正则表达式应用一例.rar 完整版正则表达式应用一例.rar 完整版正则表达式应用一例.rar 完整版正则表达式应用一例.rar 完整版正则表达式应用一例.rar

    pb 使用正则表达式源码pbregexp

    标题中的“pb 使用正则表达式源码pbregexp”指的是在PowerBuilder(简称pb)环境中,利用名为“pbregexp”的正则表达式组件来实现源代码级别的正则表达式操作。PowerBuilder是一款流行的可视化的、面向对象的软件...

    完整版正则表达式应用一例.e.rar

    完整版正则表达式应用一例.e.rar 完整版正则表达式应用一例.e.rar 完整版正则表达式应用一例.e.rar 完整版正则表达式应用一例.e.rar 完整版正则表达式应用一例.e.rar 完整版正则表达式应用一例.e.rar

    Oracle正则表达式详解(用法+实例)

    #### 四、正则表达式应用实例 下面通过具体的例子来演示如何使用这些正则表达式函数: - **查询以 "1" 开头且以 "60" 结尾的长度为 7 的记录**: ```sql SELECT * FROM fzq WHERE REGEXP_LIKE(value, '^1.{5}60$'...

    VC、VC++,MFC 正则表达式类库

    总的来说,MFC的正则表达式类库提供了一个高效且易于使用的接口,使得VC++开发者能够方便地在Windows应用程序中处理复杂文本模式。了解并熟练掌握这些类和方法,有助于提升文本处理部分的代码质量及效率。

    JAVA正则表达式的应用

    JAVA正则表达式应用:任意输入一串字符串 如何输入exit退出程序;从输入的字符串中判断是否包含手机号码 正则表达式可以使用&quot; +86| 86 1 d{10}&quot; 如果包含请将其在控制台打印出来 否则输出不包含字符串 ...

    正则表达式测试工具C#版(src)

    正则表达式是一种强大的文本...通过深入研究这个C#版的正则表达式测试工具源码,开发者不仅可以巩固正则表达式的基础知识,还可以提升在C#环境中应用正则表达式的能力,同时学习到UI设计和事件处理等方面的实践技巧。

Global site tag (gtag.js) - Google Analytics