`

最全的正则表达式

 
阅读更多

 

 

转自:http://www.cnblogs.com/helloczh/articles/1648029.html

第一章        正则表达式概述

正则表达式(Regular Expression)起源于人类神经系统的研究。正则表达式的定义有以下几种:

l         用某种模式去匹配一类字符串的公式,它主要是用来描述字符串匹配的工具。

l         描述了一种字符串匹配的模式。可以用来检查字符串是否含有某种子串、将匹配的子串做替换或者从中取出符合某个条件的子串等。

l         由普通字符(a-z)以及特殊字符(元字符)组成的文字模式,正则表达式作为一个模版,将某个字符模式与所搜索的字符串进行匹配。

l         用于描述某些规则的的工具。这些规则经常用于处理字符串中的查找或替换字符串。也就是说正则表达式就是记录文本规则的代码。

l         用一个字符串来描述一个特征,然后去验证另一个字符串是否符合这个特征。

以上这些定义其实也就是正则表达式的作用。

第二章 正则表达式基础理论

这些理论将为编写正则表达式提供法则和规范,正则表达式主要包括以下基础理论:

l         元字符

l         字符串

l         字符转义

l         反义

l         限定符

l         替换

l         分组

l         反向引用

l         零宽度断言

l         匹配选项

l         注释

l         优先级顺序

l         递归匹配

2元字符

在正则表达式中,元字符(Metacharacter)是一类非常特殊的字符,它能够匹配一个位置或字符集合中的一个字符,如:、 \w等。根据功能,元字符可以分为两种类型:匹配位置的元字符和匹配字符的元字符。

21匹配位置的元字符

包括:^$、和\b。其中^(脱字符号)和$(美元符号)都匹配一个位置,分别匹配行的开始和结尾。比如,^string匹配以string开头的行,string$匹配以string结尾的行。^string$匹配以string开始和结尾的行。单个$匹配一个空行。单个^匹配任意行。\b匹配单词的开始和结尾,如:\bstr匹配以str开始的单词,但\b不匹配空格、标点符号或换行符号,所以,\bstr可以匹配stringstring fomat等单词。\bstr正则表达式匹配的字符串必须以str开头,并且str以前是单词的分界处,但此正则表达式不能限定str之后的字符串形式。以下正则表达式匹配以ing结尾的字符串,如stringThis is a string

Ing\b

正则表达式ing\b匹配的字符串必须以ing结尾,并且ing后是分界符,以下正则表达式匹配一个完整的单词:\bstring\b

2.1.2 匹配字符的元字符

匹配字符的元字符有7:.(点号)\w\W、、s\\S\d\D。其中点号匹配除换行之外的任意字符;\w匹配单词字符(包括字母、汉字、下划线和数字);\W匹配任意非单词字符、\s匹配任意的空白字符,如空格、制表符、换行等;\S匹配任意的非空白字符;\d匹配任意数字字符;\D匹配任意的非数字字符。如:

^.$匹配一个非空行,在该行中可以包含除了换行符以外的任意字符。

 

^\w$匹配一个非空行,并且该行中只能包含字母、数字、下划线和汉字中的任意字符。

 

\ba\w\w\w\w\w\w\\b匹配以字母a开头长度等于7的任意单词

 

\ba\w\w\w\d\d\d\D\b匹配以字母a开头后面有3个字符三个数字和1个非数字字符长度等于8的单词

 

2.2 字符类

字符类是一个字符集合,如果该字符集合中的任何一个字符被匹配,则它会找到该匹配项。字符类可以在[](方括号)中定义。如:

[012345]可以匹配数字05中的任意一个。

<H[123456]>可以匹配HTML标签中的H1H6

[Jj]ack可以匹配字符串Jackjack

但是,由于表达式[0123456789]书写非常不方便,连字符(-)便应用而生,[0-9]等价于[0123456789][a-z]匹配任何小写字母,[A-Z]匹配任意大写字母。如果要在字符类中包含连字符,则必须包含在第一位,如:[-a]表示表达式匹配-或者a。在字符类中如果^是字符类的第一个字符表示否定该字符串,也就是匹配该字符串外的任意字符,如:[^abc]匹配除了abc以外的任意字符,[^-]匹配除了连字符以外的任意字符,a[^b]匹配a之后不是b的字符串。

2-1 常用的字符类

字符或表达式

说明

\w

匹配单词字符(包括字母、数字、下划线和汉字)

\W

匹配任意的非单词字符(包括字母、数字、下划线和汉字)

\s

匹配任意的空白字符,如空格、制表符、换行符、中文全角空格等

\S

匹配任意的非空白字符

\d

匹配任意数字

\D

匹配任意的非数字字符

[abc]

匹配字符集中的任何字符

[^abc]

匹配除了字符集中包含字符的任意字符

[0-9a-z_A-Z_]

匹配任何数字、字母、下划线。等同于\w

\p{name}

匹配{name}指定的命名字符类中的任何字符

\P{name}

匹配除了{name}指定的命名字符类中之外的任何字符

.

匹配除了换行符号之外的任意字符

[^0-9a-zA-Z_]

等同于\W

2.3 字符转义

表2-2:常用的转义字符

表达式

可匹配

\r, \n

代表回车和换行符

\t

制表符

\\

代表 "\" 本身

还有其他一些在后边章节中有特殊用处的标点符号,在前面加 "\" 后,就代表该符号本身。比如:^, $ 都有特殊意义,如果要想匹配字符串中 "^" 和 "$" 字符,则表达式就需要写成 "\^" 和 "\$"。

表达式

可匹配

\^

匹配 ^ 符号本身

\$

匹配 $ 符号本身

\.

匹配小数点(.)本身

2.4 反义

在使用正则表达式时,如果需要匹配不在字符类指定的范围内的字符时,可以使用反义规则。其实我们已经使用过反义表达式,如\W\S\D[^abc]等。常用的反义表如下:

2-3:常用的反义表达式

字符或表达式

说明

\W

匹配任意不是字母,数字,下划线,汉字的字符

\S

匹配任意不是空白符的字符

\D

匹配任意非数字的字符

\B

匹配不是单词开头或结束的位置

[^x]

匹配除了x以外的任意字符

[^aeiou]

匹配除了aeiou这几个字母以外的任意字符

2.4 限定符

正则表达式的元字符一次只能匹配一个位置或一个字符,如果需要匹配零个一个或多个字符时,则需要使用限定符。限定符用于指定允许特定字符或字符集自身重复出现的次数。如{n}表示出现n次;{n,}表示重复至少n次;{n,m}表示至少出现n次最

m次。常用限定符如下表:

2-4:常用限定符

字符

描述

*

匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。

+

匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。

?

匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。

{n}

n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。

{n,}

n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。

{n,m}

m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。刘, "o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。

*

尽可能少的使用重复的第一个匹配

+

尽可能少的使用重复但至少使用一次

??

如果有可能使用零次重复或一次重复。

{n}?

等同于{n}

{n,}?

尽可能少的使用重复但至少重复n次

{n,m}?

介于n次和m次之间,尽可能少的使用重复。

2.5 贪婪、惰性和支配性匹配

惰性匹配:先看字符串中的第一个字母是不是一个匹配,如果单独一个字符还不够就读入下一个字符,如果还没有发现匹配,就不断地从后续字符中读取,只道发现一个合适的匹配,然后开始下一次的匹配。

贪婪匹配:先看整个字符串是不是一个匹配,如果没有发现匹配,它去掉字符串中最后一个字符并再次尝试,如果还没有发现匹配,那么再次去掉最后一个字符,这个过程会一直重复直到发现一个匹配或字符串不剩一个字符为止。

支配性匹配:只尝试匹配整个字符串,如果整个字符串不能产生一个匹配,则不再进行尝试。

我们普通的字符类均是贪婪匹配,如果在字符类后加个问号(?)则表示懒惰匹配,要成为支配性匹配则在懒惰匹配后加个问号(?).

2.6替换

正则表达式0\d{2}-\d{8}0\d{3}-\d{7}分别匹配区号为3位和4位的固定电话号码,如果需要同时匹配区号为3位和4位的固定电话号码,可以使用替换满足这一需求。最简单的替换是使用竖线(|)表示。以下表达式匹配了区号为3位号码为8位和区号为4位号码为7位的的电话号码,区号和号码均使用-连接,0\d{2}-\d{8}|0\d{3}-\d{7}

2-5 常用替换

字符或表达式

说明

|

匹配竖线(|)左侧或右侧

(?(表达式)yes|no)

表达式要么与yes部分匹配要么与no部分匹配,其中no部分可以省略。

(?(nameyes|no

name命名的字符串要么与yas部分匹配,要么与no部分pp,其中no部分可以省略

2.7 分组

分组又称为子表达式,即把一个正则表达式的全部或部分分成一个或多个组。其中分组使用圆括号(),分组后把圆括号中的表达式看做一个整体来处理,比如:abc{12}表示abc出现一次或两次的字符串,其中把abc看做一个整体来进行匹配。

2.8 后向引用

当一个正则表达式被分组后,每一个组将自动被赋予一个组号,该组号可以代表该组的表达式。其中,组号的编制规则为:从左到右,以分组的左括号为标志,第一个组号为1,第二个分组号为2,以此类推。如:(A?(B?(C?)))将产生3个组号,第一组为:(A?(B?(C?)));第二组为: (B?(C?));第三组为:(C?)

反向引用提供了查找重复字符组的方便方法,反向引用可以使用数字命名(默认名称)的组号,也可以使用指定命名的组号。比如:\b(\w)\1\b匹配两个字符一样的单词,此表达式和\b(\w)\w\b不一样,后者两个字符可以不一样。再看,\b(\w)(\d)\1\2\b,匹配一个字符和一个数字然后重复字符和数字。\b\w*(\w+)\1\b匹配以至少两个字符一样结尾的单词。\b(\w+)\b\s+\1\b此正则表达式匹配的具体过程如下:

a.       表达式\b(\w+)\b匹配一个单词并且单词的长度至少为1

b.       表达式\s+匹配一个或多个空白字符

c.       表达式\1将重复子表达式(\w+)匹配的内容,及匹配重复的单词

d.       匹配单词的结束位置。

分组不仅可以使用数字作为组号,还可以使用自定义名称作为组号。以下两个正则表达式都是将分组后的子表达式\w+命名为word.

(?<word>\w+)

(?’word’\w+)

因此\b(\w+)\b\s+\1\b和以下正则表达式是等价的,都匹配重复的单词:

\b(?<word>\w+)\b\s+\k<word>\b

2-5 后向引用说明表

表达式

说明

\数字

使用数字命名的后向引用

\k<name>

使用指定命名的后向引用

2-6 常用分组说明

字符

说明

(expression)

匹配字符串expression,并将匹配的文本保存到自动命名的组里

(?<nane> expression)

匹配字符串expression,并将匹配的文本保存到以name命名的变量中,该名称不能包含标点符号,不能以数字开头。

(?:expression)

匹配字符串expression,不保存匹配的文本,也不分配组号

(?!expression)

匹配后面不是字符串expression的位置

(?=expression)

匹配字符串expression前面的位置

(?<=expression)

匹配字符串expression后面的位置

(?<!expression)

匹配前面不是字符串expression的位置

(?>expression)

只匹配expression一次

2.9 零宽度断言

元字符^\b$都匹配一个位置,并且这个位置满足一定条件。在此把满足一个条件称为断言或零宽度断言。正则表达式中零宽度断言说明如下表:

2-6 零宽度断言

字符(断言)

说明

^

匹配行的开始位置

$

匹配行的结束位置

\A

匹配必须出现在字符串的开头

\Z

匹配必须出现在字符串的结尾或字符串结尾处的换行符(\n)

\z

匹配必须出现在字符串的结尾

\G

匹配必须出现在上个匹配结束的地方

\b

匹配单词的开始或结束的位置

\B

匹配不是单词的开始或结束的位置

表达式(?=expression)(?!expression)(?<=expression)、和(?<!expression)都是匹配一个位置。下面将详细介绍表达式(?=expression)(?<=expression)

(?=expression)又称为零宽度正预测先行断言,它断言自身位置的前面能够匹配表达式expression。以下正则表达式匹配以ed结尾的单词的前面部分:\b\w+(?=ed\b)

(?<=expression)又称为零宽度正回顾后发断言,它断言自身位置的后面能够匹配表达式expression,以下正则表达式匹配以an开头的单词的后面部分,即匹配单词除了字符串an之外的部分:(?<=\ban)\w+\b

2.10 负向零宽度断言

零宽度断言只能指定或匹配一个位置,而负向零宽度断言与零宽度断言正好相反,它能指定或匹配不是一个位置,即所说的反义。特别是在匹配字符串中不包含指定的字符时,负向零宽度断言特别有用,比如要匹配断言字符a之后不能是字符b的表达式为:

\b\w*a(?!b)\w*\b

因此该表达式匹配一个单词,并且这个包含字符a并且a后面不是紧随着b

表达式(?!expression)称为负向零宽度断言,它断言自身位置后不能包含expression。以下正则表达式匹配一个z字符串,字符串前三位为字符并且后边不是紧随着数字:\b\w{3} (?!\d+);表达式(?<!expression)称为零宽度回顾后发断言,它断言自身位置的前面不能匹配字符串expression。以下表达式匹配不以数字开头、并且字符串中只包含大写字母、小写字母或下划线。

(?<!\d+) [a-z-A-Z]+

2.11匹配选项

匹配选项可以指定正则表达式匹配中的行为,如忽略大小写、处理多行、处理单行、从右到左开始匹配等。常用的匹配选项如下

2-7 常用匹配选项

RegexOptions枚举值

内联标志

简单说明

ExplicitCapture

n

只有定义了命名或编号的组才捕获

IgnoreCase

i

不区分大小写

IgnorePatternWhitespace

x

消除模式中的非转义空白并启用由#标记的注释。

MultiLine

m

多行模式,其原理是修改了^$的含义

SingleLine

s

单行模式,和MultiLine相对应

2.12 优先级

正则表达式从左到右进行计算,并遵循优先级顺序,这与算术表达式非常类似。下表从最高到最低说明了各种正则表达式运算符的优先级顺序:

2-8:优先级说明

运算符

说明

\

转义符

(), (?:), (?=), []

括号和中括号

*, +, ?, {n}, {n,}, {n,m}

限定符

^, $, \anymetacharacter, anycharacter

定位点和序列

|

替换

字符的优先级比替换运算符高,替换运算符允许“m|food”“m”“food”匹配。若要匹配“mood”“food”,请使用括号创建子表达式,从而产生“(m|f)ood”

2.12 递归匹配

递归匹配在匹配具有嵌套结构的字符串时特别有效。比如算术表达式((1+2)*(3+4))具有嵌套结构,如果要使用正则表达式检查该表达式是否正确,则可以使用递归匹配解决该问题。

这里介绍的平衡组语法是由.Net Framework支持的;其它语言/库不一定支持这种功能,或者支持此功能但需要使用不同的语法。

有时我们需要匹配像( 100 * ( 50 + 15 ) )这样的可嵌套的层次性结构,这时简单地使用\(.+\)则只会匹配到最左边的左括号和最右边的右括号之间的内容(这里我们讨论的是贪婪模式,懒惰模式也有下面的问题)。假如原来的字符串里的左括号和右括号出现的次数不相等,比如( 5 / ( 3 + 2 ) ) ),那我们的匹配结果里两者的个数也不会相等。有没有办法在这样的字符串里匹配到最长的,配对的括号之间的内容呢?

为了避免(\(把你的大脑彻底搞糊涂,我们还是用尖括号代替圆括号吧。现在我们的问题变成了如何把xx <aa <bbb> <bbb> aa> yy这样的字符串里,最长的配对的尖括号内的内容捕获出来?

这里需要用到以下的语法构造:

  • (?'group') 把捕获的内容命名为group,并压入堆栈(Stack)
  • (?'-group') 从堆栈上弹出最后压入堆栈的名为group的捕获内容,如果堆栈本来为空,则本分组的匹配失败
  • (?(group)yes|no) 如果堆栈上存在以名为group的捕获内容的话,继续匹配yes部分的表达式,否则继续匹配no部分
  • (?!) 零宽负向先行断言,由于没有后缀表达式,试图匹配总是失败

如果你不是一个程序员(或者你自称程序员但是不知道堆栈是什么东西),你就这样理解上面的三种语法吧:第一个就是在黑板上写一个"group",第二个就是从黑板上擦掉一个"group",第三个就是看黑板上写的还有没有"group",如果有就继续匹配yes部分,否则就匹配no部分。

我们需要做的是每碰到了左括号,就在压入一个"Open",每碰到一个右括号,就弹出一个,到了最后就看看堆栈是否为空--如果不为空那就证明左括号比右括号多,那匹配就应该失败。正则表达式引擎会进行回溯(放弃最前面或最后面的一些字符),尽量使整个表达式得到匹配。

<                         #最外层的左括号

    [^<>]*                #最外层的左括号后面的不是括号的内容

    (

        (

            (?'Open'<)    #碰到了左括号,在黑板上写一个"Open"

            [^<>]*       #匹配左括号后面的不是括号的内容

        )+

        (

            (?'-Open'>)   #碰到了右括号,擦掉一个"Open"

            [^<>]*        #匹配右括号后面不是括号的内容

        )+

    )*

    (?(Open)(?!))         #在遇到最外层的右括号前面,判断黑板上还有没有没擦掉的"Open";如果还有,则匹配失败

 

>                         #最外层的右括号

平衡组的一个最常见的应用就是匹配HTML,下面这个例子可以匹配嵌套的<div>标签:<div[^>]*>[^<>]*(((?'Open'<div[^>]*>)[^<>]*)+((?'-Open'</div>)[^<>]*)+)*(?(Open)(?!))</div>.

分享到:
评论

相关推荐

    Lucene 使用正则表达式

    ### Lucene 使用正则表达式 #### 知识点概览 1. **Lucene简介** 2. **正则表达式(regex)在Lucene中的应用** 3. **regexQuery详解** 4. **示例代码解析** 5. **索引创建与查询流程** 6. **正则表达式的语法** #### ...

    C#正则表达式大全, 判断字符串是否为正整数,中文,英文.....

    C# 正则表达式大全 正则表达式是指用来描述字符串模式的表达式,通过使用正则表达式,我们可以轻松地实现字符串的匹配、验证、提取和替换等操作。在 C# 中,我们可以使用 System.Text.RegularExpressions 命名空间...

    最全的常用正则表达式大全

    ### 正则表达式知识点详解 #### 一、校验数字的正则表达式 **1.1 数字** - **表达式:** `^[0-9]*$` - **解释:** 匹配任意数量(包括0个)的数字。 - **应用场景:** 用于验证输入是否全为数字。 **1.2 n位的数字**...

    正则表达式 学习 全收集 chm pdf 正则表达式验证工具 exe

    正则表达式 学习 全收集 chm pdf 正则表达式验证工具 exe正则表达式 学习 全收集 chm pdf 正则表达式验证工具 exe正则表达式 学习 全收集 chm pdf 正则表达式验证工具 exe正则表达式 学习 全收集 chm pdf 正则表达式...

    正则表达式教程合集(各种语言的,超全)

    正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串。它由特殊字符和普通字符组成,能够灵活地表示各种复杂的字符串模式。本教程合集涵盖了多种编程语言中的正则表达式规则和应用,包括...

    常用正则表达式汇总(文档).txt

    主要为大家分享了最全的常用正则表达式大全,包括校验数字、字符、一些特殊的需求等等,感兴趣的小伙伴们可以参考一下。 很多不太懂正则的朋友,在遇到需要用正则校验数据时,往往是在网上去找很久,结果找来的还是...

    js_正则表达式全攻略

    ### 正则表达式在JavaScript中的应用全攻略 #### 一、正则表达式的概念及其在JavaScript中的重要性 正则表达式(Regular Expression)是一种强大的文本处理工具,能够帮助开发者进行复杂的字符串搜索和替换。在...

    C# 最全的日期正则表达式,没有之一

    ### C# 中日期正则表达式的全面解析 ...正则表达式的优势在于其灵活性,应根据具体需求来编写最合适的正则表达式。 - 掌握正则表达式的语法规则是非常重要的,这有助于更好地利用这一工具解决问题。

    [小小明]Python正则表达式全套笔记v0.3(1.8万字干货)

    Python正则表达式全套笔记v0.3 本文档是小小明个人笔记,涵盖了正则表达式的各个方面,包括各种模式、分组、断言、匹配、查找、替换和切割等。文档中提供了详细的正则匹配规则表,涵盖了基本字符规则、预定义字符集...

    精通正则表达式电子书

    ### 正则表达式的全面掌握 #### 一、正则表达式概述 正则表达式是一种功能强大的文本处理工具,可以用于在各种编程语言中进行数据的搜索、替换以及提取等操作。它作为一种标准特性已经广泛应用于多种流行的语言与...

    正则表达式demo全

    这个“正则表达式demo全”很可能是包含了一系列关于正则表达式的实例,用于帮助学习者理解和掌握正则表达式的用法。 正则表达式的语法包括基本字符、特殊字符和预定义字符类等。基本字符如字母、数字、空格等可以...

    简体中文精通正则表达式 第三版

    《精通正则表达式》第三版是一本不可多得的正则表达式学习资源,它不仅提供了全面的理论知识,还辅以大量的实践案例,帮助读者从理论到实践全方位掌握这一技能。无论你是新手还是有一定基础的开发者,本书都能为你...

    超经典正则表达式测试工具

    "超经典正则表达式测试工具"提供了对正则表达式的全方位测试和学习环境,帮助用户理解和应用正则表达式。 该工具具有以下主要功能: 1. **测试正则表达式**:用户可以输入自定义的正则表达式,然后在工具中实时...

    100个常用正则表达式

    这个正则表达式用于检查字符串是否全由汉字组成。 20. 验证Email地址和Internet URL: - `^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$` 用于Email地址 - `^http://([w-]+.)+[w-]+(/[w-./?=%&]*)?$` 用于Internet URL...

    正则表达式完整高清版

    《正则指引》针对作者在开发中遇到的实际问题,以及其他开发人员咨询的问题,总结出一套使用正则表达式解题的办法,并通过具体的例子指导读者拆解、分析问题。全书分为三大部分:第一部分主要讲解正则表达式的基础...

    全球手机号码正则表达式

    【全球手机号码正则表达式】 1.格式:JSON 2.例示:{"86":{"regex":"^(86){0,1}1\d{10}$","sn":"CN"}} 3.通过短号例如:86,从json的key中获取正则表达式(regex),国家代码(sn)

    最全最好用的正则表达式.zip

    本压缩包"最全最好用的正则表达式.zip"包含了对正则表达式的详尽介绍,特别是其中的"正则表达式.pdf"文件,很可能是全面讲解正则表达式的教程或参考指南。 正则表达式的核心概念包括: 1. **基本字符**:包括字母...

    很全的正则表达式

    正则表达式(Regular Expression,简称regex)是用于匹配字符串的一种模式,广泛应用于文本处理、数据验证、搜索和替换等场景。它通过一种简洁而强大的语法来定义一系列字符或字符组合,可以用来检测一个字符串是否...

    正则表达式api全中文版

    正则表达式API全中文版是一份非常实用的资源,主要涵盖了正则表达式的各种功能和用法。正则表达式(Regular Expression)是用于处理字符串的强大工具,它通过模式匹配来查找、替换或者提取文本。在编程语言中,正则...

Global site tag (gtag.js) - Google Analytics