`
tuxq5721
  • 浏览: 34694 次
社区版块
存档分类
最新评论

正则表达式的匹配字符

阅读更多

正则表达式是由普通字符(例如字符a ~ z)及特殊字符(称为元字符)组成的匹配模式字符串。



普通字符
非打印字符
特殊字符
次数限定符
贪婪与非贪婪限定符
定位符
选择与分组
向后引用

 

普通字符

        普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。

A

->

A

c

->

abcde

bcd

->

abcde

 

非打印字符

除以上的普通字符外,还有少量的非打印字符,非打印字符使用转义符号 "\"表示。如下表:

字符

说明

等同

\cx

匹配由x指明的控件字符。例如,\cM匹配一个ControlM或回车符。x的值必须为A~Za~z之一,否则,将c视为一个原义的'c'字符。

 

\f

匹配一个换页符

\x0c\cL

\n

匹配一个换行符

\x0a\cJ

\r

匹配一个回车符

\x0d\cM

\t       

匹配一个制表符

\x09\cI

\v

匹配一个垂直制表符

\x0b\cK

\s

匹配任何空白字符,包括空格、制表符、换页符等

[\f\n\r\t\v]

\S

匹配任何非空白字符

[^\f\n\r\v]

 

特殊字符

一些有特殊含义的字符,通常都是正则表达式语法中规定的匹配字符。如下表:

类型

字符

说明

首尾

^

匹配输入字符串的开始位置。除非在广括号表达式中使用,此时它表示不接受该字符集合

 

$

匹配输入字符串的结尾位置。如果设置了RegExp对象的Multiline属性,则$也匹配'\n''\r'

次数

*

匹配前面的子表达式零次多次

 

?

匹配前面的子表达式零次一次,或指明一个非贪婪限定符

 

+

匹配前面的子表达式一次多次

.

匹配除换行符 \n之外的任何单字符

括号

()

标记一个子表达式的开始和结束位置。子表达式可以获取供后续使用

 

[]

标记一个中括号表达式的开始

 

{}

标记限定符表达式的开始

字符

\d

任意一个数字,0~9中的任意一个

 

\w

任意一个字母、数字或下画线,也就是 A ~ Za ~ z0 ~ 9_中任意一个

 

\D

匹配所有的非数字字符

 

\W

匹配所有的字母、数字、下画线以外的字符

\

将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如 'n'匹配字符 'n''\n'匹配换行符。

-

|

指明两项之前的一个选择

示例如:

\$d

->

abc$de

 

Tom|Jack

->

I'm Tom, he is Jack

 

(go\s*)+

->

Let's go go go!

 

(\d+\.?\d*)

->

$10.9,20.5

单独获取括号范围匹配到的内容是:20.5

\d\d

->

abc123

 

a.\d

->

aaa100

 

[bcd][bcd]

->

abc123

 

[^abc]

->

abc123

 

 

次数限定符

次数限定符即限定匹配某一字符表达式的次数,用来指定正则表达式的一个给定组合必须要出现多少次才能满足匹配。

字符

说明

举例

*

匹配前面的子表达式零次或多次

zo*能匹配 z zoo

+

匹配前面的子表达式一次或多次

zo+能匹配 zo zoo

?

匹配前面的子表达式零次或一次

do(es)?能匹配 do does

{n}

n是一个非负整数。匹配确定的n

o{2}只能匹配 oo

{n,}

n是一个非负整数。至少匹配n

o{2,}能匹配 oo fooood中的多个o

{n,m}

mn均为非负整数,其中n<=m

最少匹配n次且最多匹配m

o{1,3}能匹配 1个、2个或3 o

 

贪婪与非贪婪限定符

贪婪限定符会尽可能多的匹配文字,只有在它们的后面加个一个"?"就可以实现非贪婪或最小匹配

      • 贪婪匹配限定符

A*

匹配 0次或 n

A+

匹配 1次或 n

A?

匹配 0 1

A{n}

匹配 n

A{n,}

匹配 n多次

 

      • 非贪婪匹配限定符

A*?

匹配 0次或 n

A+?

匹配 1次或 n

A??

匹配 0 1

例如,你可能要搜索一个HTML文档来查询一处包含在H1标记中的章节标题。在文档中该文字可能具有如下形式:

<H1> Chapter 1 - Introduction to Regular Expressions </H1>

下面的表达式匹配从开始的小于号(<)到H1标记结束处的大于号之间的所有内容:

<.*>

如果所要匹配的就是开始的H1标记,则下述非贪婪地表达式就只能匹配到<H1>

<.*?>

 

定位符

        定位符用来描述匹配到的字符串或单词的边界。定义符可以将一个正则表达式固定在一行的开始和结束,也可以创建只在单词内或只在单词的开始或结尾处出现的正则表达式。

字符

说明

 ^

匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,"^"也匹配'\n''\r'之后的位置

$

匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,"$"也匹配'\n''\r'之后的位置

\b

匹配一个单词边界,也就是指单词和空格间的位置

\B

匹配非单词边界

示例如下:

^aaa

->

xxx aaa xxx

aaa xxx xxx

aaa$

->

xxx aaa xxx

xxx xxx aaa

.\b.

->

@@@abc

 

\bend\b

->

weekend,endfor,end

 

 

替换与分组

        替换使用 |字符来允许在两个或多个替换选项之间进行选择。例如,可以扩展章节标题正则表达式,以返回比章标题范围更广的匹配项。但是,这并不象您可能认为的那样简单。替换匹配 |字符任一侧最大的表达式。

        您可能认为,下面的表达式匹配出现在行首和行尾、后面跟一个或两个数字的 Chapter 或 Section:

^Chapter|Section [1-9][0-9]{0,1}$

        很遗憾,上面的正则表达式要么匹配行首的单词 Chapter,要么匹配行尾的单词 Section及跟在其后的任何数字。如果输入字符串是 Chapter 22,那么上面的表达式只匹配单词 Chapter。如果输入字符串是 Section 22,那么该表达式匹配 Section 22。通过在上面的正则表达式的适当位置添加括号,就可以使该正则表达式匹配 Chapter 1 或 Section 3:

^(Chapter|Section) [1-9][0-9]{0,1}$

        使用圆括号同时会有一个副作用,就是相关的匹配会被缓存。为了消除缓存,此时可以将"?:"放在第一个选项前,用来消除这种副作用。其中"?:"是非捕获元之一,还有两非捕获元是 "?=" "?!"这两个还有更多的含义:

  • 前者为正向预查,在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串;
  • 后者为负向预查,在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。

        可以在正则表达式模式圆括号内部的前面使用"?:"来防止存储该匹配供后续使用。对上面所示正则表达式的下述修改提供了免除子匹配存储的相同功能:

^(?:Chapter|Section) [1-9][0-9]{0,1}$

分享到:
评论

相关推荐

    java正则表达式匹配工具

    Java正则表达式匹配工具是IT领域中一种强大的文本处理工具,它利用正则表达式(Regular Expression)的规则来查找、替换或者提取文本中的特定模式。正则表达式是一种特殊的字符序列,能够帮助程序员或者用户高效地...

    易语言正则表达式匹配中文

    综上所述,易语言正则表达式匹配中文涉及了字符串处理、字符编码、正则表达式语法等多个方面。通过学习和掌握这些知识点,开发者可以有效地处理中文文本,实现高效的数据搜索和处理功能。在实践中,不断探索和优化,...

    jJAVA正则表达式替换字符

    本资源文件是我自己总结的,其中包括5个类,这5个类的代码基本...用正则表达式替换字符串内容,使用正则表达式切割字符串,字符串匹配,将字符串“&lt;msg&gt;ha&gt;ve modif”中的&gt;替换为&gt;将&lt;替换为&lt;将&替换为2. 等等情况!

    正则表达式匹配调试工具

    为了更好地理解和调试正则表达式,开发者通常会使用专门的正则表达式匹配调试工具。 正则表达式匹配调试工具的功能通常包括以下几点: 1. **实时匹配测试**:用户可以输入正则表达式和待匹配的文本,工具会即时...

    易语言正则表达式类匹配中文

    正则表达式是用于匹配字符串模式的一种强大工具,它使用特定的语法来描述字符串的特征,如单个字符、字符集、重复次数等。在易语言中,正则表达式类提供了多种方法来操作和分析字符串: 1. **创建**:创建正则...

    Java根据正则表达式生成字符串—Xeger,automaton

    正则表达式是一种强大的文本模式匹配工具,可以用于搜索、替换或者提取符合特定规则的字符串。在本篇文章中,我们将深入探讨如何利用Java中的Xeger和automaton库来根据正则表达式生成随机字符串。 首先,我们要了解...

    使用正则表达式拆分字符串

    - **模式匹配**:正则表达式由一系列字符和特殊符号组成,用于定义一个模式,该模式可以匹配特定的字符串。 - **元字符**:如`*`, `+`, `?`, `{}`, `[]`, `\`等,它们具有特殊的含义,用于指定重复次数、选择范围...

    C#正则表达式大全, 判断字符串是否为正整数,中文,英文.....

    该方法使用了正则表达式 @"^\d+$" 来匹配字符串,如果字符串仅包含数字字符,则返回 true,否则返回 false。 知识点 3:判断输入的字符串是否全是英文(不区分大小写) 在上面的代码中,我们可以看到一个名为 ...

    JavaScript正则表达式匹配 div style标签

    在进行正则表达式匹配时,需要构建能够正确描述目标模式的正则表达式。对于`&lt;div&gt;`和`&lt;style&gt;`标签,通常需要考虑的是标签的开始`&lt;div&gt;`、结束`&lt;/div&gt;`,以及它们之间的内容。对于`&lt;style&gt;`标签,需要识别它的开始`...

    正则表达式匹配算法

    这些基础语法是构建正则表达式匹配算法的基础。 接下来,我们可以采用DFA(确定有限状态自动机)或NFA(非确定有限状态自动机)来实现正则表达式的匹配。在这个案例中,C++代码可能是基于NFA实现的,因为NFA通常更...

    使用正则表达式检测字符串中重复出现的词

    在IT领域,正则表达式(Regular Expression)是一种强大的文本处理工具,用于匹配、查找、替换等操作。在本示例中,我们将讨论如何利用正则表达式来检测字符串中重复出现的词。这个功能在数据清洗、文本分析、日志...

    如何写正则表达式,正则表达式常用实例

    * 使用正则表达式匹配字符串中的电话号码: `\d{3}-\d{8}` 结论 正则表达式是一种强大的字符串匹配工具,通过学习和掌握正则表达式的语法和实例,可以更好地处理字符串匹配问题,提高开发效率和代码质量。

    Java使用正则表达式提取XML节点内容的方法示例

    Java使用正则表达式提取XML节点内容的方法示例主要介绍了Java使用正则表达式提取XML节点内容的方法,结合具体实例形式分析了java针对xml格式字符串的正则匹配相关操作技巧。 一、正则表达式简介 正则表达式是指一...

    易语言正则表达式取网址和名称

    局部变量 匹配结果, 结构体(正则表达式匹配) .局部变量 目标文本, 文本型 = "这里是包含网址的文本,比如 http://example.com 和 www.example.org" .局部变量 网址, 文本型 .程序段 .创建对象 正则表达式对象, ...

    PB实现的正则表达式

    例如,你可以创建一个正则表达式对象,然后使用它来测试字符串是否符合特定模式,或者从字符串中提取匹配的子串。 在实际应用中,使用正则表达式可能涉及到以下步骤: 1. 创建正则表达式:定义你要匹配的模式,例如...

    正则表达式不包涵特殊字符(除了 指定字符 以外)

    在探讨如何利用正则表达式来判断一个字符串除指定字符外不包含其他特殊字符之前,我们首先需要了解正则表达式的基本概念以及本场景中的具体需求。 ### 正则表达式简介 正则表达式是一种强大的文本处理工具,能够...

    正则表达式匹配/可以自定义正则表达式

    正则表达式(Regular Expression,简称regex)是一种强大的文本处理工具,它用于匹配字符串...在压缩包文件"正则表达式匹配"中,你可能找到更多关于正则表达式实际应用的实例和教程,这将有助于你加深理解和提升技能。

    python使用正则表达式匹配字符串开头并打印示例

    在Python中使用正则表达式匹配字符串开头并打印的示例涉及到几个重要的知识点,包括正则表达式的编写、Python中的正则表达式库re的使用、以及如何利用正则表达式提取特定模式的字符串。以下是对这些知识点的详细介绍...

    vb正则表达式实例(正则表达式测试程序)

    在VB.NET中,正则表达式(Regular Expression)是一种强大的文本处理工具,它允许程序员通过模式匹配来处理字符串。这个“vb正则表达式实例”很可能是为了帮助开发者测试和理解正则表达式的工作原理而设计的一个应用...

Global site tag (gtag.js) - Google Analytics