`

2.正则表达式:正则表达式语法

阅读更多

正则表达式是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”)。

模式描述在搜索文本时要匹配的一个或多个字符串。

 

下面是正则表达式的一些示例:

表达式 匹配
/^\s*$/ 匹配空行。
/\d{2}-\d{5}/ 验证由两位数字、一个连字符再加 5 位数字组成的 ID 号。
/<\s*(\S+)(\s[^>]*)?>[\s\S]*<\s*\/\1\s*>/

匹配 HTML 标记。

 

下表包含了元字符的完整列表以及它们在正则表达式上下文中的行为:

字符 说明
\ 将下一字符标记为特殊字符、文本、反向引用或八进制转义符 。例如,“n”匹配字符“n”。“\n”匹配换行符。序列“\\”匹配“\”,“\(”匹配“(”。
^ 匹配输入字符串开始 的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与“\n”或“\r”之后的位置匹配。
$ 匹配输入字符串结尾 的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与“\n”或“\r”之前的位置匹配。
* 零次或多次 匹配前面的字符或子表达式。例如,zo* 匹配“z”和“zoo”。* 等效于 {0,}。
+ 一次或多次 匹配前面的字符或子表达式。例如,“zo+”与“zo”和“zoo”匹配,但与“z”不匹配。+ 等效于 {1,}。
? 零次或一次 匹配前面的字符或子表达式。例如,“do(es)?”匹配“do”或“does”中的“do”。? 等效于 {0,1}。
{n } n 是非负整数。正好匹配 n 。例如,“o{2}”与“Bob”中的“o”不匹配,但与“food”中的两个“o”匹配。
{n ,} n 是非负整数。至少匹配 n 。例如,“o{2,}”不匹配“Bob”中的“o”,而匹配“foooood”中的所有 o。'o{1,}' 等效于 'o+'。'o{0,}' 等效于 'o*'。
{n ,m } mn 是非负整数,其中 n <= m至少匹配 n 次,至多匹配 m 。例如,“o{1,3}”匹配“fooooood”中的头三个 o。'o{0,1}' 等效于 'o?'。注意:您不能将空格插入逗号和数字之间。
? 当此字符紧随任何其他限定符(*、+、?、{n }、{n ,}、{n ,m })之后 时,匹配模式是“非贪心的 ”。“非贪心的”模式匹配搜索到的、尽可能短的字符串,而默认的“贪心的”模式匹配搜索到的、尽可能长的字符串。例如,在字符串“oooo”中,“o+?”只匹配单个“o”,而“o+”匹配所有“o”。
. 匹配除“\n”之外的任何单个字符 。若要匹配包括“\n”在内的任意字符,请使用诸如“[\s\S] ”之类的模式。
(pattern ) 匹配 pattern 并捕获该匹配的子表达式 。可以使用 $0 ...$9 属性从结果“匹配”集合中检索捕获的匹配。若要匹配括号字符 ( ),请使用“\(”或者“\)”。
(?:pattern ) 匹配 pattern 但不捕获该匹配的子表达式 ,即它是一个非捕获匹配,不存储供以后使用的匹配。这对于用“或”字符 (|) 组合模式部件的情况很有用。例如,与“industry|industries”相比,“industr(?:y| ies)”是一个更加经济的表达式。
(?=pattern ) 执行正向预测先行搜索的子表达式 ,该表达式匹配处于匹配 pattern 的字符串的起始点的字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如,“Windows (?=95| 98| NT| 2000)”与“Windows 2000”中的“Windows”匹配,但不与“Windows 3.1”中的“Windows”匹配。预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。
(?!pattern ) 执行反向预测先行搜索的子表达式 ,该表达式匹配不处于匹配 pattern 的字符串的起始点的搜索字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如,“Windows (?!95| 98| NT| 2000)”与“Windows 3.1”中的“Windows”匹配,但不与“Windows 2000”中的“Windows”匹配。预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。
x | y xy 匹配 。例如,“z| food”与“z”或“food”匹配。“(z| f)ood”与“zood”或“food”匹配。
[xyz ] 字符集。匹配包含的任一字符 。例如,“[abc]”匹配“plain”中的“a”。
[^xyz ] 反向字符集。匹配未包含的任何字符 。例如,“[^abc]”匹配“plain”中的“p”。
[a-z ] 字符范围。匹配指定范围内的任何字符 。例如,“[a-z]”匹配“a”到“z”范围内的任何小写字母。
[^a-z ] 反向范围字符。匹配不在指定的范围内的任何字符 。例如,“[^a-z]”匹配任何不在“a”到“z”范围内的任何字符。
\b 匹配一个字边界 ,即字与空格间的位置。例如,“er\b”匹配“nerver”中的“er”,但不匹配“vrerb”中的“er”。
\B 非字边界匹配 。“er\B”匹配“verb”中的“er”,但不匹配“never”中的“er”。
\cx 匹配由 x 指示的控制字符。例如,\cM 匹配一个 Control-M 或回车符x 的值必须在 A-Z 或 a-z 之间。如果不是这样,则假定 c 就是“c”字符本身。
\d 数字字符 匹配。等效于 [0-9]。
\D 非数字字符 匹配。等效于 [^0-9]。
\f 换页符 匹配。等效于 \x0c 和 \cL。
\n 换行符 匹配。等效于 \x0a 和 \cJ。
\r 匹配一个回车符 。等效于 \x0d 和 \cM。
\s 匹配任何空白字符 ,包括空格、制表符、换页符等。与 [ \f\n\r\t\v] 等效。
\S 匹配任何非空白字符 。等价于 [^ \f\n\r\t\v]。
\ t 制表符 匹配。与 \x09 和 \cI 等效。
\v 垂直制表符 匹配。与 \x0b 和 \cK 等效。
\w 匹配任何字类字符 ,包括下划线。与“[A-Za-z0-9_]”等效。
\W 任何非字字符匹配 。与“[^A-Za-z0-9_]”等效。
\xn 匹配 n ,此处的 n 是一个十六进制转义码。十六进制转义码必须正好是两位数长。例如,“\x41”匹配“A”。“\x041”与“\x04”&“1”等效。允许在正则表达式中使用 ASCII 代码。
\num 匹配 num ,此处的 num 是一个正整数。到捕获匹配的反向引用。例如,“(.)\1”匹配两个连续的相同字符。
\n 标识一个八进制转义码或反向引用。如果 \n 前面至少有 n 个捕获子表达式,那么 n 是反向引用。否则,如果 n 是八进制数 (0-7),那么 n 是八进制转义码。
\nm 标识一个八进制转义码或反向引用。如果 \nm 前面至少有 nm 个捕获子表达式,那么 nm 是反向引用。如果 \nm 前面至少有 n 个捕获,那么 n 是反向引用,后面跟 m 。如果前面的条件均不存在,那么当 n m 是八进制数 (0-7) 时,\nm 匹配八进制转义码 nm
\nml n 是八进制数 (0-3),ml 是八进制数 (0-7) 时,匹配八进制转义码 nml
\un 匹配 n ,其中 n 是以四位十六进制数表示的 Unicode 字符。例如,\u00A9 匹配版权符号 (©)。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    正则表达式教程.正则表达式教程.正则表达式教程

    常见的正则表达式模式包括邮箱验证:`\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b`,电话号码验证:`\d{3}-\d{3}-\d{4}`,URL验证:`^(http|https)://[a-zA-Z0-9\\-\\.]+\\.[a-zA-Z]{2,3}(/\\S*)?...

    掌控正则表达式:第三版

    - **正则表达式的基础**:介绍正则表达式的概念、基本语法和常见元字符,帮助读者快速入门。 - **正则表达式引擎详解**:深入讲解正则表达式引擎的工作机制,包括模式匹配算法和内部实现细节。 - **性能优化技巧**:...

    正则表达式:深入理解与应用.zip

    不同的编程语言中,正则表达式的语法略有差异,如JavaScript、Python、Java、Perl等都有各自的实现,但核心概念和原理是通用的。了解并掌握特定语言的正则表达式API和用法是提升开发效率的关键。 六、调试和学习...

    PB实现的正则表达式

    需要注意的是,由于PowerBuilder 11.5年代较久,其支持的正则表达式功能可能相对较弱,对于现代的复杂正则表达式语法可能不完全兼容。在使用时,开发者可能需要查阅相关的文档,或者考虑升级到支持更强大正则表达式...

    正则表达式.rar 正则表达式.rar

    虽然正则表达式的核心概念广泛应用于多种环境,但不同的编程语言和工具可能对某些特性和语法有所扩展或限制。例如,JavaScript的正则表达式支持一些特有的功能,如预查`(?=...)`和否定预查`(?!=...)`,而Python的re...

    java正则表达式.zip

    正则表达式语法** Java正则表达式遵循Perl5的语法,包括元字符(如`.`, `^`, `$`, `*`, `+`, `?`, `{}`, `[]`, `\`, `|`, `(`, `)`)、预定义字符类(如`\d`, `\w`, `\s`)以及量词(如`*`, `+`, `?`, `{n}`, `{n,}`...

    正则表达式教程:30分钟让你精通正则表达式语法 _

    正则表达式教程:30分钟让你精通正则表达式语法 _

    Python中的正则表达式:从入门到精通

    本文将详细介绍如何在Python中使用正则表达式,包括基础语法、常用函数和实际应用案例。 正则表达式是Python中处理文本的强大工具。通过掌握正则表达式的语法和re模块的函数,你可以有效地进行文本搜索、替换和验证...

    02.正则表达式1

    正则表达式(Regular Expression)是编程领域中用于处理字符串的强大工具,它通过特定的语法模式来匹配、查找、替换或提取文本中的特定序列。在.NET框架中,正则表达式提供了一整套API,使得开发者能够高效地处理...

    正则表达式生成工具 正则表达式

    3. 语法高亮:通过颜色区分不同类型的正则表达式元素,提高可读性。 4. 解析说明:解释正则表达式的含义,帮助用户理解每个部分的作用。 5. 编辑器支持:提供代码编辑器的功能,如自动补全、错误检查等。 6. 学习...

    Delphi2010正则表达式插件

    这款名为"Delphi 2010正则表达式插件"的组件,其核心是基于Perl Compatible Regular Expressions (PCRE)库,这是一款广泛使用的正则表达式库,它对正则表达式的支持非常全面,提供了丰富的功能和语法。在Delphi 2010...

    正则表达式转换工具

    2. **正则表达式转换** - 字符转义:在正则表达式中,特殊字符需要通过反斜杠`\`进行转义,如`\.`表示匹配实际的点号,而不是任何字符。 - 常规字符到元字符的转换:例如,将`*`转换为`\*`,避免其被解释为量词。 ...

    第11.25节 Python正则表达式编译re.compile及正则对象使用.rar

    3. **预处理错误检查**:编译时会检查正则表达式语法,如果存在错误,会在编译阶段报错,而不是在运行时。 ### 示例 ```python import re # 编译正则表达式 regex = re.compile(r'\d+\.\d+') # 使用编译后的正则...

    正则表达式.doc 正则表达式

    总的来说,正则表达式是程序员处理文本的强大工具,理解并掌握其语法和使用方法对于提高文本处理能力至关重要。通过不断实践和学习,你可以利用正则表达式解决各种文本处理问题,无论是在Java还是其他支持正则表达式...

    正则表达式:文本处理的强大工具.pdf

    正则表达式的语法相对复杂,但一旦掌握了基本规则,就能非常高效地进行文本处理。 - **文字字符**:包括所有字母、数字和标点符号,如"hello"、"123"、"!"等。 - **特殊字符**: - **点号(.)**:匹配任何单个...

    Java常用正则表达式.txt

    ### Java常用正则表达式详解 #### 匹配腾讯QQ号 ...这些正则表达式不仅限于Java语言,大多数编程语言都支持类似语法的正则表达式。通过这些示例,我们可以更好地理解和应用正则表达式来处理各种实际问题。

    正则表达式客户端工具

    8. 兼容性:考虑到不同的编程语言和环境可能支持不同的正则表达式语法,此工具可能提供多种正则引擎供选择,以确保在不同平台上的一致性。 9. 自定义设置:用户可以根据个人习惯调整工具的配置,例如设置匹配结果的...

    [Python]网络爬虫(七):Python中的正则表达式教程.pdf

    4. 正则表达式的基础语法 - `.`:匹配任意单个字符。 - `*`:匹配前面的子表达式零次或多次。 - `+`:匹配前面的子表达式一次或多次。 - `?`:匹配前面的子表达式零次或一次。 - `^`:匹配输入的开始位置。 - ...

    Lucene 使用正则表达式

    2. **正则表达式(regex)在Lucene中的应用** 3. **regexQuery详解** 4. **示例代码解析** 5. **索引创建与查询流程** 6. **正则表达式的语法** #### Lucene简介 Lucene是一个高性能、全功能的全文搜索引擎库。它为...

Global site tag (gtag.js) - Google Analytics