正则表达式

GLC

浏览: 114022 次
性别:
来自: 长沙

最近访客更多访客>>

jacksdfdsafdsa

497892392

hjt12003

qqqwe

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java基础

正则表达式 java基础

写代码时、我们常常需要对字符串进行处理、提取或设置字符串的数据及格式；按照传统的方法：我们用字符处理的方法处理字符、处理起来不方便也挺复杂，而正则表达式就是为处理或设置满足字符串要求而提出来的。

首先我们介绍正则表达式中的通配符：*
比如说我们查找*.doc 则会对字符串过滤出所有含有.doc的字符
\d+ 一位或更多位数字 \d{2} 表示两位数字
\b 代表单词的开头或结尾 \bhi.* 表示以hi开始的单词
表1.常用的特殊代码
代码/语法说明
. 匹配除换行符以外的任意字符
\w 匹配字母或数字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束

有了这次特殊代码、我们匹配组合出很多其他的字符规则出来；但当我们要用到这些特殊字符本身时、怎么办呢，这就出现了字符转义。
使用特殊字符当一般字符处理时、我们需要在其前面加\
比如：gui\.com匹配出gui.com的字符出来

重复的规则：
表2.常用的量词
代码/语法说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

当我们想匹配出含有特殊字符时、可以在[]中添加需要匹配的字符；
[aeiou]能匹配出任何一个元音字母，[.?!]匹配出含有.?!的字符；同时我们会发现、中括号里面的特殊字符.失效了、这是[]里面的处理规则。
[0-9]等效于\d [a-z0-9A-Z]等效于\w

反义：有时需要查找不需要某个简单定义的字符类的字符，其表如下
表3.常用的反义代码
代码/语法说明
\W 匹配任意不是字母和数字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符
例如：\S+表示不包含空白符的字符串
 <a[^>]+>表示以尖括号括起来的以a开头的字符串

替换：在正则表达式中、替换指有好几种规则；具体方法是用|把不同规则分开。
0\d{2}-\d{8}|0\d{3}-\d{7}表示能匹配两种电话号码：一种是三位区号的、一种是四位区号。

分组：重复一个字符串时、除了重复的规则还可以使用小括号来指定子表达式，然后就可以指定重复的次数了。
例如：(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式

后向引用：使用小括号指定一个子表达式，匹配这个子表达式的文本可以在表达式或其他程序中作进一步处理；默认情况下、每个分组会自动拥有一个组号；规则是：以分组的左括号为标志、从左至右，第一个分组为1、后面的依次内推。
后向引用：用于重复搜索前面某个分组的序号。
例如：\1表示匹配分组1的文本。
 \b(\w)\b\s+\1\b 表示匹配重复的单词如go go
同时、你也可以自己分配组号。如 (!<Word>\w+)这样就把\w的组名指定为Word了，反向引用这个分组、则可以使用\k<Word> 所以上面的例子可以写成：\b(<Word>\w+)\b\s*\k<Word>\b
表4.分组语法
捕获
(exp) 匹配exp,并捕获文本到自动命名的组里
(?<name>exp) 匹配exp,并捕获文本到名称为name的组里
(?:exp) 匹配exp,不捕获匹配的文本
位置指定
(?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
注释
(?#comment) 这种类型的组不对正则表达式的处理产生任何影响，只是为了提供让人阅读注释

位置指定:(?=exp)也叫零宽先行断言，它匹配文本中的某些位置，这些位置的后面能匹配给定的后缀exp。比如\b\w+(?=ing\b)，匹配以ing结尾的单词的前面部分(除了ing以外的部分)，如果在查找I'm singing while you're dancing.时，它会匹配sing和danc

(?<=exp)也叫零宽后行断言，它匹配文本中的某些位置，这些位置的前面能给定的前缀匹配exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。
负向位置指定
　　前面我们提到过怎么查找不是某个字符或不在某个字符类里的字符的方法(反义)。但是如果我们只是想要确保某个字符没有出现，但并不想去匹配它时怎么办？例如，如果我们想查找这样的单词--它里面出现了字母q,但是q后面跟的不是字母u,我们可以尝试这样：
　　\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐，直接就观察出来了)，你会发现，如果q出现在单词的结尾的话，像Iraq,Benq，这个表达式就会出错。这是因为[^u]总是匹配一个字符，所以如果q是单词的最后一个字符的话，后面的[^u]将会匹配q后面的单词分隔符(可能是空格，或者是句号或其它的什么)，后面的\w+\b将会匹配下一个单词，于是\b\w*q[^u]\w*\b就能匹配整个Iraq fighting。负向位置指定能解决这样的问题，因为它只匹配一个位置，并不消费任何字符。现在，我们可以这样来解决这个问题：\b\w*q(?!u)\w*\b。
　　零宽负向先行断言(?!exp)，只会匹配后缀exp不存在的位置。\d{3}(?!\d)匹配三位数字，而且这三位数字的后面不能是数字。
　　同理，我们可以用(?<!exp),零宽负向后行断言来查找前缀exp不存在的位置：(?<![a-z])\d{7}匹配前面不是小写字母的七位数字(实验时发现错误？注意你的“区分大小写”先项是否选中)。
　　一个更复杂的例子：(?<=<(\w+)>).*(?=<\/\1>)匹配不包含属性的简单HTML标签内里的内容。(<?(\w+)>)指定了这样的前缀：被尖括号括起来的单词(比如可能是)，然后是.*(任意的字符串),最后是一个后缀(?=<\/\1>)。注意后缀里的\/，它用到了前面提过的字符转义；\1则是一个反向引用，引用的正是捕获的第一组，前面的(\w+)匹配的内容，这样如果前缀实际上是的话，后缀就是了。整个表达式匹配的是和之间的内容(再次提醒，不包括前缀和后缀本身)。
贪婪与懒惰
　　当正则表达式中包含能接受重复的量词(指定数量的代码，例如*,{5,12}等)时，通常的行为是匹配尽可能多的字符。考虑这个表达式：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。
　　有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的量词都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：
　　a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab和ab。
表5.懒惰量词
*? 重复任意次，但尽可能少重复
+? 重复1次或更多次，但尽可能少重复
?? 重复0次或1次，但尽可能少重复
{n,m}? 重复n到m次，但尽可能少重复
{n,}? 重复n次以上，但尽可能少重复
表6.尚未讨论的语法
\a 报警字符(打印它的效果是电脑嘀一声)
\b 通常是单词分界位置，但如果在字符类里使用代表退格
\t 制表符，Tab
\r 回车
\v 竖向制表符
\f 换页符
\n 换行符
\e Escape
\0nn ASCII代码中八进制代码为nn的字符
\xnn ASCII代码中十六进制代码为nn的字符
\unnnn Unicode代码中十六进制代码为nnnn的字符
\cN ASCII控制字符。比如\cC代表Ctrl+C
\A 字符串开头(类似^，但不受处理多行选项的影响)
\Z 字符串结尾或行尾(不受处理多行选项的影响)
\z 字符串结尾(类似$，但不受处理多行选项的影响)
\G 当前搜索的开头
\p{name} Unicode中命名为name的字符类，例如\p{IsGreek}
(?>exp) 贪婪子表达式
(?<x>-<y>exp) 平衡组
(?-<y>exp) 平衡组
(?im-nsx:exp) 在子表达式exp中改变处理选项
(?im-nsx) 为表达式后面的部分改变处理选项
(?(exp)yes|no) 把exp当作零宽正向先行断言，如果在这个位置能匹配，使用yes作为此组的表达式；否则使用no
(?(exp)yes) 同上，只是使用空表达式作为no
(?(name)yes|no) 如果命名为name的组捕获到了内容，使用yes作为表达式；否则使用no
(?(name)yes) 同上，只是使用空表达式作为no

资料参考来源：http://deerchao.net/tutorials/regex/regex-1.htm

分享到：