正则表达式中的懒惰匹配与非捕获组

huangyunbin

浏览: 2640412 次
性别:
来自: 广州

最近访客更多访客>>

cht的大摩托

xiaoxiaoHer

zzqfsy

为了ta

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

每日总结

java 正则表达式懒惰匹配非捕获组

当正则表达式中包含能接受重复的限定符(指定数量的代码，例如*,{5,12}等)时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。

 考虑这个表达式：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

 有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：

 a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab和ab。

举例1：
 表达式 "<td>(.*)</td>" 与字符串 "<td>aa</td> <td>bb</td>" 匹配时，匹配的结果是：成功；匹配到的内容是 "<td>aa</td> <td>bb</td>" 整个字符串，表达式中的 "</td>" 将与字符串中最后一个 "</td>" 匹配。
举例2：
 相比之下，表达式 "<td>(.*?)</td>" 匹配举例1中同样的字符串时，将只得到 "<td>aa</td>"，再次匹配下一个时，可以得到第二个 "<td>bb</td>"。

懒惰限定符
*? 重复任意次，但尽可能少重复
+? 重复1次或更多次，但尽可能少重复
?? 重复0次或1次，但尽可能少重复
{n,m}? 重复n到m次，但尽可能少重复
{n,}? 重复n次以上，但尽可能少重复

这个例子供测试：
import java.util.regex.*;
public class Test{
public static void main(String[] args) {
 //String s = "<td><aa</td> <td>bb</td>";//用于其它测试
 String s = "<td>aa555</td><td>bbb</td><td>abc</td>";//用于{1,40},{1,}测试
 //String s = "<td>a</td><td>b</td><td></td>";//用于.??测试
 //String regex="<td>(.*)</td>";

 //String regex="<td>(.*?)</td>";
 // String regex="<td>(.+?)</td>";
 //String regex="<td>(.??)</td>";
 //String regex="<td>(.{1,40}?)</td>";
 String regex="<td>(.{1,}?)</td>";
 Pattern pt=Pattern.compile(regex);
 Matcher mt=pt.matcher(s);
 while(mt.find()){
 System.out.println(mt.group(1).trim());
 }
 }
}

非捕获组(?:Exp)：匹配Exp部分正则表达式，但匹配的结果并不保存到捕获组，一般在验证规则时使用，因为保存捕获组都要占用一定的内存资源，而不需要保留匹配结果时，可以使用非捕获组来节省资源

import java.util.regex.*;

public class Test {
public static void main(String[] args) {
 String str = "<a href=\"11\"> aaa </a>" +
 "<a href=\"12\"> bbb </a>" +
 "<a href=\"13\">ccc </a> " +
 "<a href=\"14\"> ddd </a>" +
 "<a href=\"15\"> eee </a> " +
 "<a href=\"16\">fff </a> ";
 String regex = "<a.*?>(?:\\s*<font[^>]*>)?(.*?)(?:\\s*)?</a>";
 Pattern pattern = Pattern.compile(regex);
 Matcher matcher = pattern.matcher(str);
 while(matcher.find()) {
 System.out.println(matcher.group(1));
 }
}
}

这个例子的运行结果是：
C:\java>java Test
aaa
bbb
ccc
ddd
eee
fff

分享到：

google的guava学习之option | （转）Javascript的作用域，闭包的真真正含 ...

2012-08-08 09:34
浏览 3169
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论