`

正则表达式中使用问号可以取消贪婪模式

    博客分类:
  • C#
阅读更多

正则表达式中使用问号可以取消贪婪模式

使用正则表达式抽取整个页面的特定内容是非常方便的,但在使用时有一些细节问题还是很关键的,比如合理的使用问号(?)可以取消贪婪的抽取问题。

比如页面中包含有很多段<p>…</p>,如果我们使用下面的方法抽取:

1
2
Regex rx = new Regex("<p>(.*)</p>");
Match match = rx.Match(str); // match.NextMatch(); 可用来取下一个

结果是只提出一个,内容是从第一个<p>开始到最后一个</p>结束。

这里我们只要加上问号,如下代码:

1
2
Regex rx = new Regex("<p>(.*?)</p>");
Match match = rx.Match(str);

这时提到出来的就是一个个独立的<p>…</p>,有时这才是我们想要的。

另外上面正则表达式里的括号也很有用,使用match.Group[0]得到匹配的结果,用match.Group[1]即得到括号中的内容。有多个括号按从外到内、从左到右的原则依次从Group里取。

PS. C#中还有个Group的概念,挺鬼异的,这里有解释,抽空研究一下:http://blog.csdn.net/zhoufoxcn/archive/2010/03/09/5358644.aspx

Updated:更多正则表达式的揭密参见这里:http://www.regexlab.com/zh/regref.htm

分享到:
评论

相关推荐

    正则表达式简明参考.pdf

    在正则表达式中,可以通过\数字的形式引用对应分组号的内容。例如,\1引用的是第一个分组所匹配的内容。 零宽断言用于匹配某个字符或位置之前或之后的字符串,但不包括该位置或字符本身。正向零宽断言使用(?=...)的...

    正则表达式基础学习笔记

    不同的编程语言和环境可能使用不同的正则表达式引擎,如Perl兼容正则表达式(PCRE)、JavaScript的正则表达式等,它们在语法细节和功能上可能存在差异。 七、实例应用 1. 邮箱验证:`^[a-zA-Z0-9._%+-]+@[a-zA-Z0-...

    Perl 正则表达式速查手册

    Perl正则表达式是用于文本处理的强大工具,被广泛应用于各种脚本编程任务中,包括数据验证、字符串替换、模式匹配等。本文档旨在为用户提供一个快速查阅Perl正则表达式的指南,包含了基本的特殊字符、元字符、锚点、...

    正则表达式

    - **搜索与替换**:在文本编辑器或编程环境中,正则表达式可用于高效查找和替换特定模式的文本。 - **数据提取**:在网页抓取或日志分析中,正则表达式用于从大量文本中提取有价值的信息。 - **文本分析**:在...

    正则表达式小结篇

    正则表达式的匹配行为默认是懒惰的(非贪婪的),即尽可能少地匹配字符,但可以使用量词后加问号“?”来取消这一特性,使其变为贪婪模式,尽可能多地匹配字符。 通过以上知识点,我们可以看到正则表达式在处理字符...

    正则速查pdf表,快速查看

    - **|**:表示或(OR)操作,用于选择多个模式中的一个进行匹配。 - **()**:用于分组和捕获,可以将多个表达式组合在一起作为一个整体进行处理。 - **[]**:定义字符类,指定一组字符中的任意一个进行匹配。 - **\**...

Global site tag (gtag.js) - Google Analytics