- 浏览: 340313 次
- 性别:
- 来自: 广州
文章分类
最新评论
具体参考资料:http://deerchao.net/tutorials/regex/regex.htm
几个常用的元字符:
\b:是正则表达式规定的一个特殊字符,代表单词的开头或结尾.\bhi\b可以用来查找hi这个单词.
\d:匹配0到9的数字.如\b\d{4}/\d{2}/\d{2}\b,用来匹配日期格式1984/08/28
.:匹配任意一个除换行符以外的任意字符.
*:代表的是字符的数量,如.*表示可以匹配任意的字符,匹配次数是>=0次
+:代表的是字符的数量,如.*表示可以匹配任意的字符,匹配次数是>0次
\s:匹配任意的空白符,包括空格,制表符(Tab),换行符,中文空格.
\w:匹配字母或数字或下划线或汉字
^和$:和\b类似,只是用来匹配一个位置,^匹配目标字串的开头,$匹配目标字串的结尾,如^d{5,12}$匹配5到12位的数字,可以用来匹配QQ号
字符转义:
如果要查找元字符本身的话,如要找*那就出问题了,这时要用\来取消这些字符的特殊意义,这叫转义.
需要转义的字符有:[,],\,^,$,|,?,*,(,)
重复:
前面的*,+,{2},{5,12}表示匹配重复的方式
*:>=0次
+:>=1次
?:重复0次或1次
{n}:重复n次
{n,m}:重复n到m次
字符类:
通过前面的介绍,要想查找数字,字母,空白是简单的,因为有了对应这些字符集合的元字符,但是想匹配没有预定义元字符的字符集合怎么办,比如想查找有a,b或c的字符怎么办,很简单,只要把它们放到中括号里就可以了[abc]
我们可以轻松地指定一个字符范围,像[0-9]代表的含意与\d就是完全一致的:一位数字;同理[a-z0-9A-Z_]也完全等同于\w(如果只考虑英文的话)。
如:\(?0\d{2}[) -]?\d{8},目的是想匹配像(010)84082812或010-84082812的电话号码,完美吗?
分枝条件:
很遗憾,上面的正则表达式用来匹配所列出的电话号码的格式并不完美,因为它也能匹配010)84082812
我们可以用分枝条件来解决这个问题:
\d{5}-\d{4}|\d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字,或者用连字号间隔的9位数字。之所以要给出这个例子是因为它能说明一个问题:使用分枝条件时,要注意各个条件的顺序。如果你把它改成\d{5}|\d{5}-\d{4}的话,那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会去再管其它的条件了
分组:
我们已经知道怎么重复匹配单个字符(直接在字符后面加上限定符就行了),但如果想要重复多个字符又该怎么办呢?我们可以用小括号来指定子表达式(也叫分组),然后就可以指定这个分组的重复次数了.
(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:\d{1,3}匹配1到3位的数字,(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(\d{1,3})。
不幸的是,它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话,或许能简单地解决这个问题,但是正则表达式中并不提供关于数学的任何功能,所以只能使用冗长的分组,选择,字符类来描述一个正确的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。
反义:
\W:匹配不是字母,数字,下划线,汉字的字符
\D:匹配任意非数字的字符
[^x]匹配除x以外的任意字符
[^abc]匹配除abc这几个字母以外的字符
如:<a[^>]+>匹配用尖括号括起来的以a开头的字符串
后向引用:
使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。后向引用用于重复搜索前面某个分组匹配的文本。例如,\1代表分组1匹配的文本你也可以自己指定子表达式的组名。要指定一个子表达式的组名,请使用这样的语法:(?<Word>\w+)(或者把尖括号换成'也行:(?'Word'\w+)),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容,你可以使用\k<Word>,所以上一个例子也可以写成这样:\b(?<Word>\w+)\b\s+\k<Word>\b使用小括号的时候,还有很多特定用途的语法。下面列出了最常用的一些:
捕获:(exp),(?<name>exp),(?:exp)
零宽断言:(?=exp),(?<=exp),(?!exp),(?<!exp)
注释:(?#comment)
零宽断言:
接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言。最好还是拿例子来说明吧:
(?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.时,它会匹配sing和danc。(?<=exp)也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。
负向零宽断言:
零宽断言和负向零宽断言的关系就像\w和\W的关系
零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp。例如:\d{3}(?!\d)匹配三位数字,而且这三位数字的后面不能是数字;\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词
注释:??
小括号的另一种用途是通过语法(?#comment)来包含注释
<(\w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)??
贪婪与懒惰:
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。
有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:
a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)
^(\\S+)\\s+((?:\\S+\\s+)*)?(\\S+)$
注意:在linux下,一个\要用两个\\来表示.
发表评论
-
Mina重连
2014-05-26 21:29 2923import com.sun.swing.internal. ... -
面试经典
2014-05-24 09:29 6431.mysql innodb引擎,什么叫聚集索引,与非聚集索 ... -
一拍网网站系统架构图
2014-03-28 21:24 616一拍网网站系统架构图 -
Window下安装配置nginx
2013-08-12 16:53 806安装:http://www.cnblogs.com/wen ... -
使用线程池的好处
2013-07-18 14:41 1248使用线程池有两个好处: 1.可以创建和销毁线程所带来的系统 ... -
Java ThreadLocal使用浅析
2013-07-18 14:36 478ThreadLocal通过在其内部保存变量的副本,并且各个副本 ... -
MyBatis学习之简单增删改查操作、MyBatis存储过程、MyBatis分页、MyBatis一对一、MyBatis一对多
2013-07-05 13:06 1173http://blog.csdn.net/zhangwei ... -
分享一位网友的架构杂谈
2013-05-20 23:16 910不容类型的网站,并发处理不一样,例如针对sns这种类型的网站 ... -
JSP页面静态化
2013-04-08 09:20 887http://www.java-zone.org/644.ht ... -
Java compile to C++
2013-03-19 14:53 504http://code.google.com/a/eclips ... -
几个TCP Socket的通信框架
2013-03-19 12:26 993http://www.oschina.net/p/simple ... -
宝贝鱼
2013-03-18 23:54 687http://code.google.com/p/cshbbr ... -
将Java程序注册成系统服务(NT服务)
2013-03-16 16:14 603http://blog.csdn.net/small____f ... -
Java内存回收机制
2013-03-13 15:47 813http://www.iteye.com/blogs/tag/ ... -
支付宝,百付宝集成
2013-03-13 14:01 966http://help.alipay.com/support/ ... -
SSH+EXTJS项目下载
2013-03-11 23:02 437http://download.csdn.net/tag/Ex ... -
Hibernate中使用Threadlocal创建线程安全的Session
2013-03-04 20:39 588http://blog.sina.com.cn/s/blog_ ... -
Java Socket多线程通信
2012-10-09 09:53 839当Server没接受到一个Client连接请求之后,都把处理流 ... -
Java 多线程的一个例子
2012-10-09 09:48 1022目录: 1 synchronized的 ... -
app引擎
2012-07-10 09:39 0http://sae.sina.com.cn/ htt ...
相关推荐
### 正则表达式学习笔记 #### 一、正则表达式概述 正则表达式是一种强有力的模式匹配工具,广泛应用于各种编程语言中,用于文本处理。正则表达式允许用户定义复杂的查找模式,这对于数据验证、搜索和替换操作特别...
本文档是小小明个人笔记,为学习和使用正则表达式提供了一个系统的资源。 Python正则表达式全套笔记v0.3 1.1 作者简介 小小明是数据处理专家,擅长解决各种复杂数据处理问题,并且提供了个人笔记,涵盖了正则...
基于java的开发源码-java多线程反射泛型及正则表达式学习笔记和源码.zip 基于java的开发源码-java多线程反射泛型及正则表达式学习笔记和源码.zip 基于java的开发源码-java多线程反射泛型及正则表达式学习笔记和源码....
#### 二、Java正则表达式基本语法 在Java中使用正则表达式前,需要了解一些基本的语法符号: - **特殊字符**:`^` 表示字符串的开始;`$` 表示字符串的结束;`.` 表示任意单个字符。 - **量词**:`*` 表示前面的...
这篇学习笔记将深入探讨JavaScript正则表达式的概念、语法和实际应用。 一、正则表达式基础 1. 创建正则表达式: - 字面量表示法:`/pattern/flags` - 构造函数:`new RegExp('pattern', 'flags')` 2. 常见的...
### 正则表达式学习笔记详解 正则表达式(Regular Expression)是一种强大的文本匹配工具,广泛应用于数据处理、文本搜索、格式验证等场景。以下是对给定文件中提到的各种正则表达式的详细解析,旨在帮助读者深入...
JavaScript中的正则表达式是处理字符串的强大工具,用于匹配、替换、分割文本。它们在编程中扮演着不可或缺的角色,尤其在验证用户输入、提取数据、格式化内容等方面。以下是对正则表达式的基础知识和常见用法的详细...
好东西才与大家分享!这是博客园一位老师的正则表达式教学笔记,很精炼的阐述,看了你一定不后悔……
正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和提取字符串中的特定模式。在编程语言中,正则表达式广泛应用于数据验证、文本分析...通过不断的实践和学习,你可以创建更复杂的正则表达式来满足各种需求。
学习正则表达式能够帮助我们更好地处理复杂文本需求,如验证输入信息、查找和替换特定模式的文本,以及在大量日志和数据中提取关键信息。 正则表达式的语法结构通常是用斜杠 `/` 包裹模式,并可以加上可选的修饰符...
正则表达式(Regular Expression,简称regex)是用于匹配字符串的一种模式,广泛应用于文本处理、数据验证、搜索和替换等场景。它通过一种简洁而强大的语法来定义一系列字符或字符组合,帮助程序员快速准确地定位和...
6. **学习曲线**:对于初学者来说,正则表达式的学习曲线较陡峭。 #### 二、Python中的正则表达式基础 在Python中使用正则表达式时,需要导入`re`模块。这个模块提供了所有必要的正则表达式功能。 - **转义字符...
这篇入门笔记实例将带你深入了解正则表达式的使用。 1. **正则表达式基础** - **模式定义**:正则表达式由特殊字符(元字符)和普通字符组成,用于描述文本模式。 - **创建方式**:可以使用`/pattern/flags`或`...