Java 正则表达式全攻略(二)
[ 2010-04-23 12:43:42.0 | 作者: 随想 类别: 基础强化
]
来源:网络收集
浏览 1512
labels:Java 正则表达式全攻略(二) java正则表达式 字符集
正则表达式引擎的内部工作机制
知道正则表达式引擎是如何工作的,将有助于你很快理解为何某个正则表达式不像你期望的那样工作,还可以
使你清楚如何对表达式进行性能优化。从最基本的正则表达式引擎实现思路上来分的话,有两种:确定型有限状态机(Deterministic
Finite-State Automaton)简称DFA和不确定型有限状态机(Nodeterministic Finite-State
Automaton)简称NFA,也有人称其为文本导向和正则导向。以下这个网址 http://osteele.com/tools/reanimator/
以一种非常直观的方式说明了 DFA 和 NFA 对相同的表达式的不同编译结果。
由于我们的目的不在于学习状态机,所以我们忽略这2者的工作原理,直接对比他们的影响。就拿表达式 a|ab|abc|abcd
来对比。
我们可以看到NFA的结果比较复杂,而DFA十分简洁,这是否又会影响到2者的性能呢?确实如此,DFA的执行速度与表达式无关,它在编译时的优化已经优
于大多数
NFA引擎的复杂优化措施。而NFA的执行速度与表达式有着直接的关系。从匹配结果来看,DFA总是返回最左边最长的匹配结果,而NFA总是比较猴急,总
会匹配第一个找到的结果。根据这一点,我们可以轻易分辨出所使用的引擎是DFA还是NFA,你可以使用表达式 nfa|nfa not
对字符串”nfa not”进行测试,如果匹配结果是 nfa
,那该引擎是NFA的,而Java就是属于NFA的。最后一点就是,NFA能提供的功能比DFA更多,例如:捕获由括号内的子表达式匹配的文本、环视,以
及其他复杂的零长度确认、“惰性”量词等。而我们讲的是Java的正则表达式,那当然也就是在说NFA啦,而NFA由于功能比较多用起来比较方便,因此比
DFA要流行些。
正则导向的引擎总是返回最左边的匹配
这是需要你理解的很重要的一点:即使以后有可能发现一个“更好”的匹配,正则导向的引擎也总是返回最左边的匹配。 当把 cat
应用到“He captured a catfish for his cat”,引擎先比较 c
和“H”,结果失败了。于是引擎再比较 c
和“e”,也失败了。直到第四个字符,c
匹配了“c”。a
匹配了第五个字符。到第六个字符 t
没能匹配“p”,也失败了。引擎再继续从第五个字符重新检查匹配性。直到第十五个字符开始,cat
匹配上了“catfish”中的“cat”,正则表达式引擎急切的返回第一个匹配的结果,而不会再继续查找是否有其他更好的匹配。
字符集
字符集是由一对方括号“[]”括起来的字符集合。使用字符集,你可以告诉正则表达式引擎仅仅匹配多个字符中的一个。如果你想匹配一个“a”或一个“e”,使用 [ae]
。你可以使用 gr[ae]y
匹配gray或grey。这在你不确定你要搜索的字符是采用美国英语还是英国英语时特别有用。相反,gr[ae]y
将不会匹配graay或graey。字符集中的字符顺序并没有什么关系,结果都是相同的。
你可以使用连字符“-”定义一个字符范围作为字符集。[0-9]
匹配0到9之间的单个数字。你可以使用不止一个范围。[0-9a-fA-F]
匹配单个的十六进制数字,并且大小写不敏感。你也可以结合范围定义与单个字符定义。[0-9a-fxA-FX]
匹配一个十六进制数字或字母X。再次强调一下,字符和范围定义的先后顺序对结果没有影响。
取反字符集
在左方括号“[”后面紧跟一个尖括号“^”,将会对字符集取反。结果是字符集将匹配任何不在方括号中的字符。不像“.”,取反字符集是可以匹配回车换行符的。
需要记住的很重要的一点是,取反字符集必须要匹配一个字符。q[^u]
并不意味着:匹配一个q,后面没有u跟着。它意味着:匹配一个q,后面跟着一个不是u的字符。所以它不会匹配“Iraq”中的q,而会匹配“Iraq
is a
country”中的q和一个空格符。事实上,空格符是匹配中的一部分,因为它是一个“不是u的字符”。如果你只想匹配一个q,条件是q后面有一个不是u
的字符,我们可以用后面将讲到的向前查看来解决。
字符集中的元字符
需要注意的是,在字符集中只有4个 字符具有特殊含义。它们是:“] \ ^ -
”。“]”代表字符集定义的结束;“\”代表转义;“^”代表取反;“-”代表范围定义。其他常见的元字符在字符集定义内部都是正常字符,不需要转义。例如,要搜索星号*或加号+,你可以用 [+*]
。当然,如果你对那些通常的元字符进行转义,你的正则表达式一样会工作得很好,但是这会降低可读性。
在字符集定义中为了将反斜杠“\”作为一个文字字符而非特殊含义的字符,你需要用另一个反斜杠对它进行转义。[\\x]
将会匹配一个反斜杠和一个X。“]^-”都可以用反斜杠进行转义,或者将他们放在一个不可能使用到他们特殊含义的位置。我们推荐后者,因为这样可以增加可读性。比如对于字符“^”,将它放在除了左括号“[”后面的位置,使用的都是文字字符含义而非取反含义。如 [x^]
会匹配一个x或^。[]x]
会匹配一个“]”或“x”。[-x]
或 [x-]
都会匹配一个“-”或“x”。
字符集的简写
因为一些字符集非常常用,所以有一些简写方式。
.
|
任何字符(与行结束符可能匹配也可能不匹配) |
\d
|
数字:[0-9]
|
\D
|
非数字:[^0-9]
|
\s
|
空白字符:[\t\n\x0b\f\r]
|
\S
|
非空白字符:[^\s]
|
\w
|
单词字符:[a-zA-Z_0-9]
|
\W
|
非单词字符:[^\w]
|
字符集的重复
如果你用“?*+
”操作符来重复一个字符集,你将会重复整个字符集。而不仅是它匹配的那个字符。正则表达式 [0-9]+
会匹配837以及222。如果你仅仅想重复被匹配的那个字符,可以用向后引用达到目的。我们以后将讲到向后引用。
*
|
重复零次或更多次 |
+
|
重复一次或更多次 |
?
|
重复零次或一次 |
{n}
|
重复n次 |
{n,}
|
重复n次到更多次 |
{n,m}
|
重复n到m次 |
结合前面的知识,我们就可以写出以下这类常用的表达式:
1:
// 判断字符串是否一个合法的16进制
2:
String regex = "[-+]?0[xX]?[0-9a-fA-F]+"
;
3:
System.out.println("0xFF"
.matches(regex)); // true
4:
System.out.println("-0Xff"
.matches(regex)); // true
5:
System.out.println("ff"
.matches(regex)); // false
6:
System.out.println("0x1H"
.matches(regex)); // false
7:
// 简单地判断一个字符串是否合法的身份证号码
8:
regex = "\\d{15}|\\d{18}"
;
9:
System.out.println("440104700101001"
.matches(regex)); // ture;
10:
System.out.println("44010700101001"
.matches(regex)); // false;
11:
System.out.println("440104197001010015"
.matches(regex)); // ture;
12:
System.out.println("4401041970010100015"
.matches(regex));// false;
分享到:
相关推荐
### Java正则表达式全攻略 #### 一、正则表达式概述 正则表达式是一种强大且灵活的工具,用于处理字符串数据。它能够帮助我们执行诸如验证、搜索、替换等一系列复杂的文本处理任务。在Java中,正则表达式通过`java...
第七部分转向Python语言,内容涵盖Python的概述、基本语法、变量类型、基本操作符、数据类型、流控制、函数和模块、面向对象的Python、正则表达式、文件输入输出以及高级Python和异常处理。第八部分和第九部分分别...
计算机硬件控制_驱动级键盘鼠标同步_PS2接口UDP协议多机协同_基于rabirdwinio和pynput的跨设备输入共享系统_实现多台Windows电脑的键盘鼠标同步操作_支持
嵌入式八股文面试题库资料知识宝典-TCPIP协议栈.zip
少儿编程scratch项目源代码文件案例素材-开膛手杰克.zip
基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型,个人经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业,代码资料完整,下载可用。 基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现遥感图像滑坡识别源码+数据集+训练好的模型基于深度学习CNN网络+pytorch框架实现
内容概要:本文详细探讨了电力弹簧技术在主动配电网规划及运行优化调度中的应用。首先介绍了电力弹簧技术作为智能电网调控手段的优势,如自适应性强、响应速度快、节能环保等。接着阐述了主动配电网规划的目标和策略,包括优化电网结构、提高能源利用效率和降低故障风险。随后讨论了运行优化调度的原则和方法,强调了实时监测、智能调度策略以及优化调度模型的重要性。最后通过实际案例分析展示了电力弹簧技术在提升电网稳定性、可靠性和能效方面的显著效果,展望了其广阔的应用前景。 适合人群:从事电力系统规划、运行管理的研究人员和技术人员,以及对智能电网感兴趣的学者和学生。 使用场景及目标:适用于希望深入了解电力弹簧技术及其在主动配电网规划和运行优化调度中具体应用的专业人士。目标是掌握电力弹簧技术的工作原理、优势及其在实际项目中的实施方法。 其他说明:本文不仅提供了理论分析,还有具体的案例支持,有助于读者全面理解电力弹簧技术的实际应用价值。
嵌入式八股文面试题库资料知识宝典-C语言思维导图.zip
电路教学与科研案例的结合—以最大功率传输定理为例.pdf
内容概要:本文深入介绍了HarmonyOS文件系统及其在万物互联时代的重要性。HarmonyOS自2019年发布以来,逐步覆盖多种智能设备,构建了庞大的鸿蒙生态。文件系统作为其中的“数字管家”,不仅管理存储资源,还实现多设备间的数据协同。文章详细介绍了常见的文件系统类型,如FAT、NTFS、UFS、EXT3和ReiserFS,各自特点和适用场景。特别强调了HarmonyOS的分布式文件系统(hmdfs),它通过分布式软总线技术,打破了设备界限,实现了跨设备文件的无缝访问。此外,文章对比了HarmonyOS与Android、iOS文件系统的差异,突出了其在架构、跨设备能力和安全性方面的优势。最后,从开发者视角讲解了开发工具、关键API及注意事项,并展望了未来的技术发展趋势和对鸿蒙生态的影响。 适合人群:对操作系统底层技术感兴趣的开发者和技术爱好者,尤其是关注物联网和多设备协同的用户。 使用场景及目标:①理解HarmonyOS文件系统的工作原理及其在多设备协同中的作用;②掌握不同文件系统的特性和应用场景;③学习如何利用HarmonyOS文件系统进行应用开发,提升跨设备协同和数据安全。 阅读建议:本文内容详实,涵盖了从基础概念到高级开发技巧的多个层次,建议读者结合自身需求,重点关注感兴趣的部分,并通过实践加深理解。特别是开发者可参考提供的API示例和开发技巧,尝试构建基于HarmonyOS的应用。
嵌入式八股文面试题库资料知识宝典-海康嵌入式笔试题.zip
内容概要:本文详细介绍了基于瞬时无功功率理论的三电平有源电力滤波器(APF)仿真研究。主要内容涵盖并联型APF的工作原理、三相三电平NPC结构、谐波检测方法(ipiq)、双闭环控制策略(电压外环+电流内环PI控制)以及SVPWM矢量调制技术。仿真结果显示,在APF投入前后,电网电流THD从21.9%降至3.77%,显著提高了电能质量。 适用人群:从事电力系统研究、电力电子技术开发的专业人士,尤其是对有源电力滤波器及其仿真感兴趣的工程师和技术人员。 使用场景及目标:适用于需要解决电力系统中谐波污染和无功补偿问题的研究项目。目标是通过仿真验证APF的有效性和可行性,优化电力系统的电能质量。 其他说明:文中提到的仿真模型涉及多个关键模块,如三相交流电压模块、非线性负载、信号采集模块、LC滤波器模块等,这些模块的设计和协同工作对于实现良好的谐波抑制和无功补偿至关重要。
基于环比增长的销售统计分析——2019年中青杯全国数学建模竞赛C题.pdf
嵌入式八股文面试题库资料知识宝典-linux面试题.zip
嵌入式八股文面试题库资料知识宝典-linux常见面试题.zip
内容概要:本文探讨了小电流接地系统在配电网络中的应用,特别是在单相故障情况下的仿真分析。文中介绍了小电流接地系统的背景和发展现状,重点讨论了两种常见的接地方式——中性点不接地和中性点经消弧线圈接地。利用Matlab作为仿真工具,作者构建了详细的电路模型,模拟了单相故障的发生过程,并通过多个结果图表展示了故障电流、电压波形及系统运行状态。此外,文章还包括了详细的设计说明书和PPT介绍,帮助读者全面理解仿真过程和技术细节。 适合人群:从事电力系统研究、维护的技术人员,尤其是关注配电网络安全和稳定的工程师。 使用场景及目标:适用于希望深入了解小电流接地系统的工作原理和故障处理机制的专业人士。通过本研究,读者可以掌握如何使用Matlab进行电力系统仿真,评估不同接地方式的效果,优化配电网络的安全性能。 其他说明:随文附带完整的仿真工程文件、结果图、设计说明书及PPT介绍,便于读者进一步探索和实践。
少儿编程scratch项目源代码文件案例素材-激烈的殴斗.zip
嵌入式八股文面试题库资料知识宝典-小米嵌入式软件工程师笔试题目解析.zip
内容概要:本文详细探讨了车辆主动避撞技术中的两种常见策略——纵向紧急制动避撞和横向紧急转向避撞。首先介绍了这两种避撞策略的基本概念,接着深入分析了临界纵向安全距离的概念及其对避撞模式选择的影响。文中特别强调了五次多项式换道轨迹模型在计算横向紧急转向避撞安全距离中的应用。最后,通过一个简化的程序实现了避撞策略的模拟和可视化展示,帮助读者更好地理解不同避撞方式的应用场景和技术细节。 适合人群:汽车工程技术人员、交通安全研究人员、自动驾驶开发者。 使用场景及目标:适用于研究和开发车辆主动避撞系统的专业人士,旨在提高对避撞策略的理解,优化避撞算法的设计,提升行车安全性。 其他说明:文章不仅提供了理论分析,还结合了具体的数学模型和程序实现,使读者能够从多个角度全面掌握车辆避撞技术的关键要素。
基于MPPSK调制的数字对讲机系统.pdf