`
yysct2005
  • 浏览: 92781 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Java 正则表达式全攻略(五)

    博客分类:
  • java
阅读更多

Java 正则表达式全攻略(五)

[ 2010-04-23 12:46:15.0 | 作者: 随想 类别: 基础强化 ] 来源:网络收集     浏览 2187
labels:Java 正则表达式全攻略(五) java正则表达式 捕获性分组 后引用 非捕获性分组

捕获组

捕获组就是把正则表达式中的一部分用“()”括起来形成组,然后你可以对整个组使用一些正则操作,例如重复操作符。捕获组可以通过从左到右计算其开括号来编号。例如,在表达式 (A)(B(C)) 中,存在四个这样的组:

0 (A)(B(C))
1 (A)
2 (B(C))
3 (C)

如果把表达式改为 ((A)(B(C))) ,则存在五个这样的组:

0 ((A)(B(C)))
1 ((A)(B(C)))
2 (A)
3 (B(C))
4 (C)

其中0组始终代表整个表达式。我们可以通过下面的代码实例来进一步理解:

   1:


 Pattern p = Pattern.compile("(\\w+)@(\\w+\\.\\w+)"
);        // 一个用于匹配邮件地址的简单表达式


   2:


 Matcher m = p.matcher("gzyangfan@gmail.com"
);

   3:


 m.matches();                                                 // 进行匹配


   4:


 assertThat(m.groupCount(), is(2));                            // 返回捕获组数,该表达式不算0组共有2个捕获组


   5:


 assertThat(m.group(0), equalTo("gzyangfan@gmail.com"
));        // 0组永远代表整个表达式


   6:


 assertThat(m.group(1), equalTo("gzyangfan"
));                // 1组代表邮箱名


   7:


 assertThat(m.group(2), equalTo("gmail.com"
));                // 2组代表网站名


捕获组还可以对整个组进行表达式操作,例如重复,我们看下面这个例子:

   1:


 String regex = "(cat){1,3}"
;

   2:


 assertThat("catcatcat"
.matches(regex), is(true));

   3:


 assertThat("catcat"
.matches(regex), is(true));

   4:


 assertThat("cat"
.matches(regex), is(true));

   5:


 assertThat("dog"
.matches(regex), is(false));

这个例子里我们定义了一个捕获组,并通过数量词,允许这个组整体出现1次到3次。

后引用

当用“()”定义了一个正则表达式组后,正则引擎则会把被匹配的组按照顺序编号,存入缓存。当对被匹配的组进行向后引用的时候,可以用“\数字”的方式进行引用。 \1 引用第一个匹配的后引用组, \2 引用第二个组,以此类推, \n 引用第n个组。而 \0 则引用整个被匹配的正则表达式本身。我们看一个例子。

   1:


 String string = "联系信息:020-81234567gzyangfan@gmail.com"
;

   2:


? 

   3:


 // 范例一


   4:


 Pattern p1 = Pattern.compile("<\\w+>.*?"
);

   5:


 Matcher m1 = p1.matcher(string);

   6:


 m1.find();

   7:


 assertThat(m1.group(), is("020-81234567"
));

   8:


 m1.find();

   9:


 assertThat(m1.group(), is("gzyangfan@gmail.com"
));

  10:


? 

  11:


 // 范例二


  12:


 Pattern p2 = Pattern.compile("<(\\w+)>.*?"
);

  13:


 Matcher m2 = p2.matcher(string);

  14:


 m2.find();

  15:


 assertThat(m2.group(), is("020-81234567"
));

  16:


 assertThat(m2.find(), is(false));

我们可以看到范例一中的表达式无法正确判断结束标签是否与开始标签一致,在代码第9行中将一个不合法的内容也匹配出来了。而范例二用过使用捕获组和对组进行后引用,使错误的标签不会被匹配出来,可见向后引用是非常有用的功能。

不过我们还是需要注意一下后引用的一些要求:

  •  
    • 一个后向引用不能用于它自身。([abc]\1) 是错误的。因此你不能将 \0 用于一个正则表达式匹配本身,它只能用于替换操作中。
    • 后向引用不能用于字符集内部。(a)[\1b] 中的 \1 并不表示后向引用。在字符集内部,\1 可以被解释为八进制形式的转码。

非捕获组

后引用会降低引擎的速度,因为它需要存储匹配的组。如果你不需要后引用,你可以告诉引擎对某个组不存储,即将其声明为非捕获组。例如:Get(?:Value) 。其中“(”后面紧跟的“?:”会告诉引擎组“(Value)”为非捕获组,不存储匹配的值以供后引用。

分享到:
评论

相关推荐

    Java正则表达式全攻略

    ### Java正则表达式全攻略 #### 一、正则表达式概述 正则表达式是一种强大且灵活的工具,用于处理字符串数据。它能够帮助我们执行诸如验证、搜索、替换等一系列复杂的文本处理任务。在Java中,正则表达式通过`java...

    编程新手的计算机编程全攻略

    第七部分转向Python语言,内容涵盖Python的概述、基本语法、变量类型、基本操作符、数据类型、流控制、函数和模块、面向对象的Python、正则表达式、文件输入输出以及高级Python和异常处理。第八部分和第九部分分别...

    C2000系列DSP芯片串口读写方案与FlashPro2000编程器应用详解

    内容概要:本文详细介绍了基于TMS320F系列芯片的C2000串口读写方案及其编程器——FlashPro2000的功能特点和支持的接口模式。文中不仅涵盖了硬件连接的具体步骤,还提供了代码实例来展示Flash擦除操作,并对比了JTAG和SCI-BOOT两种模式的优缺点。此外,针对不同型号的C2000系列芯片,给出了详细的适配指导以及避免烧录过程中可能出现的问题的方法。 适合人群:从事DSP开发的技术人员,尤其是对TI公司C2000系列芯片有一定了解并希望深入了解其编程和烧录细节的人群。 使用场景及目标:适用于实验室环境下的程序调试阶段,以及生产线上的批量烧录任务。主要目的是帮助开发者选择合适的编程工具和技术手段,提高工作效率,减少因误操作导致设备损坏的风险。 其他说明:文中提供的代码片段和命令行指令可以直接用于实际项目中,同时附带了一些实用技巧,如防止芯片变砖的小贴士和自动化重试脚本,有助于解决常见的烧录难题。

    汉字字库存储芯片扩展实验通常是为了学习和理解如何在嵌入式系统或计算机硬件中增加或管理存储资源,特别是针对需要处理中文字符的应用 这类实验对于想要深入了解计算机体系结构、嵌入式开发以及汉字编码的学生和工

    汉字字库存储芯片扩展实验 # 汉字字库存储芯片扩展实验 ## 实验目的 1. 了解汉字字库的存储原理和结构 2. 掌握存储芯片扩展技术 3. 学习如何通过硬件扩展实现大容量汉字字库存储 ## 实验原理 ### 汉字字库存储基础 - 汉字通常采用点阵方式存储(如16×16、24×24、32×32点阵) - 每个汉字需要占用32字节(16×16)到128字节(32×32)不等的存储空间 - 国标GB2312-80包含6763个汉字,需要较大存储容量 ### 存储芯片扩展方法 1. **位扩展**:增加数据总线宽度 2. **字扩展**:增加存储单元数量 3. **混合扩展**:同时进行位扩展和字扩展 ## 实验设备 - 单片机开发板(如STC89C52) - 存储芯片(如27C256、29C040等) - 逻辑门电路芯片(如74HC138、74HC373等) - 示波器、万用表等测试设备 - 连接线若干 ## 实验步骤 ### 1. 单芯片汉字存储实验 1. 连接27C256 EPROM芯片到单片机系统 2. 将16×16点阵汉字字库写入芯片 3. 编写程序读取并显示汉字 ### 2. 存储芯片字扩展实验 1. 使用地址译码器(如74HC138)扩展多片27C256 2. 将完整GB2312字库分布到各芯片中 3. 编写程序实现跨芯片汉字读取 ### 3. 存储芯片位扩展实验 1. 连接两片27C256实现16位数据总线扩展 2. 优化字库存储结构,提高读取速度 3. 测试并比较扩展前后的性能差异 ## 实验代码示例(单片机部分) ```c #include <reg52.h> #include <intrins.h> // 定义存储芯片控制引脚 sbit CE = P2^7; // 片选 sbit OE = P2^6; // 输出使能 sbit

    测控装备干扰源快速侦测系统设计研究.pdf

    测控装备干扰源快速侦测系统设计研究.pdf

    嵌入式八股文面试题库资料知识宝典-【开发】嵌入式开源项目&库&资料.zip

    嵌入式八股文面试题库资料知识宝典-【开发】嵌入式开源项目&库&资料.zip

    嵌入式八股文面试题库资料知识宝典-百度2022年嵌入式面试题.zip

    嵌入式八股文面试题库资料知识宝典-百度2022年嵌入式面试题.zip

    少儿编程scratch项目源代码文件案例素材-空间站.zip

    少儿编程scratch项目源代码文件案例素材-空间站.zip

    基于关联规则的商业银行个性化产品推荐.pdf

    基于关联规则的商业银行个性化产品推荐.pdf

    嵌入式八股文面试题库资料知识宝典-Linux基础使用.zip

    嵌入式八股文面试题库资料知识宝典-Linux基础使用.zip

    MATLAB仿真轴棱锥生成贝塞尔高斯光束及环形光束光强图像分析

    内容概要:本文详细介绍了利用MATLAB进行轴棱锥生成贝塞尔高斯光束及环形光束光强图像的仿真研究。首先阐述了实验的背景与目标,强调了MATLAB在光学和计算科学领域的广泛应用。接着,具体描述了实验的方法与步骤,包括材料准备、仿真过程中的参数设定和光束生成代码编写。最后,对实验结果进行了深入分析,展示了贝塞尔高斯光束和环形光束的光强分布特点,验证了其光学性能的预期表现。文章还对未来的研究方向和技术改进提出了展望。 适合人群:从事光学、物理学及相关领域研究的专业人士,特别是对光束生成和光学性能分析感兴趣的科研工作者。 使用场景及目标:适用于需要进行光束生成和性能分析的实验室环境,旨在帮助研究人员更好地理解和优化光束特性和传播行为。 其他说明:本文不仅提供了详细的实验方法和步骤,还附有丰富的实验结果和数据分析,为后续研究提供了宝贵的参考资料。

    三电平NPC型APF模型预测控制中滞环控制模块的应用与开关频率优化研究

    内容概要:本文探讨了三电平NPC型有源电力滤波器(APF)的模型预测控制(MPC)中存在的开关频率过高问题及其解决方案。传统MPC方法会导致极高的开关频率,增加了系统的能耗和热量。通过引入滞环控制模块,可以在不大幅牺牲性能的情况下有效降低开关频率。具体来说,滞环控制通过在价值函数计算后增加一个判断条件,对状态切换进行惩罚,从而减少不必要的开关动作。实验结果显示,开关频率从4392Hz降至3242Hz,降幅达26.2%,虽然电流总谐波畸变率(THD)略有上升,但仍符合国家标准。此外,文中还提出了动态调整滞环宽度的方法,以进一步优化不同负载条件下的表现。 适合人群:从事电力电子、电力系统控制领域的研究人员和技术人员,特别是关注APF和MPC技术的人群。 使用场景及目标:适用于需要优化APF系统开关频率的研究和工程项目,旨在提高系统效率并降低成本。目标是在不影响系统性能的前提下,显著降低开关频率,减少能量损失和热管理难度。 其他说明:文章不仅提供了理论分析,还包括具体的实现代码片段,有助于读者理解和实践。同时,强调了在实际应用中需要注意的问题,如中点电位漂移等。

    计算流体力学中三维POD DMD程序的原网格处理方法及应用

    内容概要:本文介绍了三维POD DMD程序在处理原网格数据方面的独特优势和技术细节。首先阐述了该程序能读取结构化和非结构化网格数据及其拓扑关系,在生成模态数据过程中保持原始网格形态而不需要进行网格插值操作。接着展示了简化版本的Python代码片段,揭示了读取网格数据和生成模态数据的核心逻辑。最后提到提供的辅助学习资料如代码、视频教程、Word教程和实例数据,帮助用户深入理解并掌握该程序的应用。 适合人群:从事计算流体力学领域的研究人员和技术爱好者,尤其是那些希望提高数据处理效率的人群。 使用场景及目标:适用于需要处理复杂网格数据的研究项目,旨在简化数据处理流程,提升工作效率,同时保持数据的原始特性。 其他说明:文中不仅提供了理论性的讲解,还有具体的代码示例和丰富的学习资源,使读者可以边学边练,快速上手。

    融合双向路由注意力的多尺度X光违禁品检测.pdf

    融合双向路由注意力的多尺度X光违禁品检测.pdf

    嵌入式八股文面试题库资料知识宝典-Linux_Shell基础使用.zip

    嵌入式八股文面试题库资料知识宝典-Linux_Shell基础使用.zip

    嵌入式八股文面试题库资料知识宝典-联发科2021武汉嵌入式软件开发.zip

    嵌入式八股文面试题库资料知识宝典-联发科2021武汉嵌入式软件开发.zip

    基于有限体积法Godunov格式的管道泄漏检测模型研究.pdf

    基于有限体积法Godunov格式的管道泄漏检测模型研究.pdf

    嵌入式八股文面试题库资料知识宝典-ARM常见面试题目.zip

    嵌入式八股文面试题库资料知识宝典-ARM常见面试题目.zip

    基于LWR问题的无证书全同态加密方案.pdf

    基于LWR问题的无证书全同态加密方案.pdf

    嵌入式八股文面试题库资料知识宝典-符坤面试经验.zip

    嵌入式八股文面试题库资料知识宝典-符坤面试经验.zip

Global site tag (gtag.js) - Google Analytics