- 浏览: 57264 次
- 性别:
- 来自: 江苏徐州
文章分类
最新评论
-
activexme:
可以试试泽优文档助手:http://www.ncmem.com ...
fckeditor word 粘贴 图片上传 研究中 -
chenzheng8975:
...
ajax -
mengfei86:
请问现在研究是怎么样了,我这也遇到这个问题了
fckeditor word 粘贴 图片上传 研究中 -
itlangqun:
很经典啊!!!!
经典辞职信 -
ztkx:
有个正则表达式的问题,比如sn::XAWEASDSAKSNA= ...
Jakarta-ORO正则表达式库连载2
JAVA中正则表达式的应用 (一)Jakarta-ORO篇 |
级别: 初级 陈广佳 (cgjmail@163.net), 电子信息工程系工科学士 2001 年 12 月 03 日 由于工作的需要,本人经常要面对大量的文字电子资料的整理工作,因此曾对在JAVA中正则表达式的应用有所关注,并对其有一定的了解,希望通过本文与同行进行有关方面的心得交流。<!----><!----><!----> 正则表达式是一种可以用于模式匹配和替换的强有力的工具,一个正则表达式就是由普通的字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式,它描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。 正则表达式在字符数据处理中起着非常重要的作用,我们可以用正则表达式完成大部分的数据分析处理工作,如:判断一个串是否是数字、是否是有效的Email地址,从海量的文字资料中提取有价值的数据等等,如果不使用正则表达式,那么实现的程序可能会很长,并且容易出错。对这点本人深有体会,面对大量工具书电子档资料的整理工作,如果不懂得应用正则表达式来处理,那么将是很痛苦的一件事情,反之则将可以轻松地完成,获得事半功倍的效果。 由于本文目的是要介绍如何在JAVA里运用正则表达式,因此对刚接触正则表达式的读者请参考有关资料,在此因篇幅有限不作介绍。
在JDK1.3或之前的JDK版本中并没有包含正则表达式库可供JAVA程序员使用,之前我们一般都在使用第三方提供的正则表达式库,这些第三方库中有源代码开放的,也有需付费购买的,而现时在JDK1.4的测试版中也已经包含有正则表达式库---java.util.regex。 故此现在我们有很多面向JAVA的正则表达式库可供选择,以下我将介绍两个较具代表性的 Jakarta-ORO和 java.util.regex,首先当然是本人一直在用的 Jakarta-ORO:
Jakarta-ORO是最全面以及优化得最好的正则表达式API之一,Jakarta-ORO库以前叫做OROMatcher,是由Daniel F. Savarese编写,后来他将其赠与Jakarta Project,读者可在Apache.org的网站 下载该API包。 许多源代码开放的正则表达式库都是支持Perl5兼容的正则表达式语法,Jakarta-ORO正则表达式库也不例外,他与Perl 5正则表达式完全兼容。 ★PatternCompiler对象:
★Pattern对象:
在默认的情况下,编译器会创建一个对大小写敏感的模式(pattern)。因此,上面代码编译得到的模式只匹配"say"、"shy"、 "sky"和"sly",但不匹配"Say"和"skY"。要创建一个大小写不敏感的模式,你应该在调用编译器的时候指定一个额外的参数: Pattern对象创建好之后,就可以通过PatternMatcher类用该Pattern对象进行模式匹配。 ★PatternMatcher对象: PatternMatcher对象依据Pattern对象和字符串展开匹配检查。你要实例化一个Perl5Matcher类并把结果赋值给PatternMatcher接口。Perl5Matcher类是PatternMatcher接口的一个实现,它根据Perl 5正则表达式语法进行模式匹配: PatternMatcher对象提供了多个方法进行匹配操作,这些方法的第一个参数都是需要根据正则表达式进行匹配的字符串:
但以上三种方法只会查找输入字符串中匹配正则表达式的第一个对象,如果当字符串可能有多个子串匹配给定的正则表达式时,那么你就可以在调用上面三个方法时用PatternMatcherInput对象作为参数替代String对象,这样就可以从字符串中最后一次匹配的位置开始继续进行匹配,这样就方便的多了。 用PatternMatcherInput对象作为参数替代String时,上述三个方法的语法如下:
★Util.substitute()方法:
前两个参数分别为PatternMatcher和Pattern对象。而第三个参数是个Substiution对象,由它来决定替换操作如何进行。第四个参数是要进行替换操作的目标字符串,最后一个参数用来指定是否替换模式的所有匹配子串(Util.SUBSTITUTE_ALL),或只进行指定次数的替换。 在这里我相信有必要详细解说一下第三个参数Substiution对象,因为它将决定替换将怎样进行。 Substiution: StringSubstitution: StringSubstitution()->缺省的构造方法,初始化一个包含零长度字符串的替换对象。 StringSubstitution(java.lang.String substitution)->初始化一个给定字符串的替换对象。 Perl5Substitution: 它有三个构造器: Perl5Substitution() Perl5Substitution(java.lang.String substitution) Perl5Substitution(java.lang.String substitution, int numInterpolations) 前两种构造方法与StringSubstitution一样,而第三种构造方法下面将会介绍到。 在 Perl5Substitution的替换字符串中可以包含用来替代在正则表达式里由小扩号围起来的匹配组的变量,这些变量是由$1, $2,$3等形式来标识。我们可以用一个例子来解释怎样使用替换变量来进行替换: 假设我们有正则表达式模式为b\d+:(也就是b[0-9]+:),而我们想把所有匹配的字符串中的"b"都改为"a",而":"则改为"-",而其余部分则不作修改,如我们输入字符串为"EXAMPLE b123:",经过替换后就应该变成"EXAMPLE a123-"。要做到这点,我们就首先要把不做替换的部分用分组符号小括号包起来,这样正则表达式就变为"b(\d+):",而构造Perl5Substitution对象时其替换字符串就应该是"a$1-",也就是构造式为Perl5Substitution("a$1-"),表示在使用Util.substitute()方法时只要在目标字符串里找到和正则表达式" b(\d+): "相匹配的子串都用替换字符串来替换,而变量$1表示如果和正则表达式里第一个组相匹配的内容则照般原文插到$1所在的为置,如在"EXAMPLE b123:"中和正则表达式相匹配的部分是"b123:",而其中和第一分组"(\d+)"相匹配的部分则是"123",所以最后替换结果为"EXAMPLE a123-"。 有一点需要清楚的是,如果你把构造器Perl5Substitution(java.lang.String substitution,int numInterpolations) 中的numInterpolations参数设为INTERPOLATE_ALL,那么当每次找到一个匹配字串时,替换变量($1,$2等)所指向的内容都根据目前匹配字串来更新,但是如果numInterpolations参数设为一个正整数N时,那么在替换时就只会在前N次匹配发生时替换变量会跟随匹配对象来调整所代表的内容,但N次之后就以一致以第N次替换变量所代表内容来做为以后替换结果。 举个例子会更好理解: 假如沿用以上例子中的正则表达式模式以及替换内容来进行替换工作,设目标字符串为"Tank b123: 85 Tank b256: 32 Tank b78: 22",并且设numInterpolations参数为INTERPOLATE_ALL,而Util.substitute()方法中的numSub变量设为SUBSTITUTE_ALL(请参考上文Util.substitute()方法内容),那么你获得的替换结果将会是: 但是如果你把numInterpolations设为2,并且numSubs依然设为SUBSTITUTE_ALL,那么这时你获得的结果则会是: 你要注意到最后一个替换所用变量$1所代表的内容与第二个$1一样为"256",而不是预期的"78",因为在替换进行中,替换变量$1只根据匹配内容进行了两次更新,最后一次就使第二次匹配时所更新的结果,那么我们可以由此知道,如果numInterpolations设为1,那么结果将是: 刚好前段时间公司准备出一个《伊索预言》的英语学习互动教材,其中有电子档资料的整理工作,我们就以此为例来看一下Jakarta-ORO与JDBC2.0 API结合起来对数据库内的资料进行简单提取与整理的实现。假设由录入部的同事送过来的存放在MS SQLSERVER 7数据库里的电子档的表结构如下(注:或许在不同的DBMS中有相应的正则表达式的应用,但这不在本文讨论范围内): 表名:AESOP, 表中每条记录包含有三列: 其中CONTENT列中内容的格式如下: 如对应单词Kevin,CONTENT中的内容如下: 我们的例子主要针对CONTENT列中内容进行字符串处理。 ★查找单个匹配:
在这个处理中我是用toString()方法来取得结果,但是如果正则表达式里是用了分组符号(圆括号),那么就可以用group(int gid)的方法来取得相应各组匹配的结果,如正则表达式改为" (\[[^]]+\])",那么就可以用以下方法来取得结果:pure=result.group(0); 用程序验证,输出结果同样为:kevin的音标为['kevin] 而如果正则表达式为(\[[^]]+\])(\[[^]]+\]),则会查找到两个连续的方括号所包含的内容,也就找到[音标] [词性]两项,但是两项的结果分别在两个组里面,分别由下面语句获得结果: result.group(0)->返回[音标] [词性]两项内容,也就是与整个正则表达式相匹配的结果字符串,在这里也就为['kevin] [名词] result.group(1) ->返回[音标]项内容,结果应是['kevin] result.group(2) ->返回[词性]项内容,结果应是[名词] 继续用程序验证,发现输出并不正确,主要是当内容有中文时就不能成功匹配,考虑到可能是Jakarta-ORO正则表达式库版本不支持中文的问题,回看一下原来我一直用的还是2.0.1的老版本,马上到Jakarta.org上下载最新的2.0.4版本装上再用程序验证,得出的结果就和预期一样正确。 ★查找多个匹配: 首先我们先试个简单的应用,假设我们想把CONTNET字段内容里所有用方括号包起来的字串都找出来,很清楚地,CONTNET字段的内容里面就只有两项匹配的内容:[音标]和 [词性],刚才我们其实已经把它们分别找出来了,但是我们所用的方法是分组方法,把"[音标] [词性]"作为一整个正则表达式匹配的内容先找到,再根据分组把[音标]和 [词性]分别挑出来。但是现在我们需要做的是把[音标]和[词性]分别做为与同一个正则表达式匹配的内容,先找到一个接着再找下一个,也就是刚才我们的表达式为(\[[^]]+\])(\[[^]]+\]),而现在应为" \[[^]]+\] "。 我们已经知道在匹配操作的三个方法里只要用PatternMatcherInput对象作为参数替代String对象就可以从字符串中最后一次匹配的位置开始继续进行匹配,实现的程序片段如下:
输出结果为:['kevin] [名词] 接着我们来做复杂一点的处理,就是我们要先把下面内容: 第一步当然是要定出相应的正则表达式,需要有两个,一是和整个例句部分(也就是由大括号包起来的部分)匹配的正则表达式:"\{.+\}", 另一个则要和每个例句部分匹配(也就是小括号中的内容),:\(([^)]+\) 而且由于要把例句的各项分离出来,所以要再把里面的各部分用分组的方法匹配出来:" ([^(]+)/(.+)/(.+):([^)]+) "。 为了简便起见,我们不再和从数据库里读出,而是构造一个包含同样内容的字符串变量,程序片段如下:
输出结果为: ★查找替换: 例如我现在想把第二个例句进行改动,换为:Kevin has seen《LEON》seveal times,because it is a good film./ 凯文已经看过《这个杀手不太冷》几次了,因为它是一部好电影。/名词:凯文。 也就是把 改为: 之前,我们已经了解Util.substitute()方法与Substiution接口,以及Substiution的两个实现类StringSubstitution和Perl5Substitution,我们就来看看怎么用Util.substitute()方法配合Perl5Substitution来完成我们上面提出的替换要求,确定正则表达式: 我们要先找到其中的整个例句部分,也就是由大括号包起来的字串,并且把两个例句分别分组,所以正则表达式为:"\{(\([^)]+\))(\([^)]+\))\}",如果用替换变量来代替分组,那么上面的表达式可以看为"\{$1$2\}",这样就可以更容易看出替换变量与分组间的关系。 根据上面的正则表达式Perl5Substitution类可以这样构造: Perl5Substitution("{$1( Kevin has seen《LEON》seveal times,because it is a good film./ 凯文已经看过《这个杀手不太冷》几次了,因为它是一部好电影。/名词:凯文。)}") 再根据这个Perl5Substitution对象来使用Util.substitute()方法便可以完成替换了,实现的代码片段如下:
输出结果是正确的,为: 至于有关使用numInterpolations参数的构造器用法,读者只要根据上面的介绍自己动手试一下就会清楚了,在此就不再例述。
本文首先介绍了Jakarta-ORO正则表达式库的对象与方法,并且接着举例让读者对实际应用有进一步的了解,虽然例子都比较简单,但希望读者们在看了该文后对Jakarta-ORO正则表达式库有一定的认知,在实际工作中有所帮助与启发。 其实在Jakarta org里除了Jakarta-ORO外还有一个百分百的纯JAVA正则表达式库,就是由Jonathan Locke赠与Jakarta ORG的Regexp,在该包里面包含了完整的文档以及一个用于调试的Applet例子,对其有兴趣的读者可以到此 下载。
|
发表评论
-
请教import org.apache.commons.vfs.FileListener接口监听
2008-01-25 15:27 0import org.apache.commons.vfs.F ... -
表达式的递归匹配
2007-09-06 13:55 29371. 表达式的递归匹配 有时候,我们需要用正则表达式来 ... -
JDK正则表达式API包连载2
2007-08-27 17:08 1688例如,有字符串fatcatfatcatfat,假设既有正则表达 ... -
JDK正则表达式API包
2007-08-27 17:07 34991.简介: java.util.regex是一个用正则表达式 ... -
Jakarta-ORO正则表达式库连载2
2007-08-27 17:03 2238在这个处理中我是用toS ... -
Jakarta-ORO正则表达式库
2007-08-27 17:00 6340由于工作的需要,本人 ... -
jdbc增加数据返回自动编号
2007-08-27 16:59 1795public String addEcms(String ta ... -
正则表达式
2007-07-03 22:20 1237匹配中文字符的正则表达式: [\u4e00-\u9fa5] ...
相关推荐
正则表达式在Java中的应用广泛,可以用于数据验证(如邮箱、电话号码格式),文本搜索替换,以及复杂的数据提取等任务。掌握正则表达式能够极大地提升处理字符串的能力。在实际开发中,可以根据需求选择合适的正则...
java中正则表达式Pattern类的应用,基本上用来验证之类的应用
### 浅谈Java中正则表达式的优化方法 在日常的软件开发过程中,正则表达式作为一种强大的文本处理工具被广泛应用于数据验证、文本搜索与替换等场景之中。尤其是在Java语言环境中,`java.util.regex`包提供了丰富的...
正则表达式是编程语言中的一种强大工具,用于处理字符串,尤其在数据验证、文本搜索和替换等方面。在Java中,正则表达式是通过`java.util.regex`包中的类来实现的,如`Pattern`和`Matcher`。下面将详细介绍正则...
有重点和调理,一看就会了. 只要涉及java两个类
Java中的正则表达式是处理字符串的强大工具,用于查找、替换和验证文本模式。下面将详细介绍标题和描述中提到的一些核心概念和用法。 1. **^ 和 $** - `^` 表示字符串的开始,用于确保匹配的模式出现在行首。例如...
在本文中,我们将深入探讨Java中正则表达式的使用方法,以及如何通过它们来增强我们的代码功能。 首先,Java中的正则表达式支持是通过`java.util.regex`包提供的。这个包包含三个主要类:`Pattern`、`Matcher`和`...
下面将详细解释Java中的正则表达式实例,包括其基本概念、使用方法以及常见的应用。 1. **普通字符**: 在Java中,正则表达式中的普通字符如"a", "b"等,表示匹配这些字符自身。例如,`str1.split("abc")`会将字符...
### 浅析PHP中正则表达式的应用 #### 1. 引言 随着互联网的飞速发展,Web应用程序已经成为日常生活中不可或缺的一部分。在这样的背景下,确保网络内容的合法性和文明性变得尤为重要。正则表达式作为一种强大的文本...
这篇博客将深入探讨正则表达式在Java代码中的应用。 首先,创建一个正则表达式需要使用Pattern类。Pattern类的compile方法接受一个字符串参数,该字符串就是正则表达式。例如,创建一个匹配数字的正则表达式: ```...
本文主要介绍了关于Oracle中正则表达式的使用方法,下面话不多说了,来一起看看详细的介绍。 Oracle使用正则表达式离不开这4个函数:regexp_like、regexp_substr、regexp_instr、regexp_replace。 regexp_like 该...
在编程语言中,如Perl、Python、Java和JavaScript,都有内置的正则表达式支持,允许开发者在代码中进行高级文本处理。 正则表达式的学习曲线可能较为陡峭,但一旦掌握,它们能极大地提高你的工作效率。理解正则...
本文将详细介绍Java中正则表达式的分组引用概念及其应用。 #### 分组引用的格式与原理 分组引用是指通过在正则表达式中使用圆括号`()`来定义一组字符或模式,并能够在之后的表达式中通过特定的方式重新引用这些...
掌握Java正则表达式可以极大地提高文本处理的效率和灵活性,它在数据验证、文本解析、日志分析等多个场景都有广泛应用。通过不断实践和学习,开发者可以更加熟练地运用这些技巧解决各种复杂问题。
### JAVA正则表达式实例教程知识点详述 #### 一、正则表达式的定义与...通过以上知识点的学习和理解,开发者能够更加深入地了解 Java 中正则表达式的使用方法,并能有效地应用到实际项目中,解决复杂的文本处理问题。
接下来,我们将详细介绍Java中正则表达式的使用方法,并举例说明如何使用split()方法进行字符串查找,replace()方法进行字符串替换,以及如何使用Pattern和Matcher类来获取字符串中的特定部分。 首先是字符串查找,...
在Java程序设计中,正则表达式是处理文本的强大工具,它允许我们对字符串进行模式匹配和操作。去除HTML标签是处理网页数据或用户输入时常见的需求之一,尤其是在从内容管理系统或文本编辑器中获取数据时。HTML标签的...
为了更好地理解和应用 Java 中的正则表达式,建议开发者在实际的编程工作中尝试编写正则表达式,并测试不同情况下的匹配行为。实践是掌握正则表达式的最好方式,同时还可以查找相关的教程或文档以加深理解。
它能够准确反映出ABAP中正则表达式的语义,而不是像许多在线工具那样仅适用于通用正则表达式。通过Regex Toy,开发者可以在ABAP环境中即时验证正则表达式的正确性,从而提高开发效率和代码质量。 总结来说,SAP ...