`
flashdream8
  • 浏览: 678523 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

java正则表达式

阅读更多
java正则表达式通过java.util.regex包下的Pattern类与Matcher类实现(建议在阅读本文时,打开java API文档,当介绍到哪个方法时,查看java API中的方法说明,效果会更佳).
Pattern类用于创建一个正则表达式,也可以说创建一个匹配模式,它的构造方法是私有的,不可以直接创建,但可以通过Pattern.complie(String regex)简单工厂方法创建一个正则表达式,
Java代码示例:
Pattern p=Pattern.compile("\\w+");
p.pattern();//返回 \w+
­
pattern() 返回正则表达式的字符串形式,其实就是返回Pattern.complile(String regex)的regex参数
­
1.Pattern.split(CharSequence input)
Pattern 有一个split(CharSequence input)方法,用于分隔字符串,并返回一个String[],我猜String.split(String regex)就是通过Pattern.split(CharSequence input)来实现的.
Java代码示例:
Pattern p=Pattern.compile("\\d+");
String[] str=p.split("我的QQ是:456456我的电话是:0532214我的邮箱是:aaa@aaa.com");
­
结果:str[0]="我的QQ是:" str[1]="我的电话是:" str[2]="我的邮箱是:aaa@aaa.com"
­
2.Pattern.matcher(String regex,CharSequence input)是一个静态方法,用于快速匹配字符串,该方法适合用于只匹配一次,且匹配全部字符串.
Java代码示例:
Pattern.matches("\\d+","2223");//返回true
Pattern.matches("\\d+","2223aa");//返回false,需要匹配到所有字符串才能返回true,这里aa不能匹配到
Pattern.matches("\\d+","22bb23");//返回false,需要匹配到所有字符串才能返回true,这里bb不能匹配到
­
3.Pattern.matcher(CharSequence input)
说了这么多,终于轮到Matcher类登场了,Pattern.matcher(CharSequence input)返回一个Matcher对象.
Matcher类的构造方法也是私有的,不能随意创建,只能通过Pattern.matcher(CharSequence input)方法得到该类的实例.
Pattern类只能做一些简单的匹配操作,要想得到更强更便捷的正则匹配操作,那就需要将Pattern与Matcher一起合作.Matcher类提供了对正则表达式的分组支持,以及对正则表达式的多次匹配支持.
Java代码示例:
Pattern p=Pattern.compile("\\d+");
Matcher m=p.matcher("22bb23");
m.pattern();//返回p 也就是返回该Matcher对象是由哪个Pattern对象的创建的
­
4.Matcher.matches() / Matcher.lookingAt() / Matcher.find()
Matcher类提供三个匹配操作方法,三个方法均返回boolean类型,当匹配到时返回true,没匹配到则返回false
­
matches()对整个字符串进行匹配,只有整个字符串都匹配了才返回true
Java代码示例:
Pattern p=Pattern.compile("\\d+");
Matcher m=p.matcher("22bb23");
m.matches();//返回false,因为bb不能被\d+匹配,导致整个字符串匹配未成功.
Matcher m2=p.matcher("2223");
m2.matches();//返回true,因为\d+匹配到了整个字符串
­
我们现在回头看一下Pattern.matcher(String regex,CharSequence input),它与下面这段代码等价
Pattern.compile(regex).matcher(input).matches()
­
lookingAt()对前面的字符串进行匹配,只有匹配到的字符串在最前面才返回true
Java代码示例:
Pattern p=Pattern.compile("\\d+");
Matcher m=p.matcher("22bb23");
m.lookingAt();//返回true,因为\d+匹配到了前面的22
Matcher m2=p.matcher("aa2223");
m2.lookingAt();//返回false,因为\d+不能匹配前面的aa
­
find()对字符串进行匹配,匹配到的字符串可以在任何位置.
Java代码示例:
Pattern p=Pattern.compile("\\d+");
Matcher m=p.matcher("22bb23");
m.find();//返回true
Matcher m2=p.matcher("aa2223");
m2.find();//返回true
Matcher m3=p.matcher("aa2223bb");
m3.find();//返回true
Matcher m4=p.matcher("aabb");
m4.find();//返回false
­
5.Mathcer.start() / Matcher.end() / Matcher.group()
当使用matches(),lookingAt(),find()执行匹配操作后,就可以利用以上三个方法得到更详细的信息.
start()返回匹配到的子字符串在字符串中的索引位置.
end()返回匹配到的子字符串的最后一个字符在字符串中的索引位置.
group()返回匹配到的子字符串
Java代码示例:
Pattern p=Pattern.compile("\\d+");
Matcher m=p.matcher("aaa2223bb");
m.find();//匹配2223
m.start();//返回3
m.end();//返回7,返回的是2223后的索引号
m.group();//返回2223
­
Mathcer m2=m.matcher("2223bb");
m.lookingAt();   //匹配2223
m.start();   //返回0,由于lookingAt()只能匹配前面的字符串,所以当使用lookingAt()匹配时,start()方法总是返回0
m.end();   //返回4
m.group();   //返回2223
­
Matcher m3=m.matcher("2223bb");
m.matches();   //匹配整个字符串
m.start();   //返回0,原因相信大家也清楚了
m.end();   //返回6,原因相信大家也清楚了,因为matches()需要匹配所有字符串
m.group();   //返回2223bb
­
说了这么多,相信大家都明白了以上几个方法的使用,该说说正则表达式的分组在java中是怎么使用的.
start(),end(),group()均有一个重载方法它们是start(int i),end(int i),group(int i)专用于分组操作,Mathcer类还有一个groupCount()用于返回有多少组.
Java代码示例:
Pattern p=Pattern.compile("([a-z]+)(\\d+)");
Matcher m=p.matcher("aaa2223bb");
m.find();   //匹配aaa2223
m.groupCount();   //返回2,因为有2组
m.start(1);   //返回0 返回第一组匹配到的子字符串在字符串中的索引号
m.start(2);   //返回3
m.end(1);   //返回3 返回第一组匹配到的子字符串的最后一个字符在字符串中的索引位置.
m.end(2);   //返回7
m.group(1);   //返回aaa,返回第一组匹配到的子字符串
m.group(2);   //返回2223,返回第二组匹配到的子字符串
­
现在我们使用一下稍微高级点的正则匹配操作,例如有一段文本,里面有很多数字,而且这些数字是分开的,我们现在要将文本中所有数字都取出来,利用java的正则操作是那么的简单.
Java代码示例:
Pattern p=Pattern.compile("\\d+");
Matcher m=p.matcher("我的QQ是:456456 我的电话是:0532214 我的邮箱是:aaa123@aaa.com");
while(m.find()) {
     System.out.println(m.group());
}
­
输出:
456456
0532214
123
­
如将以上while()循环替换成
while(m.find()) {
     System.out.println(m.group());
     System.out.print("start:"+m.start());
     System.out.println(" end:"+m.end());
}
则输出:
456456
start:6 end:12
0532214
start:19 end:26
123
start:36 end:39
­
现在大家应该知道,每次执行匹配操作后start(),end(),group()三个方法的值都会改变,改变成匹配到的子字符串的信息,以及它们的重载方法,也会改变成相应的信息.
注意:只有当匹配操作成功,才可以使用start(),end(),group()三个方法,否则会抛出 java.lang.IllegalStateException,也就是当matches(),lookingAt(),find()其中任意一个方法返回true时,才可以使用.
­
6.Matcher.replaceAll(String replacement) / Matcher.replaceFirst(String replacement)
大家应该知道String.replaceAll()和String.replaceFirst()两个方法的功能,其实它与 Matcher.replaceAll()和Matcher.replaceFirst()的功能是一样的,只不过是使用方式不一样.例如我要将某文本中的所有数字变成*
使用String完成该要求
Java代码示例:
String str="我的QQ是:456456 我的电话是:0532214 我的邮箱是:aaa123@aaa.com";
System.out.println(str.replaceAll("\\d","*"));
输出: 我的QQ是:****** 我的电话是:******* 我的邮箱是:aaa***@aaa.com
现在我们用Matcher完成该要求
Java代码示例:
Pattern p=Pattern.compile("\\d");
­Matcher m=p.matcher("我的QQ是:456456 我的电话是:0532214 我的邮箱是:aaa123@aaa.com");
System.out.println(m.replaceAll("*"));
输出: 我的QQ是:****** 我的电话是:******* 我的邮箱是:aaa***@aaa.com
String.replaceAll()应该是调用了Matcher.replaceAll(),String.replaceAll()与下面这段代码等价
Pattern.compile(regex).matcher(str).replaceAll(replacement)
至于Matcher.replaceFirst()也很简单,它与String.replaceFirst()功能一样,我就不多说了.
str.replaceFirst(regex, replacement)与下面这段代码等价
Pattern.compile(regex).matcher(str).replaceFirst(replacement)
7.Matcher.appendReplacement(StringBuffer sb, String replacement) / Matcher.appendTail(StringBuffer sb)
­ 将当前匹配子串替换为指定字符串,并且将替换后的子串以及其之前到上次匹配子串之后的字符串段添加到一个StringBuffer对象里,而 appendTai­l(StringBuffer sb) 方法则将最后一次匹配工作后剩余的字符串添加到一个StringBuffer对象里.看例子:
Java代码示例:
Pattern p=Pattern.compile("\\d+");
Matcher m=p.matcher("我的QQ是:456456 我的电话是:0532214 我的邮箱是:aaa123@aaa.com");
StringBuffer sb=new StringBuffer();
m.find(); //匹配到456456
m.appendReplacement(sb,"*"); //将456456之前的字符串追加到sb,再将456456替换为*,并追加到sb
System.out.println(sb.toString());
m.appendTail(sb); //将前面替换过的内容连接后面未替换过的内容,并放入sb
System.out.println(sb.toString());
输出:
我的QQ是:*
我的QQ是:* 我的电话是:0532214 我的邮箱是:aaa123@aaa.com
再看一个例子
Java代码示例:
Pattern p=Pattern.compile("\\d+");
Matcher m=p.matcher("我的QQ是:456456 我的电话是:0532214 我的邮箱是:aaa123@aaa.com");
StringBuffer sb=new StringBuffer();
while(m.find()) {
    m.appendReplacement(sb,"*");
    System.out.println(sb.toString());
}
m.appendTail(sb);
System.out.println("使用appendTail()的最终内容是:"+sb.toString());
输出:
我的QQ是:*
我的QQ是:* 我的电话是:*
我的QQ是:* 我的电话是:* 我的邮箱是:aaa*
使用appendTail()的最终内容是:我的QQ是:* 我的电话是:* 我的邮箱是:aaa*@aaa.com
关于这两个方法就介绍到这,如果不明白的话,还需要自己动下手,认真体会一下其内涵.
­8.Matcher.region(int start, int end) / Matcher.regionEnd() / Matcher.regionStart()
我们在做匹配操作时,默认去匹配的是整个字符串,例如有一字符串"aabbcc",使用"\\d+"去find()时,是从第一个a开始匹配, 也就是索引号为0的位置,开始去匹配,当索引号为0的位置没有匹配到时,就去下一个位置去匹配...直到匹配到子字符串或匹配完最后一个字符索引号才结束,很显然"\ \d+"不能匹配"aabbcc",当它匹配完最后一个c时,结束本次匹配,宣告匹配失败,也就是说它会去匹配完整个字符串,能不能不去匹配完整个字符串呢,答案是可以的.
region(int start,int end)就是用来设置此匹配器的区域限制。
先来看一个例子.
Java代码示例:
Pattern p=Pattern.compile("\\d+");
String content="aaabb2233cc";
Matcher m=p.matcher(content);
System.out.println(m);
输出: java.util.regex.Matcher[pattern=\d+ region=0,11 lastmatch=]
可以看到region=0,11 表示start=0,end=11,更通俗的说就是当去匹配字符串,先从索引号为0的位置去匹配,如果匹配到了子字符串就返回,如果没有匹配到则到下一个位置去匹配,一直匹配到索引号为11-1的字符就结束匹配.
为什么是11呢,因为content.length()==11
现在你应该明白了它的作用,来看一个例子.
Java代码示例:
Pattern p=Pattern.compile("\\d+");
String content="aaabb2233cc";
Matcher m=p.matcher(content);
m.find(); //匹配到2223,返回true
Matcher m2=p.matcher(content);
m2.region(0,5);
m2.find(); //返回false,只去匹配索引号0至5-1的字符,没有匹配到
Matcher m3=p.matcher(content);
m2.region(3,8);
m2.find(); //返回true
m2.group(); //返回223,为什么,请数一下索引号就知道了.
Matcher.regionStart()返回region(int start,int end)中的start值,默认为0
Matcher.regionEnd()返回region(int start,int end)中的end值,默认为去匹配字符串的length()值

9.Matcher.reset() / Matcher.reset(CharSequence input)
用于重置匹配器。看示例
Java代码示例:
Pattern p=Pattern.compile("[a-z]+");
String content="aaabb2233cc";
Matcher m=p.matcher(content); //此时m刚创建出来,为最初状态
m.find();
m.group(); //返回aaabb
m.find();
m.group(); //返回cc
Matcher m2=p.matcher(content); //此时m2刚创建出来,为最初状态
m.find();
m.group(); //返回aaabb
m.reset(); //恢复到了最初状态,此时相当于m2刚创建出来
m.find();
m.group(); //返回aaabb,相信大家应该知道了吧
Matcher.reset(CharSequence input) 恢复到最初状态,并将匹配字符串换成input,以后执行匹配操作时,就来匹配input,而不匹配原来的字符串了.
10.Matcher.toMatchResult()
大家查看一下java API 对Matcher类的说明,会发现它实现了MatchResult 接口,这个接口只有以下几个方法
groupCount()
group() / group(int i)
start() / start(int i)
end() / end(int i)
至于这几个方法的功能前面已经介绍过,现在我们来看一下toMatchResult() 是如何使用的
Java代码示例:
Pattern p=Pattern.compile("\\d+");
Matcher m=p.matcher("我的QQ是:456456 我的电话是:0532214 我的邮箱是:aaa123@aaa.com");
List list=new ArrayList();
while(m.find()) {
    list.add(m.toMatchResult());
}
MatchResult matchResult=null;
Iterator it=list.iterator();
int i=1;
while(it.hasNext()) {
    matchResult=(MatchResult)it.next();
    System.out.print("第"+(i++)+"次匹配到的信息: ");
    System.out.println(matchResult.group()+"\t\t"+matchResult.start()+"\t"+matchResult.end());
}
输出:
第1次匹配到的信息: 456456          6      12
第2次匹配到的信息: 0532214        19       26
第3次匹配到的信息: 123                36       39
现在你应该知道,toMatchResult()用于保存某次匹配后的信息,待以后再使用.
方法使用就说到这里,现在再介绍一个实例
­
有这样一个需求,有一个HTML文件,需要将其中的内容抽取出来,并不带HTML标签,如果使用正则表达式,这是一件很容易的事情. 前提是这个HTML文件只保留了<body></body>标签以内的内容.
Java代码示例:
String html="<div><font color='red'>example1</font></div>"; //可以是任何html文件源代码,但格式一定要正确
Pattern p=Pattern.compile("<[^>]*>");
Matcher m=p.matcher(html);
String result=m.replaceAll("");
System.out.println(result);
­

输出:example1

如果想要替换某个特定的字符串,可以用下面的方法。

String wd = "姚明      麦蒂姚明姚明",str="";
   wd = wd.trim();
   Pattern p = Pattern.compile ("(姚明)");
   Matcher m = p.matcher(wd);
   str=m.replaceAll("<font></font>");
   System.out.println (str);

结果是:<font></font>      麦蒂<font></font><font></font>

参考资料:
java.util.regex的API文档
陈广佳的JAVA正则表达式--Pattern和Matcher

分享到:
评论
2 楼 明天的昨天 2010-04-19  
Exception in thread "main" java.lang.IllegalStateException: No match available
1 楼 明天的昨天 2010-04-19  
Mathcer m2=m.matcher("2223bb");
m.lookingAt();   //匹配2223
m.start();   //返回0,由于lookingAt()只能匹配前面的字符串,所以当使用lookingAt()匹配时,start()方法总是返回0
m.end();   //返回4
m.group();   //返回2223
­
Matcher m3=m.matcher("2223bb");
m.matches();   //匹配整个字符串
m.start();   //返回0,原因相信大家也清楚了
m.end();   //返回6,原因相信大家也清楚了,因为matches()需要匹配所有字符串
m.group();   //返回2223bb
­
说了这么多,相信大家都明白了以上几个方法的使用,该说说正则表达式的分组在java中是怎么使用的.


这里m2,m3的得到应该用 p.matcher("")得到吧??

还有
m.matches();   //匹配整个字符串
m.start();   //返回0,原因相信大家也清楚了
start() 返回以前匹配的初始索引,这里matches()方法根本不能匹配啊,
这里会报错吧

相关推荐

    java正则表达式.zip

    Java正则表达式是Java编程语言中用于处理字符串的强大工具,它基于模式匹配的概念,能够高效地进行文本搜索、替换和解析。在Java中,正则表达式主要通过`java.util.regex`包来实现,提供了Pattern和Matcher两个核心...

    java正则表达式匹配工具

    Java正则表达式匹配工具是IT领域中一种强大的文本处理工具,它利用正则表达式(Regular Expression)的规则来查找、替换或者提取文本中的特定模式。正则表达式是一种特殊的字符序列,能够帮助程序员或者用户高效地...

    java正则表达式验证IP地址

    Java正则表达式验证IP地址 Java正则表达式验证IP地址是指使用Java语言中的正则表达式来验证IP地址是否符合标准。IP地址是指在网络通信中用来标识设备的地址,它是一种逻辑地址,通过它可以找到网络中的设备。在...

    java 正则表达式应用jar包 regex-smart.jar

    Java正则表达式是编程语言Java中的一个强大工具,它用于模式匹配、数据验证和文本检索替换。在Java中,正则表达式是通过java.util.regex包提供的接口和类来实现的。`regex-smart.jar`这个库显然是为了简化开发者在...

    使用Java正则表达式分析处理日志

    本篇将围绕“使用Java正则表达式分析处理日志”这一主题,探讨如何利用Java的正则表达式功能来提取、过滤和操作日志数据。 首先,我们需要理解正则表达式的基本概念。正则表达式(Regular Expression)是一种模式...

    JAVA正则表达式大全

    以下是对这些文档标题所涉及的Java正则表达式知识点的详细解释: 1. **正则表达式之道** 这个主题可能涵盖了正则表达式的基础概念,包括元字符、字符类、量词和分组。元字符如`.`代表任意字符,`^`表示行首,`$`...

    Java正则表达式.ppt

    Java正则表达式是一种强大的文本处理工具,广泛用于验证字符串、查找特定模式和替换文本。在Java中,正则表达式提供了简洁而灵活的方式来处理字符串,使得编程人员能够以更高效的方式实现各种文本操作。 正则表达式...

    Java 正则表达式库

    Java正则表达式库是Java开发中不可或缺的一部分,它为开发者提供了一种强大的文本匹配工具。在Java中,正则表达式(Regular Expression)是一种模式匹配语言,用于处理字符串操作,如查找、替换或提取特定模式的数据...

    Java正则表达式测试工具

    Java正则表达式测试工具是面向开发者和爱好者的一款实用程序,它可以帮助用户验证和调试他们的正则表达式。在Java编程环境中,正则表达式是一个强大的字符串处理工具,广泛用于数据验证、文本搜索和替换等任务。这款...

    使用Java正则表达式实现一个简单的身份证号码验证

    ### 使用Java正则表达式实现一个简单的身份证号码验证 #### 一、背景介绍 身份证号码是中国公民的身份标识,由15位或18位数字组成(早期为15位,后改为18位)。其中,第18位是校验码,可能是数字0~9或者大写字母X。...

    常用java正则表达式

    ### 常用Java正则表达式知识点 #### 一、引言 正则表达式是一种强大的工具,用于处理文本并查找模式。多种编程语言,包括Perl、PHP、Python、JavaScript以及Java等均内置了对正则表达式的支持。本文将详细介绍Java...

    java正则表达式截取demo下载即可运行

    Java正则表达式是Java编程语言中用于处理字符串的强大工具,它允许我们通过模式匹配来查找、替换或分割文本。这个“java正则表达式截取demo”提供了一个可以直接运行的示例,帮助开发者理解如何在Java中使用正则...

    java正则表达式教程html版带目录

    Java正则表达式是Java编程语言中的一个强大工具,它用于模式匹配和字符串处理,尤其在数据验证、文本检索和替换等方面发挥着重要作用。本教程是专为初学者设计的HTML版,旨在帮助读者快速掌握Java正则表达式的概念和...

    java正则表达式使用例子

    Java正则表达式是Java编程语言中用于处理字符串的强大工具,它允许我们通过模式匹配来查找、替换或分割文本。在Android开发中,正则表达式尤其重要,因为它们可以帮助我们验证用户输入、处理文本数据或者进行复杂的...

    Java正则表达式应用总结

    Java正则表达式是编程语言Java中用于处理字符串和文本的强大工具。它允许开发者通过模式匹配来执行复杂的文本分析和操作。在Java中,正则表达式的操作主要涉及两个核心类:`java.util.regex.Matcher`和`java.util....

    Java正则表达式详细讲解

    Java正则表达式是Java编程语言中用于处理字符串的强大工具,它允许程序员通过模式匹配来查找、替换或分割文本。在Java中,正则表达式是通过`java.util.regex`包提供的API来实现的。本讲解将深入探讨Java正则表达式的...

    强大的JAVA正则表达式处理包jakarta-oro

    Java正则表达式是编程语言中的一个重要组成部分,用于文本处理和模式匹配。Jakarta ORO(Oracle Regular Expressions for Java)是Apache软件基金会开发的一个强大的Java正则表达式库,它为开发者提供了更为灵活和...

    Java 正则表达式 图片版

    Java正则表达式 Java 正则表达式 图片版 携带方便,查阅方便!~

Global site tag (gtag.js) - Google Analytics