`
afei1689
  • 浏览: 16629 次
文章分类
社区版块
存档分类
最新评论

神奇的java正则表达式

阅读更多

项目里用正则表达来匹配解析cookie,表达为: private final static Pattern PATTERN =

        Pattern.compile("(?:\\s|[;,])*\\$*([^;=]+)(?:=(?:[\"']((?:\\\\.|[^\"])*)[\"']|([^;,]*)))?(\\s*(?:[;,]+\\s*|$))");(代码来自开源项目netty的CookieDecoder)

代码上线后,偶尔报错误log: java.lang.StackOverflowError at java.util.regex.Pattern$GroupHead.match(Pattern.java:4166) at java.util.regex.Pattern$Loop.match(Pattern.java:4295) at java.util.regex.Pattern$GroupTail.match(Pattern.java:4227) at java.util.regex.Pattern$BranchConn.match(Pattern.java:4078) at java.util.regex.Pattern$CharProperty.match(Pattern.java:3345) at java.util.regex.Pattern$Branch.match(Pattern.java:4114) at java.util.regex.Pattern$GroupHead.match(Pattern.java:4168) at java.util.regex.Pattern$Loop.match(Pattern.java:4295) at java.util.regex.Pattern$GroupTail.match(Pattern.java:4227) at java.util.regex.Pattern$BranchConn.match(Pattern.java:4078) at java.util.regex.Pattern$CharProperty.match(Pattern.java:3345) at java.util.regex.Pattern$Branch.match(Pattern.java:4114) at java.util.regex.Pattern$GroupHead.match(Pattern.java:4168) at java.util.regex.Pattern$Loop.match(Pattern.java:4295) at java.util.regex.Pattern$GroupTail.match(Pattern.java:4227)
       很长,略。
 初步认为是请求头的cookie值含有特殊的符号造成stackOverflowError,但把这个出错的cookie的值放在本地机器跑,没有出错,正常解析,更诡异的是,就算是同样的cookie值在线上服务器也是有时候才出错,有时候却完全正常(排除多线程并发的问题,本身java.util.regex.Pattern是线程安全的,另外是单人手工测试,用btrace跟踪确认),如此执行结果不确定,还不说正则本身的性能问题(一字烂),唉!
   线上jdk是sun 64bit jdk1.6_18,正则也是jdk自带的
分享到:
评论
34 楼 蓝皮鼠 2011-01-07  
我的正则式不怎么强。但是见过也维护过超复杂的正则式,比如超过几十行的。

经验是正则式最好用于单行简单内容的匹配,如果内容太长的话很难保证有时会出错。

关于StackOverflow原来有次的出错原因是用正则式处理去空白,当空白行太多时正则式写的不好会错。

另外就是对于特殊字符,GBK中的日文等等,有时会导致解析一次几十分钟或者几个小时才能完成。细节原因也没有搞清楚,后来对于这部分自己写解析器搞定了。

最终建议:对于自己能控制的内容,用正则式问题不大。对于未知内容,用正则式有风险,而且比较大。
33 楼 cyberpeng 2011-01-07  
afei1689 写道
ouchxp 写道
afei1689 写道
解析cookie用的是netty的代码:http://www.google.com/codesearch/p?hl=zh-CN#HUd3wh57nP8/trunk/FindMistakes/Server2/netty-3.2.1.Final-dist/src/main/java/org/jboss/netty/handler/codec/http/CookieDecoder.java&q=cookieDecoder.java&sa=N&cd=1&ct=rc
类似好像有人报过类似bug:
http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6337993,
我想说的,正则这玩意儿慎用,简单的字符串处理可以自己写代码,复杂的字符串它的性能又不行(可以考虑antlr),更杯具是像我这种情况同样的输入,处理结果竟不一样


不是性能不行 是你不会用.
正则应该用在描述容易改变的规则. 比如文本的搜索条件,输入的校验等.
方便以后规则的更改.

见过法师下副本拿绷带当治疗的?奉劝LZ趁早换职业吧.

你会来解析一下这是为何,我说的性能,你提的是灵活性,有毛关系。
装*给雷劈就是你这种


吐吐槽就算了。还觉着不爽你就换种实现。
多大事啊?
32 楼 yym955 2011-01-07  
您有一个问题,用正则表达式解决。那您就有两个问题了
31 楼 afei1689 2011-01-07  
ouchxp 写道
afei1689 写道
解析cookie用的是netty的代码:http://www.google.com/codesearch/p?hl=zh-CN#HUd3wh57nP8/trunk/FindMistakes/Server2/netty-3.2.1.Final-dist/src/main/java/org/jboss/netty/handler/codec/http/CookieDecoder.java&q=cookieDecoder.java&sa=N&cd=1&ct=rc
类似好像有人报过类似bug:
http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6337993,
我想说的,正则这玩意儿慎用,简单的字符串处理可以自己写代码,复杂的字符串它的性能又不行(可以考虑antlr),更杯具是像我这种情况同样的输入,处理结果竟不一样


不是性能不行 是你不会用.
正则应该用在描述容易改变的规则. 比如文本的搜索条件,输入的校验等.
方便以后规则的更改.

见过法师下副本拿绷带当治疗的?奉劝LZ趁早换职业吧.

你会来解析一下这是为何,我说的性能,你提的是灵活性,有毛关系。
装*给雷劈就是你这种
30 楼 ouchxp 2011-01-07  
afei1689 写道
解析cookie用的是netty的代码:http://www.google.com/codesearch/p?hl=zh-CN#HUd3wh57nP8/trunk/FindMistakes/Server2/netty-3.2.1.Final-dist/src/main/java/org/jboss/netty/handler/codec/http/CookieDecoder.java&q=cookieDecoder.java&sa=N&cd=1&ct=rc
类似好像有人报过类似bug:
http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6337993,
我想说的,正则这玩意儿慎用,简单的字符串处理可以自己写代码,复杂的字符串它的性能又不行(可以考虑antlr),更杯具是像我这种情况同样的输入,处理结果竟不一样


不是性能不行 是你不会用.
正则应该用在描述容易改变的规则. 比如文本的搜索条件,输入的校验等.
方便以后规则的更改.

见过法师下副本拿绷带当治疗的?奉劝LZ趁早换职业吧.
29 楼 ycysth 2011-01-07  
如非必要,远离正则
28 楼 Reset 2011-01-07  
(\S+)=(\S+)

27 楼 phoenixup 2011-01-07  
1.更新你使用JDK版本,版本号1.6_18为有一个很严重的BUG,具体去查BUG FIX的信息;
2.修改你的正则,处理Cookie用这个正则,会哭的。。。
26 楼 afei1689 2011-01-07  
解析cookie用的是netty的代码:http://www.google.com/codesearch/p?hl=zh-CN#HUd3wh57nP8/trunk/FindMistakes/Server2/netty-3.2.1.Final-dist/src/main/java/org/jboss/netty/handler/codec/http/CookieDecoder.java&q=cookieDecoder.java&sa=N&cd=1&ct=rc
类似好像有人报过类似bug:
http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6337993,
我想说的,正则这玩意儿慎用,简单的字符串处理可以自己写代码,复杂的字符串它的性能又不行(可以考虑antlr),更杯具是像我这种情况同样的输入,处理结果竟不一样
25 楼 onlylau 2011-01-07  
LZ不防将代码贴出来
24 楼 onlylau 2011-01-07  
我觉得可能是放线上运行时操作解析很多,从而造成不能及时的清除栈
所以你本地测试只是一个两个的测试肯定没问题
23 楼 wenxiang_tune 2011-01-07  
sydra 写道
NakoRuru1982 写道
freish 写道
正则的效率本身就不高,只是为了方便而已


你理解正則表達式匹配原理嗎?不理解就不要開皇槍

正则表达式确实是很高效的检索方式.比你普通的逻辑代码高效的多.


放屁
22 楼 piao_bo_yi 2011-01-07  
栈溢出,远程调试,查看一下调用堆栈不就行了。
21 楼 zjjzfxj 2011-01-07  
whaosoft 写道
afei1689 写道
treemap 写道
80% 是你正则 写的有问题


废话,用正规表达式本身就是一错

为什么是错呢...

明显不是LZ写的..LZ来维护的
20 楼 JE帐号 2011-01-07  
不要排斥正则,正则是很好的工具.
19 楼 sydra 2011-01-07  
NakoRuru1982 写道
freish 写道
正则的效率本身就不高,只是为了方便而已


你理解正則表達式匹配原理嗎?不理解就不要開皇槍

正则表达式确实是很高效的检索方式.比你普通的逻辑代码高效的多.
18 楼 sydra 2011-01-07  
楼主的正则很复杂,建议楼主最好把出错的所有匹配文本找出来再做一些测试,或者贴出来让大家看看,同样的表达式匹配不同的文本结果也会不同,所以本地测不出也很正常.
17 楼 sydra 2011-01-07  
xingqiba 写道
对于正则表达式,请记住一句老话:“ 您有一个问题,用正则表达式解决。那您就有两个问题了。” 

可能对正则的理解层度不同,看法也不同吧,虽然我也不是很懂正则,但是大部分大牛还是非常推崇正则的,虽然他们也承认正则有这样或者那样的问题.
16 楼 ouchxp 2011-01-07  
LZ典型 因噎废食.
15 楼 yizhilong28 2011-01-07  
初步认为是请求头的cookie值含有特殊的符号造成stackOverflowError
既然知道是特殊字符造成的,就不要在cookie中使用这些特殊字符,或预先进行处理(如CookieDecoder的String decodeValue(String value)方法)。
另外cookie规范中也有很多不能使用的特殊字符。
如果违反这些规则,很容易掉进陷阱。

相关推荐

    java正则表达式.zip

    Java正则表达式是Java编程语言中用于处理字符串的强大工具,它基于模式匹配的概念,能够高效地进行文本搜索、替换和解析。在Java中,正则表达式主要通过`java.util.regex`包来实现,提供了Pattern和Matcher两个核心...

    Java使用正则表达式提取XML节点内容的方法示例

    为了帮助开发者更好地掌握Java正则表达式技术,我们提供了一系列的Java正则表达式技巧大全,包括《Java正则表达式技巧大全》、《Java数据结构与算法教程》、《Java操作DOM节点技巧总结》、《Java文件与目录操作技巧...

    java正则表达式验证IP地址

    Java正则表达式验证IP地址 Java正则表达式验证IP地址是指使用Java语言中的正则表达式来验证IP地址是否符合标准。IP地址是指在网络通信中用来标识设备的地址,它是一种逻辑地址,通过它可以找到网络中的设备。在...

    java正则表达式匹配工具

    Java正则表达式匹配工具是IT领域中一种强大的文本处理工具,它利用正则表达式(Regular Expression)的规则来查找、替换或者提取文本中的特定模式。正则表达式是一种特殊的字符序列,能够帮助程序员或者用户高效地...

    JAVA正则表达式大全

    以下是对这些文档标题所涉及的Java正则表达式知识点的详细解释: 1. **正则表达式之道** 这个主题可能涵盖了正则表达式的基础概念,包括元字符、字符类、量词和分组。元字符如`.`代表任意字符,`^`表示行首,`$`...

    Java正则表达式.ppt

    Java正则表达式是一种强大的文本处理工具,广泛用于验证字符串、查找特定模式和替换文本。在Java中,正则表达式提供了简洁而灵活的方式来处理字符串,使得编程人员能够以更高效的方式实现各种文本操作。 正则表达式...

    使用Java正则表达式分析处理日志

    本篇将围绕“使用Java正则表达式分析处理日志”这一主题,探讨如何利用Java的正则表达式功能来提取、过滤和操作日志数据。 首先,我们需要理解正则表达式的基本概念。正则表达式(Regular Expression)是一种模式...

    Java正则表达式 Java 正则表达式

    Java正则表达式是Java语言中用于处理字符串的强大工具,它允许程序员进行复杂的字符串匹配、查找和替换操作。正则表达式(Regular Expression)是一种模式匹配语言,通过特定的语法来描述字符串的模式,用于在文本中...

    java 正则表达式应用jar包 regex-smart.jar

    Java正则表达式是编程语言Java中的一个强大工具,它用于模式匹配、数据验证和文本检索替换。在Java中,正则表达式是通过java.util.regex包提供的接口和类来实现的。`regex-smart.jar`这个库显然是为了简化开发者在...

    Java 正则表达式 图片版

    Java正则表达式 Java 正则表达式 图片版 携带方便,查阅方便!~

    常用java正则表达式

    ### 常用Java正则表达式知识点 #### 一、引言 正则表达式是一种强大的工具,用于处理文本并查找模式。多种编程语言,包括Perl、PHP、Python、JavaScript以及Java等均内置了对正则表达式的支持。本文将详细介绍Java...

    使用Java正则表达式实现一个简单的身份证号码验证

    ### 使用Java正则表达式实现一个简单的身份证号码验证 #### 一、背景介绍 身份证号码是中国公民的身份标识,由15位或18位数字组成(早期为15位,后改为18位)。其中,第18位是校验码,可能是数字0~9或者大写字母X。...

    Java正则表达式测试工具

    Java正则表达式测试工具是面向开发者和爱好者的一款实用程序,它可以帮助用户验证和调试他们的正则表达式。在Java编程环境中,正则表达式是一个强大的字符串处理工具,广泛用于数据验证、文本搜索和替换等任务。这款...

    Java 正则表达式库

    Java正则表达式库是Java开发中不可或缺的一部分,它为开发者提供了一种强大的文本匹配工具。在Java中,正则表达式(Regular Expression)是一种模式匹配语言,用于处理字符串操作,如查找、替换或提取特定模式的数据...

    Java正则表达式应用总结

    Java正则表达式是编程语言Java中用于处理字符串和文本的强大工具。它允许开发者通过模式匹配来执行复杂的文本分析和操作。在Java中,正则表达式的操作主要涉及两个核心类:`java.util.regex.Matcher`和`java.util....

    java正则表达式使用例子

    Java正则表达式是Java编程语言中用于处理字符串的强大工具,它允许我们通过模式匹配来查找、替换或分割文本。在Android开发中,正则表达式尤其重要,因为它们可以帮助我们验证用户输入、处理文本数据或者进行复杂的...

    Java正则表达式详细讲解

    Java正则表达式是Java编程语言中用于处理字符串的强大工具,它允许程序员通过模式匹配来查找、替换或分割文本。在Java中,正则表达式是通过`java.util.regex`包提供的API来实现的。本讲解将深入探讨Java正则表达式的...

    Java正则表达式_动力节点Java学院整理

    Java正则表达式详解 Java正则表达式是Java语言中的一种模式匹配技术,用于匹配、查找、替换和判断字符串。它是一种强大的工具,能够帮助开发者快速处理字符串相关的任务。 什么是正则表达式? 正则表达式是一种...

    Java正则表达式详解(非常适合入门

    ### Java正则表达式详解 #### 一、正则表达式的重要性及应用 正则表达式,作为一种强大的文本处理工具,对于程序员而言是不可或缺的基本技能之一。它在文本的匹配、搜索和替换等方面发挥着不可替代的作用。尤其在...

Global site tag (gtag.js) - Google Analytics