`
afei1689
  • 浏览: 16668 次
文章分类
社区版块
存档分类
最新评论

神奇的java正则表达式

阅读更多

项目里用正则表达来匹配解析cookie,表达为: private final static Pattern PATTERN =

        Pattern.compile("(?:\\s|[;,])*\\$*([^;=]+)(?:=(?:[\"']((?:\\\\.|[^\"])*)[\"']|([^;,]*)))?(\\s*(?:[;,]+\\s*|$))");(代码来自开源项目netty的CookieDecoder)

代码上线后,偶尔报错误log: java.lang.StackOverflowError at java.util.regex.Pattern$GroupHead.match(Pattern.java:4166) at java.util.regex.Pattern$Loop.match(Pattern.java:4295) at java.util.regex.Pattern$GroupTail.match(Pattern.java:4227) at java.util.regex.Pattern$BranchConn.match(Pattern.java:4078) at java.util.regex.Pattern$CharProperty.match(Pattern.java:3345) at java.util.regex.Pattern$Branch.match(Pattern.java:4114) at java.util.regex.Pattern$GroupHead.match(Pattern.java:4168) at java.util.regex.Pattern$Loop.match(Pattern.java:4295) at java.util.regex.Pattern$GroupTail.match(Pattern.java:4227) at java.util.regex.Pattern$BranchConn.match(Pattern.java:4078) at java.util.regex.Pattern$CharProperty.match(Pattern.java:3345) at java.util.regex.Pattern$Branch.match(Pattern.java:4114) at java.util.regex.Pattern$GroupHead.match(Pattern.java:4168) at java.util.regex.Pattern$Loop.match(Pattern.java:4295) at java.util.regex.Pattern$GroupTail.match(Pattern.java:4227)
       很长,略。
 初步认为是请求头的cookie值含有特殊的符号造成stackOverflowError,但把这个出错的cookie的值放在本地机器跑,没有出错,正常解析,更诡异的是,就算是同样的cookie值在线上服务器也是有时候才出错,有时候却完全正常(排除多线程并发的问题,本身java.util.regex.Pattern是线程安全的,另外是单人手工测试,用btrace跟踪确认),如此执行结果不确定,还不说正则本身的性能问题(一字烂),唉!
   线上jdk是sun 64bit jdk1.6_18,正则也是jdk自带的
分享到:
评论
54 楼 无根V稻草 2011-04-14  
诶 一个正则 嵌套这么多层
看上去不累么?
维护不累么?
53 楼 dingoo 2011-04-14  
这个看着头大
52 楼 lord_is_layuping 2011-04-13  
楼主,解决了没,我也遇到一样的问题了,调试模式下没问题,直接执行就报这个异常。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
51 楼 bhdweb 2011-02-15  
对于正则表达式,请记住一句老话:“ 您有一个问题,用正则表达式解决。那您就有两个问题了。” 
50 楼 RonQi 2011-02-15  
hswx_11 写道
看下http://blog.csdn.net/shixing_11/archive/2010/11/09/5997567.aspx;文章
这种正则非常容易形成死循环,这是JDK1.4以来遗留的一个BUG。到JDK1.6也未解决。以后用正则,一定要谨慎,对于大批量的数据校验最好避免正则,SUN对JDK这个BUG有专门说明,请看如下:
http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=5050507和
http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6988218

你给的参考资料很好,受教了。

正在做一个正则表达式,从网页html代码中提出table,
正则:
<table(.|\\n|\\r)*?</table>

在js和一个桌面的正则测试工具下是正常的,能找出给定html字符串的table来,
但在java中当字符串长度超过826时就报栈溢出异常:
Exception in thread "main" java.lang.StackOverflowError
	at java.util.regex.Pattern$CharProperty.match(Pattern.java:3343)
	at java.util.regex.Pattern$Branch.match(Pattern.java:4114)
	......


不知是我的正则有问题还是那个JDK的bug呢
49 楼 RonQi 2011-02-15  
sdh5724 写道
蓝皮鼠 写道
我的正则式不怎么强。但是见过也维护过超复杂的正则式,比如超过几十行的。

经验是正则式最好用于单行简单内容的匹配,如果内容太长的话很难保证有时会出错。

关于StackOverflow原来有次的出错原因是用正则式处理去空白,当空白行太多时正则式写的不好会错。

另外就是对于特殊字符,GBK中的日文等等,有时会导致解析一次几十分钟或者几个小时才能完成。细节原因也没有搞清楚,后来对于这部分自己写解析器搞定了。

最终建议:对于自己能控制的内容,用正则式问题不大。对于未知内容,用正则式有风险,而且比较大。


比较同意你的说法。 我也遇见一些场景是:
1. 在以行处理的参数上, 单行文本太长, 导致性能问题
2. 表达式中包含了换行符, 导致性能问题
3. 大规模使用导致性能问题
4. 占溢出还是递归太多造造成的, 表达式太复杂,导致了深度递归。这个在JDK的表达式实现上比较容易出现, ORO的好象好很多。


受教了。
正在做一个正则表达式,从网页html代码中提出table,
正则:<table(.|\\n|\\r)*?</table>
在js和一个桌面测试的正则工具下是正常的,但在java中当字符串长度超过826时就报栈溢出异常:
Exception in thread "main" java.lang.StackOverflowError
	at java.util.regex.Pattern$CharProperty.match(Pattern.java:3343)
	at java.util.regex.Pattern$Branch.match(Pattern.java:4114)
	......

不知是我的正则有问题还是JDK的bug呢
48 楼 afei1689 2011-01-10  
hswx_11 写道
看下http://blog.csdn.net/shixing_11/archive/2010/11/09/5997567.aspx;文章
这种正则非常容易形成死循环,这是JDK1.4以来遗留的一个BUG。到JDK1.6也未解决。以后用正则,一定要谨慎,对于大批量的数据校验最好避免正则,SUN对JDK这个BUG有专门说明,请看如下:
http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=5050507和
http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6988218

这个回复说到点子上了,如果真是因为某些bug引起死循环,那-Xss设置最大也没有用,最纳闷是,同样的要match的字符串输入并不能保证每次都会抛出StackOverflowError,而是偶尔才会出现,这样使得问题原因更难定位了。
47 楼 hswx_11 2011-01-10  
看下http://blog.csdn.net/shixing_11/archive/2010/11/09/5997567.aspx;文章
这种正则非常容易形成死循环,这是JDK1.4以来遗留的一个BUG。到JDK1.6也未解决。以后用正则,一定要谨慎,对于大批量的数据校验最好避免正则,SUN对JDK这个BUG有专门说明,请看如下:
http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=5050507和
http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6988218
46 楼 sdh5724 2011-01-09  
蓝皮鼠 写道
我的正则式不怎么强。但是见过也维护过超复杂的正则式,比如超过几十行的。

经验是正则式最好用于单行简单内容的匹配,如果内容太长的话很难保证有时会出错。

关于StackOverflow原来有次的出错原因是用正则式处理去空白,当空白行太多时正则式写的不好会错。

另外就是对于特殊字符,GBK中的日文等等,有时会导致解析一次几十分钟或者几个小时才能完成。细节原因也没有搞清楚,后来对于这部分自己写解析器搞定了。

最终建议:对于自己能控制的内容,用正则式问题不大。对于未知内容,用正则式有风险,而且比较大。


比较同意你的说法。 我也遇见一些场景是:
1. 在以行处理的参数上, 单行文本太长, 导致性能问题
2. 表达式中包含了换行符, 导致性能问题
3. 大规模使用导致性能问题
4. 占溢出还是递归太多造造成的, 表达式太复杂,导致了深度递归。这个在JDK的表达式实现上比较容易出现, ORO的好象好很多。
45 楼 sdh5724 2011-01-09  
afunti 写道
xingqiba 写道
对于正则表达式,请记住一句老话:“ 您有一个问题,用正则表达式解决。那您就有两个问题了。” 

呵呵……
正则匹配的确麻烦,但是它的效率真的不高吗?



我对一般的复杂的表达式测试结果大约能到数十万到百万次每秒。 

对于表达式的递归深度, 文本的长度都需要有清醒的认识。

但是, 总是觉得性能很高, 到处滥用, 就有问题了。 曾经REVIEW到过一次请求5000次正则的检查的代码。
无论性能多高, 不能滥用而已。

这玩意的特点就是: 要么一点事情都没有, 突然出现了, 就能打垮整个服务器的CPU.  在生产故障中, 我碰到不少因此正则不合理使用导致服务器压力特别大, 导致崩溃的事情。
44 楼 afunti 2011-01-08  
xingqiba 写道
对于正则表达式,请记住一句老话:“ 您有一个问题,用正则表达式解决。那您就有两个问题了。” 

呵呵……
正则匹配的确麻烦,但是它的效率真的不高吗?
43 楼 spyker 2011-01-08  
rochoc 写道
蓝皮鼠 写道
我的正则式不怎么强。但是见过也维护过超复杂的正则式,比如超过几十行的。

经验是正则式最好用于单行简单内容的匹配,如果内容太长的话很难保证有时会出错。

关于StackOverflow原来有次的出错原因是用正则式处理去空白,当空白行太多时正则式写的不好会错。

另外就是对于特殊字符,GBK中的日文等等,有时会导致解析一次几十分钟或者几个小时才能完成。细节原因也没有搞清楚,后来对于这部分自己写解析器搞定了。

最终建议:对于自己能控制的内容,用正则式问题不大。对于未知内容,用正则式有风险,而且比较大。


严重同意,我也一直有在用正则,正则在处理文本,如果源内容长度可控的情况下是没有问题的,如果你都不知道你要用来检索的内容有多大,不要使用正则,起码不要使用复杂的正则。



精通正则表达式上面 这点已经做了总结了
42 楼 rochoc 2011-01-08  
蓝皮鼠 写道
我的正则式不怎么强。但是见过也维护过超复杂的正则式,比如超过几十行的。

经验是正则式最好用于单行简单内容的匹配,如果内容太长的话很难保证有时会出错。

关于StackOverflow原来有次的出错原因是用正则式处理去空白,当空白行太多时正则式写的不好会错。

另外就是对于特殊字符,GBK中的日文等等,有时会导致解析一次几十分钟或者几个小时才能完成。细节原因也没有搞清楚,后来对于这部分自己写解析器搞定了。

最终建议:对于自己能控制的内容,用正则式问题不大。对于未知内容,用正则式有风险,而且比较大。


严重同意,我也一直有在用正则,正则在处理文本,如果源内容长度可控的情况下是没有问题的,如果你都不知道你要用来检索的内容有多大,不要使用正则,起码不要使用复杂的正则。
41 楼 ouchxp 2011-01-07  
引用
你会来解析一下这是为何,我说的性能,你提的是灵活性,有毛关系。
装*给雷劈就是你这种

引用
不是性能不行 是你不会用. (此处说的是性能问题.)
正则应该用在描述容易改变的规则. 比如文本的搜索条件,输入的校验等.
方便以后规则的更改.(此处说的是适用正则的场合)

我没说我会正则调优.
但是我知道用这么一大堆乱七八糟的正则,来解析一个格式几乎不变的字符串肯定是不恰当的.
正则实际上也是通过循环解析字符串来执行.过多子表达式嵌套造成过多的循环.循环期间对象内存和栈空间不能及时回收.所以才造成了异常.

如果让正则高手来做正则调优肯定会有很大的效率提高.
如果非要正则,我给你的建议,拆分成为多个短正则配合逻辑代码多次匹配.

正则是一个很好的工具. 用不好要怪自己.不要怪工具.
就好比用绷带当治疗 还嫌不给力 就说绷带垃圾?
40 楼 kaneg 2011-01-07  
搞了这么久,楼主怎么不把有问题的cookie贴上来啊?
不告诉我们症状,怎么帮你找出问题的根源?
39 楼 afei1689 2011-01-07  
hatedance 写道
正则这东西稍微长一点就很难看懂,但若不用正则,用什么呢?自己写很多if和循环去判断?更头晕。
我觉得折衷的方案是,不要写很复杂的正则。一步一步来,抽丝剥茧。
比如先写(\w*)=(\w*),然后把第一组和第二租用正则再解析。

如果是要用正则解析cookie,这个表达式:(\w*)=(\w*)明显是有问题的,在某些版本的cookie中,两个双引号以内的value是可以包含=等特殊符号的
38 楼 sdh5724 2011-01-07  
如果楼主对于以上意见都不接受, 也可以忽视以下做法法
1. 废除正则, 自己写分析代码, cookie的解析还是很好做的, 看下规范, 很快的
或者,
2. java -server -Xss2m

楼主, 既然来问问题的, 还是注意下自己的态度
基于你对这个溢出不明白含义, 楼主的jvm的基础有些问题,多看看每个参数的含义, 并且测试下, 让你受益匪浅。
37 楼 hua839 2011-01-07  
没 看懂!
36 楼 hatedance 2011-01-07  
正则这东西稍微长一点就很难看懂,但若不用正则,用什么呢?自己写很多if和循环去判断?更头晕。
我觉得折衷的方案是,不要写很复杂的正则。一步一步来,抽丝剥茧。
比如先写(\w*)=(\w*),然后把第一组和第二租用正则再解析。
35 楼 afei1689 2011-01-07  
yym955 写道
您有一个问题,用正则表达式解决。那您就有两个问题了

呵呵,我们用netty来做一个http server,发现它有现成cookie decoder,直接就用上,也没注意它原来是正则来实现的,出了问题才发现,杯具!

相关推荐

    基于labview的声卡数据采集系统与分析设计毕业论文

    基于labview的声卡数据采集系统与分析设计毕业论文

    Android Studio实现学生信息管理系统源码(高分项目).zip

    Android Studio实现学生信息管理系统源码(高分项目).zip个人经导师指导并认可通过的高分大作业项目,评审分98分,项目中的源码都是经过本地编译过可运行的,都经过严格调试,确保可以运行!主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 Android Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理系统源码(高分项目).zipAndroid Studio实现学生信息管理

    个人毕业设计 - 基于树莓派、OpenCV及Python语言的人脸识别.zip

    个人毕业设计 - 基于树莓派、OpenCV及Python语言的人脸识别.zip

    考虑时变压力角和时变齿侧间隙的直齿轮六自由度平移-扭转耦合非线性动力学程序,包括时域图,相图,FFT图,庞加莱图,分岔图 要想学好齿轮动力学,需要有扎实的齿轮动力学理论和非线性动振动理论 齿轮啮合

    考虑时变压力角和时变齿侧间隙的直齿轮六自由度平移-扭转耦合非线性动力学程序,包括时域图,相图,FFT图,庞加莱图,分岔图。 要想学好齿轮动力学,需要有扎实的齿轮动力学理论和非线性动振动理论。 齿轮啮合刚度建模是齿轮动力学求解的第一步。

    tdm64-gcc-10.3.0-2.exe.zip

    tdm64-gcc-10.3.0-2.exe.zip。资源来源于网络分享,如有侵权请告知!

    安卓项目源码Androidbroadcast电池电量显示源码

    安卓项目源码Android broadcast电池电量显示源码提取方式是百度网盘分享地址

    汽车中间件市场调研报告:2023年全球汽车中间件市场销售额达到了78亿美元

    汽车中间件市场调研报告:2023年全球汽车中间件市场销售额达到了78亿美元 在数字化转型的浪潮中,汽车中间件作为连接硬件与软件的关键桥梁,正引领着汽车行业的新一轮变革。随着全球汽车产业的快速发展,中间件市场规模持续扩大,展现出前所未有的增长潜力。然而,面对复杂多变的市场环境和不断涌现的新技术,企业如何精准把握市场脉搏,实现可持续发展?本文将深入探讨全球及中国汽车中间件市场的现状、趋势及竞争格局,为您揭示咨询的重要性。 市场概况: 根据QYResearch(恒州博智)的统计及预测,2023年全球汽车中间件市场销售额达到了78亿美元(约7803百万美元),预计2030年将达到156亿美元(约15630百万美元),年复合增长率(CAGR)为10.3%(2024-2030)。这一数据不仅彰显了中间件市场的强劲增长动力,也预示着未来巨大的市场空间。 技术创新与趋势: 随着自动驾驶、车联网等技术的不断发展,汽车中间件正面临着前所未有的技术挑战与机遇。新一代中间件需要具备更高的实时性、更低的延迟以及更强的数据处理能力,以满足复杂多变的汽车应用场景。同时,云计算、大数据、人工智能等技术的融合应用,将进

    毕设&课程作业_基于C#的Winform公司管理系统.zip

    计算机系毕业设计

    非常好用的黑莓文件管理器

    亲测可用与黑莓OS6和OS7的文件管理器,测试型号9788、9900、9981

    基于STM8单片机的2.4寸LCD 触摸屏触摸划线实验.zip

    基于STM8单片机的编程实例,可供参考学习使用,希望对你有所帮助

    网络安全-渗透攻防知识点面试题整合

    超全知识点,用来学习都可以。

    2018平安产险数据建模大赛 驾驶行为预测驾驶风险.zip

    驾驶行为风险预测。2018平安产险数据建模大赛 驾驶行为预测驾驶风险Fork或借鉴请注明出处 @ChungKing . Thx比赛链接2018平安产险数据建模大赛 驾驶行为预测驾驶风险数据下载秩第五周 第六周 相关文章http://blog.51cto.com/yixianwei/2120336执照版权所有 (c) ChungKing。保留所有权利。根据MIT许可证授权。

    HTML5+Canvas漂亮的3D烟花2025跨年特效

    元旦烟花html

    大语言模型赋能自动化测试实践、挑战与展望(复旦大学 2024)PPT(54页).pptx

    在21世纪的科技浪潮中,人工智能(AI)无疑是最为耀眼的明星之一,它以惊人的速度改变着我们的生活、工作乃至整个社会的运行方式。而在人工智能的广阔领域中,大模型(Large Models)的崛起更是开启了智能技术的新纪元,引领着AI向更加复杂、高效、智能的方向发展。本文将深入探讨人工智能大模型的内涵、技术特点、应用领域以及对未来的影响。 一、人工智能大模型的内涵 人工智能大模型,顾名思义,是指具有庞大参数规模和数据处理能力的AI模型。这些模型通过深度学习算法,在海量数据上进行训练,能够学习到丰富的知识表示和复杂的模式识别能力。与传统的小型或中型模型相比,大模型在理解自然语言、生成高质量内容、进行跨模态信息处理等方面展现出前所未有的优势。它们不仅能够执行特定的任务,如图像识别、语音识别,还能进行创造性的工作,如文本生成、音乐创作,甚至在某些情况下展现出接近或超越人类的智能水平。 二、技术特点 海量数据与高效训练:大模型依赖于庞大的数据集进行训练,这些数据涵盖了广泛的主题和情境,使得模型能够学习到丰富的语义信息和上下文理解能力。同时,高效的训练算法和硬件加速技术,如TPU(Tensor Processing Unit)和GPU,使得大规模模型的训练成为可能。 自注意力机制与Transformer架构:许多领先的大模型采用了Transformer架构,特别是其自注意力机制,这种设计使得模型在处理序列数据时能够捕捉到长距离依赖关系,极大地提高了模型的表达能力和泛化能力。 多任务学习与迁移学习:大模型通常具备多任务学习的能力,即在一次训练中同时学习多个任务,这有助于模型学习到更通用的知识表示。此外,迁移学习使得这些模型能够轻松适应新任务,只需少量额外数据或微调即可。

    2020中国高校计算机大赛·华为云大数据挑战赛-热身赛.zip

    2020中国高校计算机大赛·华为云大数据挑战赛-热身赛队名无能万金油2020中国高校计算机大赛·华为云大数据挑战赛--热身赛热身赛Rank 7CSDN博客我的博客 (建议直接打开热身赛code.ipynb,里面有详细说明)比赛地址华为云大数据挑战赛--热身赛赛题说明热身赛题——交通流量预测随着电子信息和移动通信技术高速发展和不断融合,人工智能在各个领域都相继取得了巨大的突破,城市智能体也应运而生,而城市交通又是城市智能体的核心。交通流量数据既是城市交通中的基础数据,又是反应交通状况的重要指标之一,准确预测交通流量对城市交通具有重大意义。本题以交通流量预测为目标,邀请各个队伍以历史交通流量数据建立对应的算法模型,预测目标流量数据,通过预测值和真实值之间的对比得到预测准确率,以此来评估各队伍所提交的预测算法。要求lightgbm 2.3.0学习熊猫==0.24.2泡菜numpy全面质量管理scipy ==>1.1.0##数据在trian文件夹下:1月12日 ~2月8日 各路口数据train/01-12/chongzhi_beie

    使用Hadoop、Spark等实现的大数据平台项目.zip

    使用Hadoop、Spark等实现的大数据平台项目大数据项目集1. 基于Hadoop的离线用户行为日志分析(weblog)技术栈Hadoop豆 点击流数据处理 点击会话流模型构建 Hive明细表构建 用户行为指标分析2. 基于Akka实现RPC通信(akka_rpc)技术栈Akka 模拟Hadoop集群间通信 模拟Spark集群间通信 模拟Yarn通信3. 广告数据管理平台(dmp)技术栈Spark、Scala 广告日志ETL 报表统计 用户画像构建 广告标签统计 DMP结果入库HBase4. 基于Spark MLLib实现个性化推荐(mllib)技术栈Spark、ScalaMovieLens 数据模型构建 冷启动启动时用户随机对10部电影评分 切分数据集 ALS模型构建 模型评估 个性化推荐5. 基于Flink对CDN日志分析(flink-train)技术栈Flink、Scala 模拟Kafka生产者生成日志数据 CDN日志分析

    数据可视化大屏展示.zip

    数据可视化大屏展示维兹前言提到数据大屏,通常大家的印象就是各种图表、表格的数据展示,然后不断地轮询后端接口。对于前端开发者来说,更多的关注点在于布局问题、图表的兼容性问题以及窗口变化后图表样式问题。对于后端来说,主要考虑的是如何在不断的请求中减轻服务器的压力。但实际上,数据大屏的需求还远不止于此前端发布后应当可以作为应用直接运行,而不需要手动输入地址进行预览。 需要减轻服务器的压力,避免频繁的数据请求。 当前后端任何一方或双方都离线的情况下,数据仍能正常运行。 需要日志的存储,以便随时查看问题。 需要调用系统的能力和跨域调用API,以增加数据展示的灵活性。解决方案我采用了GO和lorca的方式来解决以上问题特征打包体积轻量,仅20MB。使用无头浏览器lorca,可自定义Chrome和JavaScript之间的交互。支持交叉编译到Windows和Mac系统。离线状态下也可以正常运行。可以运行本地服务,减轻服务器压力。编译速度快,运行性能优秀。依赖项该项目的依赖项如下Go 1.20+节点 14.8+整体方案演示下载对应的安装包

    DNAStar-个人学习

    仅限个人学习,禁止商业用途!

    cmn.txt的英文句子经过分词、转为小写处理得到的结果存放的文件

    cmn.txt的英文句子经过分词、转为小写处理得到的结果存放的文件

    基于PLC控制密码锁.doc

    基于PLC控制密码锁.doc

Global site tag (gtag.js) - Google Analytics