`
ec06cumt
  • 浏览: 20283 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

深入正则表达式原理 1

阅读更多
深入正则表达式原理
        最近很多同学都找到了工作,给我的压力很大,我不知道,我怎样才能突破自己,找到自己期待已久的工作,可能是我没有找到突破口,没有找到自己心中最想工作,想干一番大事业的那种冲动,或许是对学生时代的眷恋,或许是对自己的不自信,或许是对于现实的恐惧,我总是一次的在现实中来妥协自己,欺骗自己,以希望能留住我心中一直在呼叫的那种声音,挽留住最后能给自己净化心灵的那最后的一片热土。矿大啊,矿大,既让我爱又让我恨的校园。。。。。。

        废话也不多说,就来聊聊我这几天学的一些正则表达式的内容(化了几乎一周的时间终于看懂了大部分的内容),只是为了以后查看,能给自己一个印记。

      

一  、先说正则表达式(regular expression)的基础语法:元字符(metacharacters)和常用的正则表达式

              1.   点号:. 匹配单个任意的字符(包括空格,换行符,回车符,制表符,换页符)。

               2.  字符组 [  ] 匹配单个字符。如[abdcedf]也就是匹配[]中的任一个字符都能成功:匹配a成功匹配b也能成功,但不能匹配k这样没有在[]中出现的字符。

               3.  排除型字符组  [^ ]  排除括号内列出的字符 如[^abcd]匹配e能够成功,匹配a就失败

               4.   转义字符   \  通常是把元字符转化成普通的字符   通常用于转换如:在匹配.号时,正常情况下正则表达式引擎(会在后面谈到)会把.当做元字符来处理,但是加上\就可以把\.中的点号当做一个普通的字符来处理。

               5.   问号  ? 匹配一个或没有的字符

                6.   星号 *   匹配多个或没有的字符

                7.   加号 +  至少匹配一个字符或多个

                8.  区间词{min,max} 匹配至少min次,和至多max次

                9.    ^         匹配一行的开头

                10.  $       匹配一行的结尾

                11. \b        匹配单词的分界符

                 12. {?=}   肯定顺序环视

                 13.  {?!}    否定顺序环视

                  14.  {?<=}   肯定逆向环视

                   15.   {?<!}  否定逆向环视

                    16.  {?:}    非捕获分组

                    17.   {?>}    固化分组

二、下面的正则表达式针对各种语言又有一些的变化:

                       1.  \d   匹配任意的数字

                        2.  \D 匹配任意的非数字

                        3.  \w 匹配任意的小写字母,大写字母和数字和下划线_等于[a-zA-Z0-9_]

                         4.  \W 匹配任意的非字母等于[^\s]

                          5.  \s  匹配空字符如空格符,制表符,等

                          6.  \S  匹配非空字符

                         7.   \1\2 主要用于分组获得所分的组项,有时用的很方便哦。

               还有就是一些常用的匹配表达式:

                           1.   \n   匹配换行符

                            2.  \A  匹配一行的开头与^一样的功能

三、 上面的都是些简单的语法,我相信大多数都能懂,那我就讲一些难懂的内容吧:

      (1) .正则表达式的核心是正则表达式引擎处理方式。一般正则表达式引擎分为两种:NFA和DFA。

             但其中的NFA又有两个分支:传统的NFA和POSIX NFA 以下是各种语言所支持的引擎:

                       传统NFA:GNU Emacs、java、grep、less、more、.NET、Perl、PHP、Python、Ruby、sed等

                       DFA        :awk、egrep、flex、MySQL、Procmail

                       POSIX NFA:mawk、Mortice Kern等等。

                       DFA/NFA混合引擎:GNU awk 、GNU grep/egrep、Tcl

      (2).  正则表达式真正起作用是由于这些引擎来计算匹配。所以要想弄懂正则表达式的内部机制,就必须要明白你所熟悉的语言(如java,.net用的都是传统的NFA)是采用的那种引擎。每一种语言都有这自己引擎,也就有自己的独特的规范和独特的匹配原则。所以正则表达式说采用的匹配结果也不一样。但不管是DFA还是NFA他们又有一些共性原则如:

                 1. 优先匹配最左端(最靠开头)的匹配结果。

                  2.标准的匹配量词(*、+、?和{min,max})是匹配优先的。

       1* 先来说第一条:最左端匹配结果:

                   如果你用:cat来匹配下面的一句话:

                          The dragging belly indicates that your cat is too fat.

                   你本想匹配其中的cat,但是结果却不是,而是indicates中的cat。单词cat 是能够被匹配出来,但是indicates中的cat出现 的更早,所以就先匹配成功了。对于java程序员来说,他只关心是否能匹配而不关心在哪匹配。再来一个例子: 用:fat | cat | belly | your来匹配字符串上面的那一句话。结果会是什么呢?

                   你认为会是最后的fat是吗?因为fat在 fat | cat | belly | your最前面,是吗?错:答案是belly,句中的belly,为什么呢?由于匹配是从句中的第一个字母T来一次匹配fat | cat | belly | your,中的所有选项,结果发现都不符合,就走到h来匹配,结果也不符合,就依次走下去,直到b字母,有一项符合,就是fat | cat | belly | your中的belly中的b,所以依次匹配发现成功了,所以就正确了。就不在向后面的单词匹配(这种结果只是在支持NFA的引擎中)。

         2*  再来说说第二条:标准量词(*、+等)是匹配优先(greedy 贪婪的意思)的。从英文单词中,我们就可以发现一些原理。其实的确就是这样。

                 用\b\w+s\b 来匹配包含s的字符串,如regexes,整个是能够比配成功的,你或许会认为它是正则表达式\w+匹配到xe结束然后让s来匹配最后的regexes中的s,若你这样想,那就错了,其实\w+一次性的匹配到结束包括s在内都被它给匹配了,但后面有个s所以,她很不情愿的吐出一个s来,让后面的s来匹配。这样使得匹配成功。这个+是不是很greedy啊?像欧也妮~葛朗台是吗?O(∩_∩)O哈哈~,对了,就是,这条规则很重要,对于正则表达式的优化很重要。很多时候就是在这个基础上进行优化的。

         下面就再来比较一下DFA和NFA的区别。

          一般DFA速度较快,而NFA的控制能力较强。这两者各有千秋。

        NFA引擎是表达式主导(有点困了,还是下次再写吧,那先留个目录,有助于下次写的:下面主要是NFA的工作原理,不同regular Expression 的流派,然后就是正则表达式的优化和调校,再者就是正则表达式的书写和案例经典例子的回放,最后是写我最爱的Java语言的正则表达式的应用)

分享到:
评论
4 楼 xiaoqing20 2010-09-13  
 
3 楼 akuma_lad 2009-12-31  
嗯嗯。我有回顾了一次正则。
2 楼 naily 2009-12-30  
一口气读完了,写的很流畅、思路清晰,继续发扬。

期待后面的罗列的内容
1 楼 zhaolaiwei 2009-12-30  
正则很强大,但配合一些例子会更好理解~!

相关推荐

    pb 使用正则表达式源码pbregexp

    源码学习有助于深入理解正则表达式在PB环境下的工作原理,也可能为自定义或扩展组件功能提供可能。 总的来说,pbregexp组件为PowerBuilder开发者提供了一种强大而灵活的工具,帮助他们更高效地处理文本数据。通过...

    正则表达式核心原理精讲

    `正则表达式系统教程.CHM`这个文件很可能是一份详细的教程,包含了丰富的实例和练习,帮助你深入理解正则表达式的各种用法,从基础到高级,从理论到实践。通过学习,你将能够熟练运用正则表达式解决各种文本处理问题...

    正则表达式学习资料以及练习项目代码很多

    - **正则表达式在其他语言中的差异**:虽然正则表达式原理相似,但不同编程语言中的实现可能存在细微差别。 7. **学习资源** - **文档**:Python官方文档中的`re`模块介绍,以及其他专门的正则表达式教程。 - **...

    精通正则表达式中文版英文版_中文版为扫描版

    在正则表达式的世界里,基础概念包括字符类(如匹配任何数字[\d])、量词(匹配0次或多次*,1次或多次+,至少n次{n}等)、分组与捕获(使用括号()来定义一个子模式)、预查(用^符号否定预查,如[^abc]匹配非abc的...

    易语言正则表达式匹配中文

    本文将深入探讨易语言中的正则表达式匹配中文的原理、方法以及应用。 正则表达式(Regular Expression)是一种模式匹配的语言,用于描述一种字符串的集合。在易语言中,我们可以通过内置的字符串函数来实现正则...

    使用正则表达式拆分字符串

    在本教程中,我们将深入探讨如何使用正则表达式来拆分字符串,这对于数据处理和文本分析尤其有用。下面将详细阐述正则表达式的概念、语法以及如何在不同编程语言中实现字符串的拆分。 1. 正则表达式基础 - **模式...

    精通正则表达式(第三版)

    《精通正则表达式(第3版)》自第1版开始着力于教会读者 "以正则表达式来思考",来让读者真正"精通"正则表达式。该版对PHP的相关内容、Java1.5和Java1.6的新特性作了可观的扩充讲解。任何有机会使用正则表达式的读者都...

    深入浅出之正则表达式(一)

    在深入学习正则表达式之前,我们需要了解其基本概念和工作原理。 1. **什么是正则表达式** 正则表达式(Regular Expression,简称Regex)是一种模式匹配语言,用于描述一组文本字符串的特征。例如,"cat" 这个正则...

    deelx正则表达式测试工具

    《deelx正则表达式测试工具:深入解析与应用》 正则表达式,作为字符串处理中的...通过熟练掌握这款工具,不仅可以提高正则表达式编写和调试的速度,还能加深对正则表达式原理的理解,从而在实际开发工作中游刃有余。

    正则表达式实时测试工具(源码)

    你可以根据自己的需求定制工具,或者研究其内部实现以深入理解正则表达式的工作原理。 在使用正则表达式实时测试工具时,开发者可以遵循以下步骤: 1. 理解正则表达式的基础概念,如字符类(如\d表示数字,\w表示...

    精通正则表达式 中英文

     《精通正则表达式(第3版)》,以明晰轻松的笔调向程序员深入浅出地讲解复杂的知识,并给出了现实世界中复杂问题的解决办法,读者能够立刻运用书中丰富的知识,巧妙而高效地解决各种问题。 此书为英文版,因为中文...

    [精通正则表达式(第三版)].(美)佛瑞德.扫描版(modify).pdf

    1. 正则表达式基础:介绍正则表达式的基本概念、构成元素,以及如何编写简单正则表达式进行基本的文本匹配。 2. 元字符和模式:深入讲解各种元字符的用法和它们在构建复杂模式时的组合方式,包括字符类、量词、边界...

    php正则表达式手册

    参考文献部分则为学习者提供了扩展阅读材料,以便更深入地理解正则表达式的原理和应用。有了这些基础知识,学习者可以更好地理解正则表达式在不同编程环境和应用软件中的作用,包括其在PHP中的运用。在PHP中,正则...

    正则表达式分析工具V2.0

    1. **测试面板**:提供一个输入框让用户输入正则表达式和测试文本,然后显示匹配的结果,方便用户实时查看表达式的匹配情况。 2. **解释器**:将用户输入的正则表达式分解并解释每个部分的含义,帮助用户理解其工作...

    易语言正则表达式调试工具

    此调试工具的源码对易语言学习者来说是一份宝贵的资源,他们可以通过阅读和分析源码,深入理解正则表达式的实现原理,提升自己的编程技能。 在使用易语言正则表达式调试工具时,开发者需要注意以下几点: 1. **...

    最小的C++正则表达式库

    首先,让我们深入理解C++正则表达式库的核心特性。正则表达式库通常是C++标准库的一个扩展,提供了一种编程接口,使得程序员可以方便地在代码中使用正则表达式。这款小型库虽然体积小,但功能却不容小觑,它支持各种...

Global site tag (gtag.js) - Google Analytics