`
唐美好
  • 浏览: 44463 次
  • 性别: Icon_minigender_1
  • 来自: 湖南永州
社区版块
存档分类
最新评论

Python之re模块 —— 正则表达式操作[原创]

 
阅读更多
这个模块提供了与 Perl 相似l的正则表达式匹配操作。Unicode字符串也同样适用。

 

正则表达式使用反斜杠" \ "来代表特殊形式或用作转义字符,这里跟Python的语法冲突,因此,Python用" \\\\ "表示正则表达式中的" \ ",因为正则表达式中如果要匹配" \ ",需要用\来转义,变成" \\ ",而Python语法中又需要对字符串中每一个\进行转义,所以就变成了" \\\\ "。

 

上面的写法是不是觉得很麻烦,为了使正则表达式具有更好的可读性,Python特别设计了原始字符串(raw string),需要提醒你的是,在写文件路径的时候就不要使用raw string了,这里存在陷阱。raw string就是用'r'作为字符串的前缀,如 r"\n":表示两个字符"\"和"n",而不是换行符了。Python中写正则表达式时推荐使用这种形式。

 

绝大多数正则表达式操作与 模块级函数或RegexObject方法 一样都能达到同样的目的。而且不需要你一开始就编译正则表达式对象,但是不能使用一些实用的微调参数。

 
1.正则表达式语法

        为了节省篇幅,这里不再叙述了。

 
2.martch和search的区别

        Python提供了两种不同的原始操作:match和search。match是从字符串的起点开始做匹配,而search(perl默认)是从字符串做任意匹配。

 

        注意:当正则表达式是' ^ '开头时,match与search是相同的。match只有当且仅当被匹配的字符串开头就能匹配 或 从pos参数的位置开始就能匹配 时才会成功。如下:

>>> import re
>>> re.match("c", "abcdef")
>>> re.search("c","abcdef")
<_sre.SRE_Match object at 0x00A9A988>

>>> re.match("c", "cabcdef")
<_sre.SRE_Match object at 0x00A9AB80>

>>> re.search("c","cabcdef")
<_sre.SRE_Match object at 0x00AF1720>

>>> patterm = re.compile("c")
>>> patterm.match("abcdef")
>>> patterm.match("abcdef",1)
>>> patterm.match("abcdef",2)
<_sre.SRE_Match object at 0x00A9AB80>
3.模块内容
re.compile(pattern, flags=0)

 

编译正则表达式,返回RegexObject对象,然后可以通过RegexObject对象调用match()和search()方法。

 

prog = re.compile(pattern)

result = prog.match(string)

跟

result = re.match(pattern, string)

是等价的。

 

第一种方式能实现正则表达式的重用。

 
re.search(pattern, string, flags=0)

 

在字符串中查找,是否能匹配正则表达式。返回_sre.SRE_Match对象,如果不能匹配返回None。

 
re.match(pattern, string, flags=0)

 

字符串的开头是否能匹配正则表达式。返回_sre.SRE_Match对象,如果不能匹配返回None。

 
re.split(pattern, string, maxsplit=0)

 

通过正则表达式将字符串分离。如果用括号将正则表达式括起来,那么匹配的字符串也会被列入到list中返回。maxsplit是分离的次数,maxsplit=1分离一次,默认为0,不限制次数。

>>> re.split('\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split('(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split('\W+', 'Words, words, words.', 1)
['Words', 'words, words.']
>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)

 

注意:我使用的Python是2.6,查看源代码发现split()并没有flags的参数,2.7才增加。这种问题我发现不止一次了,官方的文档 跟 源码不一致的现象,如果发现异常,应该去源码中找找原因。

 

如果在字符串的开始或结尾就匹配,返回的list将会以空串开始或结尾。

>>> re.split('(\W+)', '...words, words...')
['', '...', 'words', ', ', 'words', '...', '']

 

如果字符串不能匹配,将会返回整个字符串的list。

>>> re.split("a","bbb")
['bbb']

 
re.findall(pattern, string, flags=0)

 

找到 RE 匹配的所有子串,并把它们作为一个列表返回。这个匹配是从左到右有序地返回。如果无匹配,返回空列表。

>>> re.findall("a","bcdef")
[]

>>> re.findall(r"\d+","12a32bc43jf3")
['12', '32', '43', '3']

 
re.finditer(pattern, string, flags=0)

 

找到 RE 匹配的所有子串,并把它们作为一个迭代器返回。这个匹配是从左到右有序地返回。如果无匹配,返回空列表。

>>> it = re.finditer(r"\d+","12a32bc43jf3")
>>> for match in it:
              print match.group()

12
32
43
3

 
re.sub(pattern, repl, string, count=0, flags=0)

 

找到 RE 匹配的所有子串,并将其用一个不同的字符串替换。可选参数 count 是模式匹配後替换的最大次数;count 必须是非负整数。缺省值是 0 表示替换所有的匹配。如果无匹配,字符串将会无改变地返回。

 
re.subn(pattern, repl, string, count=0, flags=0)
 

与re.sub方法作用一样,但返回的是包含新字符串和替换执行次数的两元组。

 
re.escape(string)

 

对字符串中的非字母数字进行转义

 
re.purge()

 

清空缓存中的正则表达式

 
4.正则表达式对象

 
re.RegexObject

 

re.compile()返回RegexObject对象

 
re.MatchObject

 

group()返回被 RE 匹配的字符串

start()返回匹配开始的位置

end()返回匹配结束的位置

span()返回一个元组包含匹配 (开始,结束) 的位置

 
5.编译标志

编译标志让你可以修改正则表达式的一些运行方式。在 re 模块中标志可以使用两个名字,一个是全名如 IGNORECASE,一个是缩写,一字母形式如 I。(如果你熟悉 Perl 的模式修改,一字母形式使用同样的字母;例如 re.VERBOSE的缩写形式是 re.X。)多个标志可以通过按位 OR-ing 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志:

I
IGNORECASE

使匹配对大小写不敏感;字符类和字符串匹配字母时忽略大小写。举个例子,[A-Z]也可以匹配小写字母,Spam 可以匹配 "Spam", "spam", 或 "spAM"。这个小写字母并不考虑当前位置。

L
LOCALE

影响 "w, "W, "b, 和 "B,这取决于当前的本地化设置。

locales 是 C 语言库中的一项功能,是用来为需要考虑不同语言的编程提供帮助的。举个例子,如果你正在处理法文文本,你想用 "w+ 来匹配文字,但 "w 只匹配字符类 [A-Za-z];它并不能匹配 "é" 或 "?"。如果你的系统配置适当且本地化设置为法语,那么内部的 C 函数将告诉程序 "é" 也应该被认为是一个字母。当在编译正则表达式时使用 LOCALE 标志会得到用这些 C 函数来处理 "w 後的编译对象;这会更慢,但也会象你希望的那样可以用 "w+ 来匹配法文文本。

M
MULTILINE

(此时 ^ 和 $ 不会被解释; 它们将在 4.1 节被介绍.)

使用 "^" 只匹配字符串的开始,而 $ 则只匹配字符串的结尾和直接在换行前(如果有的话)的字符串结尾。当本标志指定後, "^" 匹配字符串的开始和字符串中每行的开始。同样的, $ 元字符匹配字符串结尾和字符串中每行的结尾(直接在每个换行之前)。

S
DOTALL

使 "." 特殊字符完全匹配任何字符,包括换行;没有这个标志, "." 匹配除了换行外的任何字符。

X
VERBOSE

该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。当该标志被指定时,在 RE 字符串中的空白符被忽略,除非该空白符在字符类中或在反斜杠之後;这可以让你更清晰地组织和缩进 RE。它也可以允许你将注释写入 RE,这些注释会被引擎忽略;注释用 "#"号 来标识,不过该符号不能在字符串或反斜杠之後。

 
分享到:
评论

相关推荐

    python专题——正则表达式[整理].pdf

    正则表达式在Python中通过`re`模块提供支持,可以使用`re.compile()`函数编译正则表达式,然后调用其方法如`match()`, `search()`, `findall()`, `sub()`等进行操作。理解并熟练掌握正则表达式能极大地提高处理文本...

    Python程序员必会的正则表达式

    "Python程序员必会的正则表达式" ...正则表达式是一种非常强大的工具,Python 语言通过 re 模块提供了对正则表达式的支持,Python 程序员需要熟练掌握正则表达式的使用,以便更好地处理字符串操作。

    Python-PythonCreateReProjectpython自动生成正则表达式项目

    2. **Python的re模块**:Python内置的re模块提供了正则表达式的操作函数,如`match`、`search`、`findall`、`sub`等,了解这些函数的用法对于使用本项目至关重要。 3. **逆向生成正则表达式**:这个项目的核心算法...

    【python】——正则表达式(csdn)————程序.pdf

    在Python中,正则表达式的功能是通过`re`模块提供的。下面将详细介绍正则表达式的一些核心概念和常用方法。 一、正则表达式--元字符 1. **数量词**: - `{m,n}`:表示前面的字符必须出现m到n次。 - `*`:匹配...

    Python编程快速上手——正则表达式查找功能案例分析

    re模块是Python中用于支持正则表达式操作的库。它包含编译正则表达式对象、搜索匹配字符串、分组和替换等功能。在这个例子中,我们使用了re模块的compile方法来创建一个正则表达式对象,该对象被用来搜索文本行。 ...

    正则表达式系统教程——学习正则的最简单的教程

    在实际应用中,我们会结合编程语言的函数或方法使用正则表达式,例如Python的`re`模块,JavaScript的`match`、`search`和`replace`等。在这些函数中,你可以指定正则表达式,并指定是否区分大小写,是否全局搜索,...

    Python基础——正则表达式

    在Python中,正则表达式的操作主要依赖于`re`模块。 2. **单匹配** Python的`in`关键字可以进行简单的字符串匹配,但正则表达式提供了更强大的功能。例如,`re.search()`函数可以查找字符串中是否存在指定模式。...

    regexp正则表达式正则表达式正则表达式

    - **Python**:Python 中的 `re` 模块提供了正则表达式的功能。 - **JavaScript**:JavaScript 也内置了正则表达式的支持。 - **grep/egrep**:Unix/Linux 下的命令行工具,用于在文件中搜索匹配正则表达式的行。 #...

    Python正则表达式re模块简明笔记.docx

    #### Python中的正则表达式模块——re模块 在Python中,处理正则表达式的标准库是`re`模块。该模块提供了丰富的功能来创建和操作正则表达式,包括模式的编译、搜索、替换等。 ##### re模块的核心概念与功能 - **...

    余晟_实战正则表达式

    例如,Python中的`re`模块,JavaScript的`match()`、`test()`、`replace()`等函数,都是用来处理正则表达式的。 实战正则表达式第2讲可能涵盖了更复杂的正则表达式构造,如环视(lookaround)——前瞻断言...

    xregex正则表达式查找

    在"xregex正则表达式查找"这个主题中,可能涉及到如何在特定的编程语言(如Python的`re`模块,JavaScript的`RegExp`对象等)中使用正则表达式的具体语法和方法,例如`search()`、`match()`、`findall()`等。...

    精通正则表达式(2014最新版)

    8. **高级应用**:如在搜索替换中的使用,以及在各种编程语言中的集成,例如Python的re模块,JavaScript的match、search和replace方法。 9. **实践案例**:书中会提供丰富的实战例子,帮助读者将理论知识转化为实际...

    正则表达式经典实例

    本文将通过一个具体的例子——重复网址的匹配,来深入探讨正则表达式的使用方法。 #### 二、正则表达式基础 在正式开始之前,我们先简要回顾一下正则表达式的基础概念和语法: 1. **字符集**:如 `[abc]` 表示...

    python之re模块使用(csdn)————程序.pdf

    Python语言中的re模块是处理正则表达式的核心模块,提供了多种方法来实现字符串匹配、搜索、替换等操作。本文将详细介绍re模块的使用方法和示例代码。 1. re.findall() 方法 re.findall() 方法用于查找所有符合...

    第11.5节 Python正则表达式搜索任意字符匹配及元字符“.”(点)功能介绍.rar

    Python通过`re`模块提供对正则表达式的支持,可以实现查找、替换、分割等操作。要使用正则表达式,首先需要导入`re`模块: ```python import re ``` 二、任意字符匹配——元字符"." 元字符“.”(点)在正则表达式...

    Python编程快速上手——strip()函数的正则表达式实现方法分析

    代码实现方面,可以使用Python的re模块来创建和操作正则表达式对象。re模块提供的compile()函数可以编译一个正则表达式,而sub()函数则用于替换字符串中的内容。在创建正则表达式对象时,可以利用format()方法来动态...

    正则表达式

    例如,在Python中,可以使用`re`模块进行正则操作;在JavaScript中,正则表达式是内建的,可以直接在字符串中使用。了解并熟练掌握正则表达式对于任何IT从业者来说都是一个重要的技能,无论是在日志分析、数据清洗...

    详解python里使用正则表达式的全匹配功能

    Python的`re`模块提供了几个核心的函数用于正则表达式的匹配操作: 1. `re.search(pattern, string, flags=0)`:搜索整个字符串,找到第一个与模式`pattern`匹配的部分,并返回相应的`Match`对象;如果搜索失败,则...

Global site tag (gtag.js) - Google Analytics