`

常用正则表达式收集记录

阅读更多

转自:http://hi.baidu.com/tiankui6658/blog/item/aedc30ed0e1287dfb31cb1b1.html

 

^\d+$  //匹配非负整数(正整数 + 0)
^[0-9]*[1-9][0-9]*$  //匹配正整数
^((-\d+)|(0+))$  //匹配非正整数(负整数 + 0)
^-[0-9]*[1-9][0-9]*$  //匹配负整数
^-?\d+$    //匹配整数
^\d+(\.\d+)?$  //匹配非负浮点数(正浮点数 + 0)
^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$  //匹配正浮点数
^((-\d+(\.\d+)?)|(0+(\.0+)?))$  //匹配非正浮点数(负浮点数 + 0)
^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$  //匹配负浮点数
^(-?\d+)(\.\d+)?$  //匹配浮点数
^[A-Za-z]+$  //匹配由26个英文字母组成的字符串
^[A-Z]+$  //匹配由26个英文字母的大写组成的字符串
^[a-z]+$  //匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$  //匹配由数字和26个英文字母组成的字符串
^\w+$  //匹配由数字、26个英文字母或者下划线组成的字符串
^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$    //匹配email地址
^[a-zA-z]+://匹配(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$  //匹配url

 

匹配中文字符的正则表达式: [\u4e00-\u9fa5]
匹配双字节字符(包括汉字在内):[^\x00-\xff]
匹配空行的正则表达式:\n[\s| ]*\r
匹配HTML标记的正则表达式:/<(.*)>.*<\/>|<(.*) \/>/
匹配首尾空格的正则表达式:(^\s*)|(\s*$)
匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
匹配网址URL的正则表达式:^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$
匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
匹配国内电话号码:(\d{3}-|\d{4}-)?(\d{8}|\d{7})?
匹配腾讯QQ号:^[1-9]*[1-9][0-9]*$

匹配任意字符、包括换行符: ([\s\S]*)


下表是元字符及其在正则表达式上下文中的行为的一个完整列表:
\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。
^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的Multiline 属性,^ 也匹配 ’\n’ 或 ’\r’ 之后的位置。
$ 匹配输入字符串的结束位置。如果设置了 RegExp 对象的Multiline 属性,$ 也匹配 ’\n’ 或 ’\r’ 之前的位置。
* 匹配前面的子表达式零次或多次。
+ 匹配前面的子表达式一次或多次。+ 等价于 {1,}。
? 匹配前面的子表达式零次或一次。? 等价于 {0,1}。
{n} n 是一个非负整数,匹配确定的n 次。
{n,} n 是一个非负整数,至少匹配n 次。
{n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。在逗号和两个数之间不能有空格。
? 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。
. 匹配除 “\n” 之外的任何单个字符。要匹配包括 ’\n’ 在内的任何字符,请使用象 ’[.\n]’ 的模式。
(pattern) 匹配pattern 并获取这一匹配。
(?:pattern) 匹配pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。
(?=pattern) 正向预查,在任何匹配 pattern 的字 即ζヅ洳檎易址 U馐且桓龇腔袢∑ヅ洌 簿褪撬担 闷ヅ洳恍枰 袢」┮院笫褂谩?
(?!pattern) 负向预查,与(?=pattern)作用相反
x|y 匹配 x 或 y。
[xyz] 字符集合。
[^xyz] 负值字符集合。
[a-z] 字符范围,匹配指定范围内的任意字符。
[^a-z] 负值字符范围,匹配任何不在指定范围内的任意字符。
\b 匹配一个单词边界,也就是指单词和空格间的位置。
\B 匹配非单词边界。
\cx 匹配由x指明的控制字符。
\d 匹配一个数字字符。等价于 [0-9]。

\D 匹配一个非数字字符。等价于 [^0-9]。
\f 匹配一个换页符。等价于 \x0c 和 \cL。
\n 匹配一个换行符。等价于 \x0a 和 \cJ。
\r 匹配一个回车符。等价于 \x0d 和 \cM。
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t 匹配一个制表符。等价于 \x09 和 \cI。
\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w 匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]’。
\W 匹配任何非单词字符。等价于 ’[^A-Za-z0-9_]’。
\xn 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。
\num 匹配 num,其中num是一个正整数。对所获取的匹配的引用。
\n 标识一个八进制转义值或一个后向引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为后向引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。
\nm 标识一个八进制转义值或一个后向引用。如果 \nm 之前至少有is preceded by at least nm 个获取得子表达式,则 nm 为后向引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的后向引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。

 

分享到:
评论

相关推荐

    常用正则表达式下载,正则式的使用

    #### 二、常用正则表达式示例解析 ##### 1. 数字匹配 **表达式**: `^[0-9]*$` **描述**: 匹配任意数量的数字(包括零个)。 **应用场景**: 检查输入是否全部由数字组成。 ##### 2. 指定位数数字 **表达式**: `^\d{...

    常用的正则表达式

    ### 常用的正则表达式 在日常开发工作中,正则表达式的应用非常广泛,无论是表单验证、文本处理还是数据清洗等场景都离不开它。以下将详细介绍部分常用的正则表达式及其应用场景。 #### 1. 匹配中文字符 **正则...

    正则表达式

    由于某些字符类非常常用,所以JavaScript的正则表达式语法包含一些特殊字符和转义序列来表示这些常用的类.例如, \s 匹配的是空格符,制表符和其它空白符, \s 匹配的则是空白符之外的任何字符. 正则表灰式的字符类 ...

    常用正则表达式收集

    经常对小的知识点进行整理,有助于知识的积累,加深知识点印象,今天小编就为大家整理了一些关于ASP.NET的常用正则表达式,觉得还不错的朋友记录下来。 整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$ 只能输入数字:”^...

    收集整理项目中常用到的正则表达式

    最近做的一个内部系统项目,涉及大量的文本校验,里面用到了一些常用的正则表达式,收集不易,先记录在此,以备后用。 匹配中文字符的正则表达式: [\u4e00-\u9fa5] 匹配双字节字符(包括汉字在内):[^\x00-\xff] ...

    百度知道采集

    综上所述,百度知道采集程序是一个利用正则表达式进行数据抓取的工具,它能够帮助用户快速收集和搜索百度知道平台上的问答信息。结合精易模块,程序可以实现高效的网络交互和数据处理,对于需要大量百度知道数据的...

    一些常用的shell命令

    本文将详细介绍一些常用的 shell 命令,包括系统资源监测命令 sar、正则表达式、文件处理命令 awk 等。 系统资源监测命令 sar sar 命令是用来收集系统统计信息的标准 UNIX 命令,sar 命令的选项很多,可以提供队列...

    数据抓包工具,可以抓取大众点评的所有数据

    5. **使用正则表达式**:正则表达式(Regex)是处理字符串的强大工具,用于在大量文本中查找、替换或提取模式。在抓包工具中,你可以使用内置的搜索功能配合正则表达式来快速定位和提取所需数据。 6. **数据存储和...

    QT知识总结

    5. **常用正则表达式.docx**: 正则表达式是用于匹配字符串的强大工具,在QT中,可以使用QRegExp或QRegularExpression类来实现。文档可能涵盖了常用的正则表达式模式和使用示例,对于数据验证、文本处理等场景非常...

    ip提取器 提取ip

    正则表达式是最常用的方法,因为它能够灵活地匹配和捕获符合特定模式的IP地址。例如,一个简单的正则表达式如"\b((25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b"就可以...

    网页邮箱地址搜索提取

    例如,使用正则表达式`\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b`可以匹配大多数常见的邮箱地址格式。 对于简体、繁体和英文版的处理,这意味着程序需要具备多语言支持。这意味着不仅需要处理ASCII字符...

    网页设计的课件(js)

    学习者将掌握正则表达式的语法、特殊字符和常用构造,提升文本处理能力。 事件处理.ppt:事件处理是JavaScript与用户交互的关键,课程可能包括点击事件、鼠标移动事件、键盘事件等,以及如何绑定和解绑事件监听器。...

    网址采集提取器

    1. **正则表达式**:正则表达式是网址采集中常用的工具,用于定义匹配特定网址模式的规则。用户可以通过编写正则表达式,只采集符合特定格式的网址。 2. **HTML解析**:采集器通常会解析网页的HTML结构,通过CSS...

    新闻列表数据采集器 下载

    3. **正则表达式与XPath**:在复杂的情况下,可能需要结合正则表达式或XPath来精确匹配数据。正则表达式用于处理字符串,XPath则在XML或HTML文档中查找节点。它们可以帮助我们从混乱的HTML代码中提取出结构化的数据...

    日志文件解析code

    3. **正则表达式**:在解析文本日志时,正则表达式(Regular Expression)是常用工具,它可以用来匹配和提取特定模式的数据,例如时间戳、特定的关键词或ID。 4. **编程语言支持**:许多编程语言都有现成的日志解析...

    Ruby on Rail 基础知识 一张纸

    正则表达式在Ruby on Rails中用于模式匹配和文本处理,以下是一些常用的正则表达式符号: - `^`: 表示字符串的开始。 - `$`: 表示字符串的结束。 - `.`: 匹配任何单个字符。 - `(a|b)`: 表示a或b。 - `()`: 表示一个...

    外贸必备—自动获取网站邮箱

    首先,它能够自动抓取网页上的电子邮件地址,这可能通过网页爬虫技术实现,利用正则表达式识别出符合电子邮件格式的字符串。其次,这个工具可以将获取到的邮箱地址自动复制,避免了用户手动操作的繁琐。最后,它会把...

    记录我写过的爬虫案例.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    个人python爬虫的学习和实践记录.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    个人各种网站爬虫记录,包括(b站).zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

Global site tag (gtag.js) - Google Analytics