正则表达式是一个字符串,这个字符串可以来描述或者匹配一系列符合某个语法规则的字符串。广泛用于表单验证中,比如匹配ip地址,电子邮箱等。
正则表达式本身具有短小精悍的特点,使用它可以避免编写很多逻辑复杂的代码,以完成某个数据合法性的检测。最近的工作中遇到了很多这种类似的校验,比如时间格式符合”yyyy-MM-dd hh:mm:ss”规格,路径中不能包含特殊字符和中文字符,IP地址校验等等
收集了一些常用的正则表达式,供日常工作中用到时查询。不过还是有空学习一下正则表达式的语法,在遇到新的数据格式需要校验的时候,可以自己动手把表达式写出来。
首先是最近工作中用到的正则表达式:
检测时间格式 yyyy-MM-dd hh:mm:ss 的表达式:
^(((20[0-3][0-9]-(0[13578]|1[02])-(0[1-9]|[12][0-9]|3[01]))|(20[0-3][0-9]-(0[2469]|11)-(0[1-9]|[12][0-9]|30))) (20|21|22|23|[0-1][0-9]):[0-5][0-9]:[0-5][0-9])$
检测合法目录格式:合法的盘符,不包含特殊字符和中文路径
[a-zA-Z]:[/\\\\][\\.\\w\\-_/\\\\]+
检测合法的IP地址:
^((2[0-4]\\d|25[0-5]|[01]?\\d\\d?)\\.){3}(2[0-4]\\d|25[0-5]|[01]?\\d\\d?)$
匹配特定数字:
^[1-9]\d*$ //匹配正整数
^-[1-9]\d*$ //匹配负整数
^-?[1-9]\d*$ //匹配整数
^[1-9]\d*|0$ //匹配非负整数(正整数 + 0)
^-[1-9]\d*|0$ //匹配非正整数(负整数 + 0)
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ //匹配正浮点数
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ //匹配负浮点数
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$ //匹配浮点数
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$ //匹配非负浮点数(正浮点数 + 0)
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$ //匹配非正浮点数(负浮点数 + 0)
评注:处理大量数据时有用,具体应用时注意修正
匹配特定字符串:
^[A-Za-z]+$ //匹配由26个英文字母组成的字符串
^[A-Z]+$ //匹配由26个英文字母的大写组成的字符串
^[a-z]+$ //匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$ //匹配由数字和26个英文字母组成的字符串
^\w+$ //匹配由数字、26个英文字母或者下划线组成的字符串
"^[\\w-]+(\\.[\\w-]+)*@[\\w-]+(\\.[\\w-]+)+___FCKpd___0quot; //email地址
"^[a-zA-z]+://(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?\\S*)?___FCKpd___0quot; //url
匹配中文字符的正则表达式: [\u4e00-\u9fa5]
评注:匹配中文还真是个头疼的事,有了这个表达式就好办了
匹配双字节字符(包括汉字在内):[^\x00-\xff]
评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)
匹配空白行的正则表达式:\n\s*\r
评注:可以用来删除空白行
匹配HTML标记的正则表达式:<(\S*?)[^>]*>.*?|<.*? />
评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力
匹配首尾空白字符的正则表达式:^\s*|\s*$
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式
匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
评注:表单验证时很实用
匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*
评注:网上流传的版本功能很有限,上面这个基本可以满足需求
匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
评注:表单验证时很实用
匹配国内电话号码:\d{3}-\d{8}|\d{4}-\d{7}
评注:匹配形式如 0511-4405222 或 021-87888822
匹配腾讯QQ号:[1-9][0-9]{4,}
评注:腾讯QQ号从10000开始
匹配中国邮政编码:[1-9]\d{5}(?!\d)
评注:中国邮政编码为6位数字
匹配身份证:\d{15}|\d{18}
评注:中国的身份证为15位或18位
匹配ip地址:\d+\.\d+\.\d+\.\d+
评注:提取ip地址时有用
匹配特定数字:
^[1-9]\d*$ //匹配正整数
^-[1-9]\d*$ //匹配负整数
^-?[1-9]\d*$ //匹配整数
^[1-9]\d*|0$ //匹配非负整数(正整数 + 0)
^-[1-9]\d*|0$ //匹配非正整数(负整数 + 0)
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ //匹配正浮点数
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ //匹配负浮点数
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$ //匹配浮点数
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$ //匹配非负浮点数(正浮点数 + 0)
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$ //匹配非正浮点数(负浮点数 + 0)
评注:处理大量数据时有用,具体应用时注意修正
匹配特定字符串:
^[A-Za-z]+$ //匹配由26个英文字母组成的字符串
^[A-Z]+$ //匹配由26个英文字母的大写组成的字符串
^[a-z]+$ //匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$ //匹配由数字和26个英文字母组成的字符串
^\w+$ //匹配由数字、26个英文字母或者下划线组成的字符串
(?:\\w[-._\\w]*\\w@\\w[-._\\w]*\\w\\.\\w{2,3}$) //email地址
package com.ygj.util; import java.util.*; import org.apache.oro.text.regex.*; /** * 类简介: 使用正则表达式验证数据或提取数据,类中的方法全为静态的 * 主要方法:1. isHardRegexpValidate(String source, String regexp) 区分大小写敏感的正规表达式批配 * 2. isSoftRegexpValidate(String source, String regexp) * 不区分大小写的正规表达式批配 * 3. getHardRegexpMatchResult(String source, String regexp) * 返回许要的批配结果集(大小写敏感的正规表达式批配) * 4. getSoftRegexpMatchResult(String source, String regexp) * 返回许要的批配结果集(不区分大小写的正规表达式批配) * 5 getHardRegexpArray(String source, String regexp) * 返回许要的批配结果集(大小写敏感的正规表达式批配) * 6. getSoftRegexpMatchResult(String source, String regexp) * 返回许要的批配结果集(不区分大小写的正规表达式批配) * 7. getBetweenSeparatorStr(final String originStr,final char leftSeparator,final char rightSeparator) * 得到指定分隔符中间的字符串的集合 * * @mail wuzhi2000@hotmail.com * @author ygj * */ public final class Regexp { /** 保放有四组对应分隔符 */ static final Set SEPARATOR_SET=new TreeSet(); { SEPARATOR_SET.add("("); SEPARATOR_SET.add(")"); SEPARATOR_SET.add("["); SEPARATOR_SET.add("]"); SEPARATOR_SET.add("{"); SEPARATOR_SET.add("}"); SEPARATOR_SET.add("<"); SEPARATOR_SET.add(">"); } /** 存放各种正规表达式(以key->value的形式) */ public static HashMap regexpHash = new HashMap(); /** 存放各种正规表达式(以key->value的形式) */ public static List matchingResultList = new ArrayList(); private Regexp() { } /** * 返回 Regexp 实例 * @return */ public static Regexp getInstance() { return new Regexp(); } /** * 匹配图象 * * 格式: /相对路径/文件名.后缀 (后缀为gif,dmp,png) * * 匹配 : /forum/head_icon/admini2005111_ff.gif 或 admini2005111.dmp * * 不匹配: c:/admins4512.gif * */ public static final String icon_regexp = "^(/{0,1}\\w){1,}\\.(gif|dmp|png|jpg)$|^\\w{1,}\\.(gif|dmp|png|jpg)$"; /** * 匹配email地址 * * 格式: XXX@XXX.XXX.XX * * 匹配 : foo@bar.com 或 foobar@foobar.com.au * * 不匹配: foo@bar 或 $$$@bar.com * */ public static final String email_regexp = "(?:\\w[-._\\w]*\\w@\\w[-._\\w]*\\w\\.\\w{2,3}$)"; /** * 匹配匹配并提取url * * 格式: XXXX://XXX.XXX.XXX.XX/XXX.XXX?XXX=XXX * * 匹配 : http://www.suncer.com 或news://www * * 提取(MatchResult matchResult=matcher.getMatch()): * matchResult.group(0)= http://www.suncer.com:8080/index.html?login=true * matchResult.group(1) = http * matchResult.group(2) = www.suncer.com * matchResult.group(3) = :8080 * matchResult.group(4) = /index.html?login=true * * 不匹配: c:\window * */ public static final String url_regexp = "(\\w+)://([^/:]+)(:\\d*)?([^#\\s]*)"; /** * 匹配并提取http * * 格式: http://XXX.XXX.XXX.XX/XXX.XXX?XXX=XXX 或 ftp://XXX.XXX.XXX 或 https://XXX * * 匹配 : http://www.suncer.com:8080/index.html?login=true * * 提取(MatchResult matchResult=matcher.getMatch()): * matchResult.group(0)= http://www.suncer.com:8080/index.html?login=true * matchResult.group(1) = http * matchResult.group(2) = www.suncer.com * matchResult.group(3) = :8080 * matchResult.group(4) = /index.html?login=true * * 不匹配: news://www * */ public static final String http_regexp = "(http|https|ftp)://([^/:]+)(:\\d*)?([^#\\s]*)"; /** * 匹配日期 * * 格式(首位不为0): XXXX-XX-XX 或 XXXX XX XX 或 XXXX-X-X * * 范围:1900--2099 * * 匹配 : 2005-04-04 * * 不匹配: 01-01-01 * */ public static final String date_regexp = "^((((19){1}|(20){1})d{2})|d{2})[-\\s]{1}[01]{1}d{1}[-\\s]{1}[0-3]{1}d{1}$";// 匹配日期 /** * 匹配电话 * * 格式为: 0XXX-XXXXXX(10-13位首位必须为0) 或0XXX XXXXXXX(10-13位首位必须为0) 或 * (0XXX)XXXXXXXX(11-14位首位必须为0) 或 XXXXXXXX(6-8位首位不为0) 或 * XXXXXXXXXXX(11位首位不为0) * * 匹配 : 0371-123456 或 (0371)1234567 或 (0371)12345678 或 010-123456 或 * 010-12345678 或 12345678912 * * 不匹配: 1111-134355 或 0123456789 * */ public static final String phone_regexp = "^(?:0[0-9]{2,3}[-\\s]{1}|\\(0[0-9]{2,4}\\))[0-9]{6,8}$ |^[1-9]{1}[0-9]{5,7}$|^[1-9]{1}[0-9]{10}$"; /** * 匹配身份证 * * 格式为: XXXXXXXXXX(10位) 或 XXXXXXXXXXXXX(13位) 或 XXXXXXXXXXXXXXX(15位) 或 * XXXXXXXXXXXXXXXXXX(18位) * * 匹配 : 0123456789123 * * 不匹配: 0123456 * */ public static final String ID_card_regexp = "^\\d{10}|\\d{13}|\\d{15}|\\d{18}$"; /** * 匹配邮编代码 * * 格式为: XXXXXX(6位) * * 匹配 : 012345 * * 不匹配: 0123456 * */ public static final String ZIP_regexp = "^[0-9]{6}$";// 匹配邮编代码 /** * 不包括特殊字符的匹配 (字符串中不包括符号 数学次方号^ 单引号' 双引号" 分号; 逗号, 帽号: 数学减号- 右尖括号> 左尖括号< 反斜杠\ 即空格,制表符,回车符等 ) * * 格式为: x 或 一个一上的字符 * * 匹配 : 012345 * * 不匹配: 0123456 * */ public static final String non_special_char_regexp = "^[^'\"\\;,:-<>\\s].+$";// 匹配邮编代码 /** * 匹配非负整数(正整数 + 0) */ public static final String non_negative_integers_regexp = "^\\d+$"; /** * 匹配不包括零的非负整数(正整数 > 0) */ public static final String non_zero_negative_integers_regexp = "^[1-9]+\\d*$"; /** * * 匹配正整数 * */ public static final String positive_integer_regexp = "^[0-9]*[1-9][0-9]*$"; /** * * 匹配非正整数(负整数 + 0) * */ public static final String non_positive_integers_regexp = "^((-\\d+)|(0+))$"; /** * * 匹配负整数 * */ public static final String negative_integers_regexp = "^-[0-9]*[1-9][0-9]*$"; /** * * 匹配整数 * */ public static final String integer_regexp = "^-?\\d+$"; /** * * 匹配非负浮点数(正浮点数 + 0) * */ public static final String non_negative_rational_numbers_regexp = "^\\d+(\\.\\d+)?$"; /** * * 匹配正浮点数 * */ public static final String positive_rational_numbers_regexp = "^(([0-9]+\\.[0-9]*[1-9][0-9]*) |([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*))$"; /** * * 匹配非正浮点数(负浮点数 + 0) * */ public static final String non_positive_rational_numbers_regexp = "^((-\\d+(\\.\\d+)?)|(0+(\\.0+)?))$"; /** * * 匹配负浮点数 * */ public static final String negative_rational_numbers_regexp = "^(-(([0-9]+\\.[0-9]*[1-9][0-9]*) |([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"; /** * * 匹配浮点数 * */ public static final String rational_numbers_regexp = "^(-?\\d+)(\\.\\d+)?$"; /** * * 匹配由26个英文字母组成的字符串 * */ public static final String letter_regexp = "^[A-Za-z]+$"; /** * * 匹配由26个英文字母的大写组成的字符串 * */ public static final String upward_letter_regexp = "^[A-Z]+$"; /** * * 匹配由26个英文字母的小写组成的字符串 * */ public static final String lower_letter_regexp = "^[a-z]+$"; /** * * 匹配由数字和26个英文字母组成的字符串 * */ public static final String letter_number_regexp = "^[A-Za-z0-9]+$"; /** * * 匹配由数字、26个英文字母或者下划线组成的字符串 * */ public static final String letter_number_underline_regexp = "^\\w+$"; /** * 添加正规表达式 (以key->value的形式存储) * * @param regexpName * 该正规表达式名称 ` * @param regexp * 该正规表达式内容 */ public void putRegexpHash(String regexpName, String regexp) { regexpHash.put(regexpName, regexp); } /** * 得到正规表达式内容 (通过key名提取出value[正规表达式内容]) * * @param regexpName * 正规表达式名称 * * @return 正规表达式内容 */ public String getRegexpHash(String regexpName) { if (regexpHash.get(regexpName) != null) { return ((String) regexpHash.get(regexpName)); } else { System.out.println("在regexpHash中没有此正规表达式"); return ""; } } /** * 清除正规表达式存放单元 */ public void clearRegexpHash() { regexpHash.clear(); return; } /** * 大小写敏感的正规表达式批配 * * @param source * 批配的源字符串 * * @param regexp * 批配的正规表达式 * * @return 如果源字符串符合要求返回真,否则返回假 如: Regexp.isHardRegexpValidate("ygj@suncer.com.cn",email_regexp) 返回真 */ public static boolean isHardRegexpValidate(String source, String regexp) { try { // 用于定义正规表达式对象模板类型 PatternCompiler compiler = new Perl5Compiler(); // 正规表达式比较批配对象 PatternMatcher matcher = new Perl5Matcher(); // 实例大小大小写敏感的正规表达式模板 Pattern hardPattern = compiler.compile(regexp); // 返回批配结果 return matcher.contains(source, hardPattern); } catch (MalformedPatternException e) { e.printStackTrace(); } return false; }
相关推荐
通过运行和调试这些代码,你可以加深对Java字符串、正则表达式以及日期时间格式化的理解。 总之,理解和熟练掌握Java中的字符串操作、正则表达式以及日期时间格式化对于任何Java开发者来说都是必不可少的技能。通过...
Java正则表达式匹配工具是IT领域中一种强大的文本处理工具,它利用正则表达式(Regular Expression)的规则来查找、替换或者提取文本中的特定模式。正则表达式是一种特殊的字符序列,能够帮助程序员或者用户高效地...
### Java正则表达式匹配全角空格 在Java编程中,处理字符串是非常常见的需求之一。其中,使用正则表达式来对字符串进行拆分、替换等操作是一种非常高效的方法。本文将详细介绍如何使用Java中的`split()`方法,并...
在Java编程语言中,处理字符串和正则表达式是一项常见的任务。正则表达式是一种强大的文本模式匹配工具,可以用于搜索、替换或者提取符合特定规则的字符串。在本篇文章中,我们将深入探讨如何利用Java中的Xeger和...
Java中提供了对正则表达式的支持,使得开发者可以使用正则表达式来匹配和提取字符串中的内容。 二、XML节点内容提取方法 在Java中,可以使用正则表达式来提取XML节点内容。下面是一个简单的示例: ```java public ...
### Java过滤特殊字符的正则表达式知识点解析 ...总结来说,Java 中的正则表达式是非常有用的工具,它可以帮助我们高效地处理各种字符串相关的任务。掌握正则表达式的使用技巧对于每一个 Java 开发者都是非常重要的。
正则表达式(Regular Expression,简称regex)是用于匹配字符串的一种模式,广泛应用于文本处理、数据验证、数据提取等IT领域。在这个“常用正则表达式HTML,JAVA合集”中,我们主要关注的是HTML和Java环境下的正则...
接着,定义了一个名为`SocialSecurityNumberValidator`的类,在主方法中使用`Pattern.compile`编译正则表达式,并使用`matcher.matches`来检查字符串是否与给定的模式匹配。 通过上述知识点的学习,读者可以了解到...
在探讨如何利用正则表达式来判断一个字符串除指定字符外不包含其他特殊字符之前,我们首先需要了解正则表达式的基本概念以及本场景中的具体需求。 ### 正则表达式简介 正则表达式是一种强大的文本处理工具,能够...
在本教程中,我们将深入探讨如何使用正则表达式来拆分字符串,这对于数据处理和文本分析尤其有用。下面将详细阐述正则表达式的概念、语法以及如何在不同编程语言中实现字符串的拆分。 1. 正则表达式基础 - **模式...
通过本文的学习,我们不仅了解了如何使用 Java 的正则表达式来判断一个字符串中是否包含中文字符,还深入了解了 Java 中正则表达式的相关 API 和基本原理。这对于从事 Java 开发的技术人员来说是非常实用且必要的...
Java正则表达式是Java语言中用于处理字符串的强大工具,它允许程序员进行复杂的字符串匹配、查找和替换操作。正则表达式(Regular Expression)是一种模式匹配语言,通过特定的语法来描述字符串的模式,用于在文本中...
Java正则表达式是Java编程语言中用于处理字符串的强大工具,它基于模式匹配的概念,能够高效地进行文本搜索、替换和解析。在Java中,正则表达式主要通过`java.util.regex`包来实现,提供了Pattern和Matcher两个核心...
例如,你可以创建一个正则表达式对象,然后使用它来测试字符串是否符合特定模式,或者从字符串中提取匹配的子串。 在实际应用中,使用正则表达式可能涉及到以下步骤: 1. 创建正则表达式:定义你要匹配的模式,例如...
正则表达式的作用是将字符串分割成多个小组,并通过这些小组来匹配指定的模式。在Java中,我们可以使用java.util.regex包来使用正则表达式。在这个包中,有两个主要的类:Pattern和Matcher。 Pattern类是正则...
正则表达式(Regular Expression)是一种模式匹配语言,用于在字符串中查找符合特定规则的模式。Java中的正则表达式主要通过`java.util.regex`包中的类来实现,如`Pattern`和`Matcher`。 在日志处理中,我们通常...
其中包括5个类,这5个类的代码基本概括了java正则表达式替换String的多种情况,比如获取某个文件路径中盘符/后边的部分内容,提取"<title>XXXX</title>"中的文字XXXX,用正则表达式获取指定字符串内容中的指定内容,...
在Java编程语言中,正则表达式被广泛应用于数据验证、文本提取和字符串操作。以下是对这些文档标题所涉及的Java正则表达式知识点的详细解释: 1. **正则表达式之道** 这个主题可能涵盖了正则表达式的基础概念,...