摘抄:
str = str.replaceAll("[\\pP‘’“”]", "");
Unicode 编码并不只是为某个字符简单定义了一个编码,而且还将其进行了归类。
\pP 其中的小写 p 是 property 的意思,表示 Unicode 属性,用于 Unicode 正表达式的前缀。
大写 P 表示 Unicode 字符集七个字符属性之一:标点字符。
其他六个是
L:字母;
M:标记符号(一般不会单独出现);
Z:分隔符(比如空格、换行等);
S:符号(比如数学符号、货币符号等);
N:数字(比如阿拉伯数字、罗马数字等);
C:其他字符
上面这七个是属性,七个属性下还有若干个子属性,用于更进一步地进行细分。
Java 中用于 Unicode 的正则表达式数据都是由 Unicode 组织提供的。
Unicode 正则表达式标准(可以找到所有的子属性)
http://www.unicode.org/reports/tr18/
各 Unicode 字符属性的定义,可以用一看看某个字符具有什么属性。
http://www.unicode.org/Public/UNIDATA/UnicodeData.txt
这个文本文档一行是一个字符,第一列是 Unicode 编码,第二列是字符名,第三列是 Unicode 属性, 以及其他一些字符信息。
分享到:
相关推荐
本文将深入探讨易语言中的正则表达式匹配中文的原理、方法以及应用。 正则表达式(Regular Expression)是一种模式匹配的语言,用于描述一种字符串的集合。在易语言中,我们可以通过内置的字符串函数来实现正则...
根据题目描述,我们需要构建一个正则表达式来匹配一段字符串,该字符串除了允许出现特定字符(例如下划线 `_`)之外,不允许包含任何其他特殊字符。这里的“特殊字符”通常指的是那些不在字母数字字符集范围内的符号...
此正则表达式用于匹配任何非空字符串,至少包含一个或多个字符。 #### 2. **电子邮件格式验证** ```regex Email:/^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$/ ``` 该正则表达式用于验证标准的电子邮件地址格式...
正则表达式(Regular Expression,简称regex)是一种强大的文本处理工具,用于匹配、查找、替换或提取特定模式的字符串。RegexTest.exe 是一个专门用于测试和解析正则表达式的应用程序,它可以帮助用户理解和调试...
在IT领域,正则表达式(Regular Expression)是一种强大的文本处理工具,用于匹配、查找、替换等操作。在本示例中,我们将讨论如何利用正则表达式来检测字符串中重复出现的词。这个功能在数据清洗、文本分析、日志...
正则表达式是一种强大的文本处理工具,用于模式匹配、搜索、替换等操作,在软件开发、数据处理、网络爬虫等领域有着广泛的应用。在项目中直接使用正则表达式可以极大地提高代码的效率和可读性。以下是对给定文件中的...
1. 字符:正则表达式可以直接包含字母、数字、标点符号等基本字符,用于精确匹配这些字符。 2. 通配符: - `.`:匹配任意单个字符,除了换行符。 - `*`:匹配前面的字符0次或无限次。 - `+`:匹配前面的字符1次或...
题目要求使用正则表达式来匹配只包含中文、数字、字母以及下划线的字符串。这里涉及到的具体知识点包括: 1. **中文字符的匹配**:在Unicode编码中,中文字符通常位于`\u4e00`到`\u9fa5`之间。因此,要匹配一个中文...
正则表达式的语法包括基本字符(如字母、数字、标点符号)、元字符(如.、^、$、*、+、?、|、(、)、\[、\]、\{、\}、\)、预定义字符类(如\d、\D、\s、\S、\w、\W)以及量词(如*、+、?、{n}、{n,}、{n,m})。通过...
正则表达式由基本字符和特殊字符组成,基本字符包括字母、数字和标点符号,特殊字符则具有特定含义,如"."代表任意字符,"*"表示前面的字符可以重复任意次数,"+"表示至少重复一次,"?"表示前面的字符可以出现零次或...
在正则表达式中,许多标点符号都有特殊的含义,可以用反斜杠 (\) 开头的转义序列来表示某些非字母字符。 字符类是将单独的直接符放进中括号内就可以组合成字符类。一个字符类和它所包含的任何一个字符都匹配。另外...
- **量词**:量词用于控制正则表达式匹配的次数,例如 `{n}`, `{n,}`, `{n,m}`。 - **预查和回顾**:非捕获性断言 `(?!...)` 和 `(?>...)` 用于检查是否满足某些条件而不实际捕获任何文本。 - **分组与引用**:通过...
这包括所有的大写和小写字母字符,所有数字,所有标点符号以及一些符号。 * 非打印字符:\cx 匹配由 x 指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。 * 特殊字符:所谓特殊字符,就是一些有特殊含义的...
常用字符集包括数字、字母、标点符号等。 2.2.4 数量词 数量词包括贪婪模式、非贪婪模式和独占模式等。 2.2.5 边界匹配器 边界匹配器包括单词边界、行的开始或结束等。 2.2.6 逻辑、分组 逻辑、分组包括捕获组、...
- 普通字符:在正则表达式中,字母、数字、汉字、下划线以及其他未被赋予特殊意义的标点符号被视为普通字符。它们会匹配输入字符串中的相应字符。 - 转义字符:某些难以直接书写的字符,如回车(\r)、换行(\n)、...
正则表达式(Regular Expression,简称regex)是一种强大的文本处理工具,用于匹配、查找、替换等操作。在编程和数据分析领域,正则表达式扮演着不可或缺的角色。它通过使用特定的字符模式,能够高效地处理字符串,...
#### 八、正则表达式匹配规则 1. **基本模式匹配**:如`cat`,匹配字符串中的“cat”。 2. **字符簇**:如`[aeiou]`,匹配字符串中的任一元音字母。 3. **确定重复出现**:如`a{2,5}`,匹配连续出现2到5次的字母“a...
1. **文本预处理**:在分析之前,文本通常需要进行预处理,包括去除标点符号、停用词(如“the”、“is”等常见词)以及词干提取,以便更好地提取关键信息。 2. **正则表达式构建器**:程序可能提供一个界面,让...