`
itace
  • 浏览: 181237 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

正则表达式unicode

 
阅读更多

转:http://qixuejia.cnblogs.com/

 

Unicode 编码并不只是为某个字符简单定义了一个编码,而且还将其进行了归类。 

\pP 其中的小写 p 是 property 的意思,表示 Unicode 属性,用于 Unicode 正表达式的前缀。 

大写 P 表示 Unicode 字符集七个字符属性之一:标点字符。 

其他六个是 

L:字母; 
M:标记符号(一般不会单独出现); 
Z:分隔符(比如空格、换行等); 
S:符号(比如数学符号、货币符号等); 
N:数字(比如阿拉伯数字、罗马数字等); 
C:其他字符 

上面这七个是属性,七个属性下还有若干个子属性,用于更进一步地进行细分。 

Java 中用于 Unicode 的正则表达式数据都是由 Unicode 组织提供的。 

Unicode 正则表达式标准(可以找到所有的子属性) 
http://www.unicode.org/reports/tr18/ 

各 Unicode 字符属性的定义,可以用一看看某个字符具有什么属性。 
http://www.unicode.org/Public/UNIDATA/UnicodeData.txt 

这个文本文档一行是一个字符,第一列是 Unicode 编码,第二列是字符名,第三列是 Unicode 属性, 
以及其他一些字符信息。

 

类别

说明

Lu

字母,大写

Ll

字母,小写

Lt

字母,首字母大写

Lm

字母,修饰符

Lo

字母,其他

L

所有字母字符。 这包括 Lu、Ll、Lt、Lm 和 Lo 字符。

Mn

标记,非间距

Mc

标记,间距组合

Me

标记,封闭

M

所有音调符号标记。 这包括 Mn、Mc 和 Me 类别。

Nd

数字,十进制数

Nl

数字,字母

No

数字,其他

N

所有数字。 这包括 Nd、Nl 和 No 类别。

Pc

标点,连接符

Pd

标点,短划线

Ps

标点,开始

Pe

标点,结束

Pi

标点,前引号(根据具体使用情况,作用可能像 Ps 或 Pe)

Pf

标点,后引号(根据具体使用情况,作用可能像 Ps 或 Pe)

Po

标点,其他

P

所有标点字符。 这包括 Pc、Pd、Ps, Pe、Pi、Pf 和 Po 类别。

Sm

符号,数学

Sc

符号,货币

Sk

符号,修饰符

So

符号,其他

S

所有符号。 这包括 Sm、Sc、Sk 和 So 类别。

Zs

分隔符,空白

Zl

分隔符,行

Zp

分隔符,段落

Z

所有分隔符字符。 这包括 Zs、Zl 和 Zp 类别。

Cc

其他,控制

Cf

其他,格式

Cs

其他,代理项

Co

其他,私用

Cn

其他,未赋值(任何字符都不具有此属性)

C

所有控制字符。 这包括 Cc、Cf、Cs、Co 和 Cn

分享到:
评论

相关推荐

    PB实现的正则表达式

    在IT领域,正则表达式(Regular Expression,简称regex)是一种强大的文本处理工具,它能够进行复杂的模式匹配、查找、替换等操作。在本话题中,我们将探讨如何使用PowerBuilder 11.5这一经典的开发环境来实现正则...

    正则表达式(Deelx版)|正则表达式(Deelx版)支持库

    正则表达式(Deelx版)是一种强大的文本处理工具,它允许程序员和用户通过预定义的模式来匹配、查找、替换或者分析字符串。Deelx版是专门为提高正则表达式性能和功能而设计的一个支持库,适用于各种编程语言和应用场景...

    C语言正则表达式库

    C语言正则表达式库是用于在C编程环境中处理和匹配正则表达式的软件库。这个库名为PCRE(Perl Compatible Regular Expressions),正如其名,它与Perl语言中的正则表达式语法高度兼容,提供了丰富的功能和强大的匹配...

    正则表达式大全 - 收集的最常用正则表达式

    正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串。它通过预定义的模式来识别和操作字符串中的数据。以下是一些常见的正则表达式及其用途: 1. 匹配中文字符:`[u4e00-u9fa5]` - 这个正则...

    正则表达式生成工具,正则表达式生成工具

    正则表达式(Regular Expression,简称regex)是一种用于匹配字符串的强大工具,广泛应用于文本处理、数据验证、搜索和替换等场景。在编程语言中,正则表达式通常以字符串的形式存在,通过特定的语法和模式来定义...

    正则表达式大全.docx

    8. Unicode汉字范围:`/^[u4e00-u9fa5],{0,}$/` 和匹配中文字符的正则表达式:`[\u4e00-\u9fa5]` - 这两个正则表达式用于检测字符串中是否包含中文字符。 9. 匹配双字节字符:`[^\x00-\xff]` - 用于识别多字节字符...

    易语言正则表达式匹配中文

    在易语言中,正则表达式是进行文本处理、数据提取和搜索的关键工具,尤其在处理中文字符时显得尤为重要。本文将深入探讨易语言中的正则表达式匹配中文的原理、方法以及应用。 正则表达式(Regular Expression)是一...

    正则表达式不包涵特殊字符(除了 指定字符 以外)

    在探讨如何利用正则表达式来判断一个字符串除指定字符外不包含其他特殊字符之前,我们首先需要了解正则表达式的基本概念以及本场景中的具体需求。 ### 正则表达式简介 正则表达式是一种强大的文本处理工具,能够...

    正则表达式只可以输入只允许输入中文、数字、字母、下划线

    ### 正则表达式知识点详解 #### 一、正则表达式基础介绍 正则表达式(Regular Expression)是一种强大的文本处理工具,在编程语言中被广泛应用于字符串的搜索与替换等操作。它能够帮助开发者快速定位、提取或验证...

    Oracle中的正则表达式

    "Oracle中的正则表达式" Oracle中的正则表达式是指在Oracle数据库管理系统中使用的正则表达式语言。正则表达式是一种强大的字符串模式匹配语言,可以用来在字符串中搜索、验证、提取和替换文本。Oracle中的正则...

    正则表达式 Java 判断字串是否合理

    根据给定的文件信息,我们可以总结出以下关于Java正则表达式的重要知识点: ### 1. 正则表达式简介 正则表达式是一种强大的文本处理工具,它能够帮助我们匹配、查找、替换等操作符合某种规则的字符串。在Java中,...

    使用正则表达式检测字符串中重复出现的词

    在IT领域,正则表达式(Regular Expression)是一种强大的文本处理工具,用于匹配、查找、替换等操作。在本示例中,我们将讨论如何利用正则表达式来检测字符串中重复出现的词。这个功能在数据清洗、文本分析、日志...

    python正则表达式_深入浅出

    无论是正则表达式本身还是被搜索的字符串,都可以是Unicode字符,这意味着该模块能够很好地处理各种字符集。 #### 二、基本概念与语法 **1. 转义字符** - 正则表达式中使用反斜杠(\)作为转义字符,用于匹配特殊...

    正则表达式(基本包含所有验证的正则)

    ### 正则表达式知识点详解 #### 一、概述 正则表达式是一种强大的文本处理工具,能够帮助我们在文本中进行查找、替换等操作。它通过一系列简短的符号组合来匹配字符串中的某些部分,从而实现高效的数据处理。在本篇...

    正则表达式列举 代码 项目中直接使用

    正则表达式是一种强大的文本处理工具,用于模式匹配、搜索、替换等操作,在软件开发、数据处理、网络爬虫等领域有着广泛的应用。在项目中直接使用正则表达式可以极大地提高代码的效率和可读性。以下是对给定文件中的...

    正则表达式调试工具_RegexDbg_GBK_and_Unicode.7z

    本文将详细介绍RegexDbg这款正则表达式调试工具,以及它在GBK和Unicode编码环境下的应用。 RegexDbg是一款强大的正则表达式调试工具,它提供了可视化的界面和详尽的匹配分析,帮助用户理解复杂的正则表达式行为。...

    Delphi2010正则表达式插件

    《Delphi 2010正则表达式插件详解》 在编程世界中,正则表达式(Regular Expression)是一种强大的文本处理工具,能够帮助开发者高效地进行字符串的匹配、查找、替换等操作。在Delphi 2010这个经典的集成开发环境中...

    Python正则表达式基础

    Python正则表达式基础是学习如何在Python中应用正则表达式的入门指南。正则表达式,或称为REs、regexes、regexpatterns,是能够嵌入到Python中的一个精细、高度专业化的程序语言。通过re模块,程序员得以使用这一...

Global site tag (gtag.js) - Google Analytics