`
carvin
  • 浏览: 212905 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【转】正则表达式(三):Unicode诸问题(下)

    博客分类:
  • java
阅读更多

Unicode Code Point

Unicode字符多种多样,除去ascii中的字母、数字、标点和中文字符,还包括其它多种语言和多种符号,有些符号甚至很难打出来(比如表示商标注册的?),这时候该如何表示呢?再说远一点,如果我们想用一个字符组匹配所有中文字符,能不能像『[a-z]』那样呢?

所幸,每一个Unicode字符都对应自己的Unicode编码,也就是Unicode编码表中的一个代码点(Code Point),所以在正则表达式中的Unicode字符往往采用Unicode代码点来指定。

一般来说,指定代码点的形式有3种:『\uxxxx』、『\u{xxxx}』、『\x{xxxx}』(其中的xxxx为编码的值,\u之后必须有4位16进制数字)。.NET、Java、JavaScript和Python使用第一种方式,而PHP和Ruby使用第二种方式(Ruby 1.9以上版本才支持这种表示法),PHP使用第三种方式。

比如“发表”的“发”字对应的Unicode编码是53 d1,它在不同语言中的表示法如下:所以我们可以在.NET、Java、JavaScript的正则表达式中这样表示“发”字:“\u53d1”,Python稍有不同,必须使用u”\u53d1”(之前的u表示这是一个Unicode字符串); Ruby中,“发”则必须写作”\u{53d1}”。

现在以“发”字为例,介绍不同语言中的Unicode表示法:

编码

语言

表示法

备注

53 d1

.NET

\u53d1

 

Java

\u53d1

 

JavaScript

\u53d1

 

Python

\u53d1

必须使用Unicode字符串,Python 2.x中,要在字符串之前加u

Ruby

\u{53d1}

限Ruby 1.9以上版本,且必须显式指定Unicode模式

PHP

\x{53d1}

必须指定Unicode模式

 

既然可以这样指定Unicode字符,自然也可以在字符组中用范围表示法指定一个Unicode编码范围了。比如,我们查询Unicode编码表可知,中文的编码一般在4e00到9fff之间,所以可以用这样的字符组匹配中文字符(Unicode编码4e00-9fff归类为“CJK 统一表意符号”CJK Unified Ideographs[1],涵盖了绝大多数中文字符):

语言

字符组

备注

.NET

[\u4e00-\u9fff]

 

Java

[\u4e00-\u9fff]

 

JavaScript

[\u4e00-\u9fff]

 

Python

[\u4e00-\u9fff]

必须使用Unicode字符串,Python 2.x中,要在字符串之前加u

Ruby

[\x{4e00}-\x{9fff}]

限Ruby 1.9以上版本,且必须显式指定Unicode模式

PHP

[\u{4e00}-\u{9fff}]

必须指定Unicode模式

 

根据Unicode规范,每一个Unicode字符除了有唯一代码点对应,还具有其它属性,现在详细介绍三种属性,它们是:Unicode Property、Unicode Block、Unicode Script,下面的图粗略说明了这三者的关系。

Unicode Property

Unicode Property的记法类似『\p{L}』、『\p{Lo}』,它按照字符的功能分类Unicode字符,而不关心字符属于哪种语言,每个Unicode字符只能属于唯一Unicode Property。

举例来说,『\p{Z}』表示任意的空白字符或不可见的分隔符;『\p{P}』表示任何标点字符,等等。遇到中英文混排、全角半角同时出现的情况,我们就可以用『\p{Z}』匹配所有的空白字符(而不用关心空格到底是全角空格还是半角空格),用『\p{P}』匹配所有的标点字符(而不用关心逗号到底是中文逗号还是英文逗号),而不用费心细节。

如果我们把Unicode Property理解为一个“字符组”,那么它一定能对应某个排除型字符组,此排除型字符组的通行记法是将『\p{xx}』中的小写p改为大写P,写作『\P{xx}』。这样,『\P{Z}』对应『\p{Z}』无法匹配的字符,『\p{P}』对应『\p{P}』无法匹配的字符。Unicode Block和Unicode Script对应的排除型字符组也是这样标记,下面不再赘述。

支持Unicode Property的语言有.NET、Java、PHP和Ruby(限1.9以上版本),在PHP和Ruby中使用Unicode Property时,必须要开启Unicode模式,下面以『\p{P}』的匹配为例:

.NET

Regex.IsMatch(‘,’, “\\p{P}”); //true 

Java

“,”.matches(“\\p{P}”); //true 

PHP

preg_match(‘/\p{P}/u’, ‘,’); //1 

Ruby 1.9

‘/\p{P}/u’ =~ ‘,’ # 0 

Unicode Property的完整信息,可参考http://www.regular-expressions.info/unicode.html

Unicode Block

Unicode Block则不同于Unicode Property,它按照编码区间划分Unicode字符,每个Unicode Block中的字符编码都是落在同一个连续区间的。因为Unicode编码表中,某种语言的字符通常是落在同一区间的,所以它也可以粗略表示某类语言的字符,比如\p{InHebrew}表示希伯莱语字符,『\p{InCJK_Compatibility}』表示兼容CJK(汉语、韩语、日本语)的字符。如果你细心观察,会发现Unicod Block的名字虽然类似某种语言的名字,但都有“In”(Java风格)或者“Is”(.NET风格)前缀,这表明它其实对应的还是“落在某个区间的Unicode字符”。

本书介绍的语言中,只有Java和.NET支持Unicode Block,它们的写法不相同:

Java:『\p{ InCJK_Compatibility_Ideographs }』

.NET:『\p{ IsCJK_Compatibility_Ideographs }』

我们可以在Java中用\p{InCJK_Compatibility}或者在.NET中用\p{IsCJK_Compatibility}粗略匹配中文字符,虽然它们可能匹配日文或者韩文字符,尚不够精确,但许多情况下确实够用了。

Java

“我”.matches(“\\p{InCJK_Compatibility_Ideographs}”); //true 

.NET

Regex.IsMatch(‘我’, “\\p{IsCJK_Compatibility_Ideographs}”); //true 

Unicode Block的完整信息,可参考http://www.regular-expressions.info/unicode.html

Unicode Script

Unicode Script按照字符所属的书写系统来划分Unicode字符,比如\p{Greek}表示希腊语字符,\p{Han}表示汉语(中文字符)。它的写法类似Unicode Block,只是名字的开头没有“Is”或者“In”。

在本书介绍的语言中,只有PHP和Ruby(限1.9以上版本)支持Unicode Script,PHP在使用Unicode Script时,必须开启Unicode模式(详见xx页)。在这两种语言中,我们可以很方便地用\p{Han}来匹配中文字符。

PHP

preg_match(‘/\p{Han}/u’, ‘我’); //1 

Ruby 1.9

/\p{Han}/u =~ '我' #0 

Unicode Script的完整信息,请参考http://www.regular-expressions.info/unicode.html

小结

用正则表达式处理包含多字节字符(比如中文)的字符串时,最好使用Unicode编码,否则多字节字符很可能被割裂为多个字节,导致匹配错误,最好的办法是使用Unicode编码。

如果实在不能使用Unicode编码,使用字符组时要尤其小心,普通字符组可以用多选分支取代,绕过隐患,但这种办法对排除型字符组行不通。

如果设定了Unicode模式,可以指定Unicode Code Point来表示某个字符,但不同语言中的记法不同,可能是\uxxxx、\u{xxxx}、\x{xxxx}。

Unicode Property描述Unicode字符的属性,.NET、Java、PHP和Ruby(限1.9以上版本)中可以使用Unicode Property。

Unicode Block描述Unicode字符所在的区间,其特征是名称以In或Is为前缀,.NET和Java中可以使用Unicode Block。

Unicode Script描述Unicode字符所在的书写系统,名字类似Unicode Block,但没有In或Is前缀,PHP和Ruby(限1.9以上版本)中可以使用Unicode Script。

无论Unicode Property、Unicode Block、Unicode Script,其对应的排除型字符组都是将开头的\p改为\P,其它不变。

无论Unicode Property、Unicode Block、Unicode Script,都可以视为普通字符组,在字符组[…]中进行拼接组合,比如在PHP和Ruby中,[\p{Han}\p{Po}]既可以匹配汉字字符,又可以匹配任何标点字符。

 

原文地址:http://www.infoq.com/cn/news/2011/03/regular-expressions-unicode-2

分享到:
评论

相关推荐

    正则表达式教程:30分钟让你精通正则表达式语法 _

    正则表达式教程:30分钟让你精通正则表达式语法 _

    正则表达式主要语法详解+编程知识+技术开发

    正则表达式语法:正则表达式主要语法详解+编程知识+技术开发; 正则表达式语法:正则表达式主要语法详解+编程知识+技术开发; 正则表达式语法:正则表达式主要语法详解+编程知识+技术开发; 正则表达式语法:正则...

    正则表达式转换工具

    正则表达式(Regular Expression,简称regex)是一种强大的文本处理工具,它用于匹配、查找、替换等操作,涉及字符串处理的...对于编程人员来说,熟练掌握正则表达式不仅可以提高工作效率,还能解决许多复杂的问题。

    PB实现的正则表达式

    总的来说,"PB实现的正则表达式"是一个关于在PowerBuilder 11.5中利用自定义或第三方库实现正则表达式功能的话题。虽然存在对中文字符的支持限制,但通过学习和理解提供的代码或库,开发者依然可以提升在Power...

    vb正则表达式实例(正则表达式测试程序)

    - **Regex对象**:在VB.NET中,正则表达式操作主要通过`System.Text.RegularExpressions`命名空间下的`Regex`类实现。 - **构造函数**:创建`Regex`对象时,需要传入一个正则表达式字符串,如`New Regex("模式")`...

    C语言正则表达式库

    C语言正则表达式库是用于在C编程环境中处理和匹配正则表达式的软件库。这个库名为PCRE(Perl Compatible Regular Expressions),正如其名,它与Perl语言中的正则表达式语法高度兼容,提供了丰富的功能和强大的匹配...

    JAVA正则表达式的应用

    JAVA正则表达式应用:任意输入一串字符串 如何输入exit退出程序;从输入的字符串中判断是否包含手机号码 正则表达式可以使用" +86| 86 1 d{10}" 如果包含请将其在控制台打印出来 否则输出不包含字符串 ...

    正则表达式测试工具C#版(src)

    - `System.Text.RegularExpressions`命名空间:C#中的正则表达式操作主要基于这个命名空间下的类和方法。 - `Regex`类:这是处理正则表达式的核心类,提供了多种与正则相关的静态方法和实例方法。 - `Match`类:...

    正则表达式(Deelx版)|正则表达式(Deelx版)支持库

    - **错误检查**:提供更好的错误检测机制,帮助开发者发现和修复正则表达式中的问题。 - **Unicode支持**:对Unicode字符集有良好的支持,能处理多种语言的文本。 3. **正则表达式语法** - **量词**:如`*`, `+`...

    正则表达式工具:JGsoft RegexBuddy v3.4.2 零售版(无需要注册激活)

    正则表达式 - 正则表达式工具 JGsoft RegexBuddy v3.4.2 Retail JGsoft RegexBuddy 是一款正则表达式工具。它是你使用正则表达式时的最好的助手。容易创建完全符合你的要求的正则表达式。清除地理解其他人写的复杂...

    pb 使用正则表达式源码pbregexp

    源码学习有助于深入理解正则表达式在PB环境下的工作原理,也可能为自定义或扩展组件功能提供可能。 总的来说,pbregexp组件为PowerBuilder开发者提供了一种强大而灵活的工具,帮助他们更高效地处理文本数据。通过...

    VC、VC++,MFC 正则表达式类库

    在这个场景下,正则表达式是一个非常重要的工具,用于处理和分析文本数据。正则表达式类库则为VC++和MFC的开发者提供了对正则表达式功能的支持。 "VC、VC++,MFC 正则表达式类库"指的是在MFC中实现或集成的正则...

    精通正则表达式(第三版)简体中文版

    《精通正则表达式(第三版)简体中文版》是一本全面介绍正则表达式技术的书籍,不仅覆盖了基本语法和高级特性,还详细讲解了在不同编程环境下的具体应用方法。对于想要深入学习并掌握正则表达式技术的读者来说,本书...

    正则表达式转NFA实现

    总的来说,正则表达式转NFA的实现是理论与实践的结合,它涉及编译原理、形式语言和自动机理论等领域的知识,对于理解和处理字符串模式匹配问题具有深远的意义。在实际应用中,这一转换过程常被用于文本分析、搜索...

    Java使用正则表达式提取XML节点内容的方法示例

    三、正则表达式在线测试工具 为了方便开发者测试和调试正则表达式,我们提供了两个非常方便的正则表达式在线测试工具: 1. JavaScript正则表达式在线测试工具:http://tools.jb51.net/regex/javascript 2. 正则...

    正则表达式大全 - 收集的最常用正则表达式

    正则表达式是一种强大的文本处理工具,用于...熟练掌握正则表达式能够提高工作效率,并帮助我们处理各种复杂的文本处理问题。然而,由于正则表达式的复杂性,有时需要根据实际情况进行调整和完善,以确保完全满足需求。

    正则表达式大全.docx

    8. Unicode汉字范围:`/^[u4e00-u9fa5],{0,}$/` 和匹配中文字符的正则表达式:`[\u4e00-\u9fa5]` - 这两个正则表达式用于检测字符串中是否包含中文字符。 9. 匹配双字节字符:`[^\x00-\xff]` - 用于识别多字节字符...

    正则表达式只可以输入只允许输入中文、数字、字母、下划线

    #### 三、具体正则表达式的构建 结合上述知识点,构建一个符合要求的正则表达式如下: ``` ^[\u4e00-\u9fa5\d_a-zA-Z]+$ ``` 这里的正则表达式的组成部分解释如下: - `^` 表示匹配字符串的开头。 - `[\u4e00-\...

    VB.NET编写的正则表达式生成测试源码

    VB.NET是微软.NET框架下的编程语言,它支持正则表达式库,使得开发者能方便地在VB.NET项目中应用正则表达式。本文将深入探讨VB.NET中的正则表达式以及如何通过源码实现一个正则表达式生成与测试的工具。 一、VB.NET...

Global site tag (gtag.js) - Google Analytics