`
carvin
  • 浏览: 212653 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【转】正则表达式(二):Unicode诸问题(上)

    博客分类:
  • java
阅读更多

关于正则表达式的文档很多,但大部分都是英文的,即便有中文的文档,也翻译或改编自英文文档。在介绍功能时,这样做没有大问题,但真要处理文本,就可能会遇到一些英文开发或应用环境中难得见到的问题。比如中文之类多字节字符的匹配,就是如此。所以,这篇文章专门谈谈正则表达式如何处理多字节字符,更准确地说,是如何处理Unicode编码的文本(为什么只提到Unicode编码,而没有提到其它编码,理由在后面详述)。

首先介绍关于编码的基础知识:

通常来说,英文编码较为统一,往往采用ascii编码或兼容ascii的编码(即编码表的前127位与ascii编码一致,常用的各种编码,包括Unicode编码都是如此)。也就是说,英文字母、阿拉伯数字和英文的各种符号,在不同编码下的表示是一样的,比如字母A,其编码总是41,常见的编码中,英文字符和半角标点符号的编码都等于ascii编码,通常只用一个字节表示。

但是中文的情况则不同,常见的中文编码有GBK(CP936)和Unicode两种,同一个中文字符在不同编码下的值并不相同,比如“发”字,GBK编码的值为b7 a2,用两个字节表示;而Unicode编码的值(也就是代码点,Code Point)为53 d1。如果用UTF-8编码保存,需要3个字节(e5 8f 91);用UTF-16编码保存,需要4个字节(53 d1)。

正因为中文字符需要多个字节来表示,常见的正则表达式的文档就有可能无法覆盖这种情况。比如常见的资料都说,点号『.』可以匹配“除换行符\n之外的任意字符”,但这可能只适用于“单字节字符”,因为点号匹配的其实只是“除换行符\n之外的任意字节”而已。不信,我们可以来试试看(以下例子中,程序均使用UTF-8编码):

Python 2.x 
>>> re.search('^.$', '发') == None # True 
PHP 4.x/5.x 
preg_match('/^.$/', '发') // 0 
Ruby 1.8 
irb(main):001:0> '发' =~ /^.$/ # nil 

之所以会出现这种情况,是因为正则表达式无法正确将多个字节识别为“单个字符”,让点号『.』能正确匹配。不过在Python 3.x、Java、.NET和Ruby 1.9中,字符串默认都是采用Unicode编码,所以不存在上面的问题。如果你使用的是Python 2.x、Ruby 1.8或PHP,也可以显式指定采用Unicode模式。

Python 2.x 
>>> re.search('^.$', u'发') == None #False 
PHP 4.x/5.x 
preg_match('/^.$/u', '发') // 1 
Ruby 1.8 
irb(main):001:0> '发' =~ /^.$/u # 0

如果你细心就会发现,在Python 2.x中,我们指定的字符串使用Unicode编码,而文档里说了,正则表达式也可以指定Unicode模式的;相反,在PHP和Ruby中,我们指定正则表达式使用Unicode编码,而字符串并没有指定。这到底是怎么回事呢?

我们知道,正则表达式的操作可以简要概括为“用正则表达式去匹配字符串”,它涉及两个对象:正则表达式和字符串。对字符串来说,如果没有设定Unicode模式,则多字节字符很可能会拆开为多个单字节字符对待(虽然它们并不是合法的ascii字符),Python 2.x中就是如此,“发”字在没有设定Unicode编码时,变成了3个单字节字符构成的字符串,点号『.』只能匹配其中的单个“字符”。如果显式将正则表达式设定为Unicode字符串(也就是在 u'发' ),则“发”字视为单个字符,点号可以匹配。

而且,如果你在正则表达式的字符组里使用了中文字符,表示正则表达式的字符串,也应该设定为Unicode字符串,否则正则表达式会认为字符组里不是单个字符,而是3个单字节字符:

Python 2.x 
>>> re.search('^[我]$', u'我') == None # True 
>>> re.search(u'^[我]$', u'我') == None # False 

另一方面,在PHP和Ruby中并不存在“Unicode字符串”,所以我们无法修改字符串的属性。但是,设定正则表达式为Unicode模式,正则表达式也可以正确识别字符串中的Unicode字符。所以,如果你用PHP或Ruby的正则表达式处理Unicode字符串,一定不要忘记指定Unicode模式。

点号『.』对Unicode字符的匹配“我”(采用UTF-8编码)

字符串

正则表达式

语言

是否显式指定Unicode模式

可否匹配

^.$

Java

否(无须指定)

可以

^.$

JavaScript

否(无法指定)

由浏览器的实现决定

/^.$/

PHP

不可以

/^.$/u

PHP

可以

/^.$/

Ruby 1.8

不可以

/^.$/u

Ruby 1.8

可以

/^.$/

Ruby 1.9

可以

^.$

.NET

可以

^.$

Python 2.x

不可以

^.$

Python 3

可以

 

注:PHP和Ruby的正则表达式本身是不包含分隔符(分隔符可以有很多种,常见的是反斜线/)的,但PHP指定Unicode模式必须在后一个分隔符之后写u,所以在这里将分隔符也写出来。

不过,如果你熟悉Python语言,会发现Python也可以指定正则表达式使用Unicode模式,这又是怎么回事呢?

不妨回头仔细想想你读过的文档,正则表达式中的『\d』和『\w』,都是如何解释的?或许你的第一反应是:『\d』等价于『[0-9]』,『\w』等价于『[0-9a-zA-Z_]』。因为有些文档说明了这种等价关系,有些文档却说:『\d』匹配数字字符,『\w』匹配单词字符。然而这只是针对ascii编码的规定,在Unicode编码中,全角数字0、1、2之类,应该也可以算“数字字符”,由『\d』匹配;中文的字符,应该也可以算“单词字符”,由『\w』匹配;同样的道理,中文的全角空格,应该也可以算作“空白字符”,由『\s』匹配。所以,如果你在Python中指定了正则表达式使用,『\d』、『\w』、『\s』就能匹配全角数字、中文字符、全角空格。

Python 2.x(字符均为全角) 
>>> re.search('(?u)^\d$', u'1') == None # True 
>>> re.search('(?u)^\w$', u'发') == None # True 
>>> re.search('(?u)^\s', u' ') == None # True 

老实说,这样的规定有时候确实让人抓狂,假设你希望用正则表达式『\d{6,12}』来验证一个长度在6到12之间的数字字符串,却没留意『\d』能匹配全角数字,验证就不够严密了。

下面的表格列出了常见语言中的匹配规定

语言

『\w』『\d』『\s』的匹配规则

Java

均只能匹配ascii字符

JavaScript

均只能匹配ascii字符

PHP

均只能匹配ascii字符

Ruby 1.8

默认情况下只能匹配ascii字符,Unicode模式只影响『\w』的匹配

Ruby 1.9

均可以识别Unicode字符

.NET

均可以识别Unicode字符

Python 2.x

默认情况下只能匹配ascii字符,Unicode模式下均可以识别Unicode字符

Python 3

默认情况下均可以识别Unicode字符,但可以显式指定ascii

 

注1:一般来说,单词边界『\b』能匹配的位置是:一端是『\w』,一端不是『\w』(也可以什么都没有),其中『\w』的规定与『\w』一样,但Java中则不是这样,细节比较复杂,这里不展开,有兴趣的读者可以自己试验。

注2:在Python 3中可以在表达式之前添加『(?a)』指定ascii模式。

虽然常见的中文字符编码有GBK和Unicode两种,但如果需要使用正则表达式处理中文,我强烈推荐使用Unicode字符,不仅是因为正则表达式提供了对Unicode的现成支持,而且因为GBK编码可能会有其它问题。比如:我们要求匹配“收”字或者“发”字,很自然会想到使用字符组『[收发]』,这思路是对的,但如果采用GBK编码,正则引擎见到的很可能不是“两个字符构成的字符组”,而是“四个字节构成的字符组”。

使用GBK编码,[收发]的解释『ca d5 b7 a2

如果我们用『[收发]』来匹配字符“罚”(它的GBK编码是b7 a3),就会产生错误——虽然“罚”字既不等于“收”也不等于“发”,但“罚”和『[收发]』却可以匹配一个字节

GBK编码的情况

罚 b7 a3

[收发] ca d5 b7 a2

Unicode编码的情况(因为Unicode编码能正确识别,无论采用UTF-8还是UTF-16,Unicode字符都会正确转化为Unicode编码点)

罚 7f5a

[收发] 6536 53d1

“罚”的Unicode编码是7f5a,无论如何也不会发生错误匹配。

如果出于某些限制,只能使用GBK编码,也有一个偏方准确保证『[收发]』的匹配,就是把字符组『[收发]』改成多选分支『(收|发)』。此时如果要匹配成功,只能是两个连续的字节ca d5或者b7 a2,而“罚”字两个字节为b7 a3,无法匹配。

但这样也会有问题,因为在GBK编码下字符串被当作“字节序列”来对待。比如字符串 “账珍”对应四个字节,d5 ca d5 e4,其中正好出现了“收”字对应的两个字节ca d5,正则表达式就可能在此处匹配成功。

更重要的问题在于排除型字符组的匹配,仍然使用上面的例子,假如我们希望匹配一个“收”和“罚”之外的字符,自然的思路就是使用排除型字符组『[^收发]』。但是通过上面的讲解,我们已经知道,这样“排除”的并不是2个字符,而是4个字节:ca d5b7 a2。但“罚”字的GBK编码为b7 a3b7这个字节被“排除”了,所以正则表达式会显示“罚”字不能由『[^收发]』匹配,这完全违背了我们的本意。

总的来说,所以如果使用GBK编码(或者说非Unicode编码),对此类问题基本是无解的。因此,根本的办法还是使用Unicode编码。

 

原文地址:http://www.infoq.com/cn/news/2011/02/regular-expressions-unicode

分享到:
评论

相关推荐

    正则表达式教程:30分钟让你精通正则表达式语法 _

    正则表达式教程:30分钟让你精通正则表达式语法 _

    正则表达式主要语法详解+编程知识+技术开发

    正则表达式语法:正则表达式主要语法详解+编程知识+技术开发; 正则表达式语法:正则表达式主要语法详解+编程知识+技术开发; 正则表达式语法:正则表达式主要语法详解+编程知识+技术开发; 正则表达式语法:正则...

    正则表达式转换工具

    综上所述,"正则表达式转换工具"是处理文本数据的强大辅助,它简化了正则表达式的构造过程,使得非专业人士也能方便地利用正则表达式的强大功能。对于编程人员来说,熟练掌握正则表达式不仅可以提高工作效率,还能...

    PB实现的正则表达式

    在IT领域,正则表达式(Regular Expression,简称regex)是一种强大的文本处理工具,它能够进行复杂的模式匹配、查找、替换等操作。在本话题中,我们将探讨如何使用PowerBuilder 11.5这一经典的开发环境来实现正则...

    vb正则表达式实例(正则表达式测试程序)

    在VB.NET中,正则表达式(Regular Expression)是一种强大的文本处理工具,它允许程序员通过模式匹配来处理字符串。这个“vb正则表达式实例”很可能是为了帮助开发者测试和理解正则表达式的工作原理而设计的一个应用...

    C语言正则表达式库

    C语言正则表达式库是用于在C编程环境中处理和匹配正则表达式的软件库。这个库名为PCRE(Perl Compatible Regular Expressions),正如其名,它与Perl语言中的正则表达式语法高度兼容,提供了丰富的功能和强大的匹配...

    JAVA正则表达式的应用

    JAVA正则表达式应用:任意输入一串字符串 如何输入exit退出程序;从输入的字符串中判断是否包含手机号码 正则表达式可以使用" +86| 86 1 d{10}" 如果包含请将其在控制台打印出来 否则输出不包含字符串 ...

    正则表达式测试工具C#版(src)

    正则表达式是一种强大的文本处理工具,用于在字符串中进行模式匹配和搜索。在C#编程语言中,正则表达式被广泛应用于数据验证、文本提取、格式转换等多个场景。本项目提供了一个C#编写的正则表达式测试工具,包含完整...

    正则表达式(Deelx版)|正则表达式(Deelx版)支持库

    - **错误检查**:提供更好的错误检测机制,帮助开发者发现和修复正则表达式中的问题。 - **Unicode支持**:对Unicode字符集有良好的支持,能处理多种语言的文本。 3. **正则表达式语法** - **量词**:如`*`, `+`...

    正则表达式工具:JGsoft RegexBuddy v3.4.2 零售版(无需要注册激活)

    在样本行和文件上测试任何规范的表达式,防止在实际数据上发生错误。通过分步完成真实的匹配过程来进行调试而不是单凭猜测。可以在你的自动地调整为 C#, VB.NET, Java, C, C++, Delphi, Perl, PHP, Python, ...

    pb 使用正则表达式源码pbregexp

    标题中的“pb 使用正则表达式源码pbregexp”指的是在PowerBuilder(简称pb)环境中,利用名为“pbregexp”的正则表达式组件来实现源代码级别的正则表达式操作。PowerBuilder是一款流行的可视化的、面向对象的软件...

    VC、VC++,MFC 正则表达式类库

    正则表达式类库则为VC++和MFC的开发者提供了对正则表达式功能的支持。 "VC、VC++,MFC 正则表达式类库"指的是在MFC中实现或集成的正则表达式处理模块。这个库通常包含一系列的类和函数,允许程序员编写符合特定模式...

    正则表达式转NFA实现

    总的来说,正则表达式转NFA的实现是理论与实践的结合,它涉及编译原理、形式语言和自动机理论等领域的知识,对于理解和处理字符串模式匹配问题具有深远的意义。在实际应用中,这一转换过程常被用于文本分析、搜索...

    Java使用正则表达式提取XML节点内容的方法示例

    Java使用正则表达式提取XML节点内容的方法示例 Java使用正则表达式提取XML节点内容的方法示例主要介绍了Java使用正则表达式提取XML节点内容的方法,结合具体实例形式分析了java针对xml格式字符串的正则匹配相关操作...

    正则表达式大全 - 收集的最常用正则表达式

    正则表达式是一种强大的文本处理工具,用于...熟练掌握正则表达式能够提高工作效率,并帮助我们处理各种复杂的文本处理问题。然而,由于正则表达式的复杂性,有时需要根据实际情况进行调整和完善,以确保完全满足需求。

    正则表达式大全.docx

    8. Unicode汉字范围:`/^[u4e00-u9fa5],{0,}$/` 和匹配中文字符的正则表达式:`[\u4e00-\u9fa5]` - 这两个正则表达式用于检测字符串中是否包含中文字符。 9. 匹配双字节字符:`[^\x00-\xff]` - 用于识别多字节字符...

    正则表达式只可以输入只允许输入中文、数字、字母、下划线

    ### 正则表达式知识点详解 #### 一、正则表达式基础介绍 正则表达式(Regular Expression)是一种强大的文本处理工具,在编程语言中被广泛应用于字符串的搜索与替换等操作。它能够帮助开发者快速定位、提取或验证...

    VB.NET编写的正则表达式生成测试源码

    二、VB.NET实现正则表达式生成器 1. 用户界面:一个正则表达式生成器通常包含文本框让用户输入或编辑正则表达式,以及按钮触发匹配、测试等操作。此外,还可以添加选项来选择不同的匹配模式和行为。 2. 正则规则...

    易语言正则表达式文本替换

    - 考虑性能问题,对于大量文本的处理,优化正则表达式和替换策略是很重要的。 5. **应用场景** - 数据清洗:去除或替换文本中的特定字符或模式,如邮箱地址验证、电话号码格式化等。 - 信息提取:从大量文本中找...

Global site tag (gtag.js) - Google Analytics