Unicode 正则编码范围 -

zlr

浏览: 230284 次
性别:
来自: 西安

最近访客更多访客>>

vigiles

msj_0529

草之梦

待曦孤星

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Unicode 正则编码范围

博客分类：

正则

http://www.cnblogs.com/sosoft/p/3456631.html

Unicode中文和特殊字符的编码范围

编程中有时候需要用到匹配中文的正则，一般用 [ \u4e00-\u9fa5]+ 即可搞定。不过这正则对一般的火星文鸟语就不太适用了，甚至全角的标点符号都不包含在内。例如游戏里面的玩家名，普通青年一般都是汉字，文艺青年会加几个特殊字符，2B青年火星文鸟语都会用上；这时候你就需要更强大的正则了。

其实，游戏内大部分的玩家名都取自：中日韩统一表意文字（CJK Unified Ideographs），外加一些特殊的字符；用 [ \u2E80-\uFE4F]+基本都涵盖了。根据Unicode5.0整理如下：

1）标准CJK文字

http://www.unicode.org/Public/UNIDATA/Unihan.html

2）全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母：FF00-FFEF

http://www.unicode.org/charts/PDF/UFF00.pdf

3）CJK部首补充：2E80-2EFF

http://www.unicode.org/charts/PDF/U2E80.pdf

4）CJK标点符号：3000-303F

http://www.unicode.org/charts/PDF/U3000.pdf

5）CJK笔划：31C0-31EF

http://www.unicode.org/charts/PDF/U31C0.pdf

6）康熙部首：2F00-2FDF

http://www.unicode.org/charts/PDF/U2F00.pdf

7）汉字结构描述字符：2FF0-2FFF

http://www.unicode.org/charts/PDF/U2FF0.pdf

8）注音符号：3100-312F

http://www.unicode.org/charts/PDF/U3100.pdf

9）注音符号（闽南语、客家语扩展）：31A0-31BF

http://www.unicode.org/charts/PDF/U31A0.pdf

10）日文平假名：3040-309F

http://www.unicode.org/charts/PDF/U3040.pdf

11）日文片假名：30A0-30FF

http://www.unicode.org/charts/PDF/U30A0.pdf

12）日文片假名拼音扩展：31F0-31FF

http://www.unicode.org/charts/PDF/U31F0.pdf

13）韩文拼音：AC00-D7AF

http://www.unicode.org/charts/PDF/UAC00.pdf

14）韩文字母：1100-11FF

http://www.unicode.org/charts/PDF/U1100.pdf

15）韩文兼容字母：3130-318F

http://www.unicode.org/charts/PDF/U3130.pdf

16）太玄经符号：1D300-1D35F

http://www.unicode.org/charts/PDF/U1D300.pdf

17）易经六十四卦象：4DC0-4DFF

http://www.unicode.org/charts/PDF/U4DC0.pdf

18）彝文音节：A000-A48F

http://www.unicode.org/charts/PDF/UA000.pdf

19）彝文部首：A490-A4CF

http://www.unicode.org/charts/PDF/UA490.pdf

20）盲文符号：2800-28FF

http://www.unicode.org/charts/PDF/U2800.pdf

21）CJK字母及月份：3200-32FF

http://www.unicode.org/charts/PDF/U3200.pdf

22）CJK特殊符号（日期合并）：3300-33FF

http://www.unicode.org/charts/PDF/U3300.pdf

23）装饰符号（非CJK专用）：2700-27BF

http://www.unicode.org/charts/PDF/U2700.pdf

24）杂项符号（非CJK专用）：2600-26FF

http://www.unicode.org/charts/PDF/U2600.pdf

25）中文竖排标点：FE10-FE1F

http://www.unicode.org/charts/PDF/UFE10.pdf

26）CJK兼容符号（竖排变体、下划线、顿号）：FE30-FE4F

http://www.unicode.org/charts/PDF/UFE30.pdf

http://www.cnblogs.com/sosoft/p/3456631.html

=======================================
/[^\u0000-\u00FF]/ (匹配非单字节字符 )

分享到：