`

Unicode 正则编码范围

 
阅读更多
http://www.cnblogs.com/sosoft/p/3456631.html


Unicode中文和特殊字符的编码范围

编程中有时候需要用到匹配中文的正则,一般用 [ \u4e00-\u9fa5]+ 即可搞定。不过这正则对一般的火星文鸟语就不太适用了,甚至全角的标点符号都不包含在内。例如游戏里面的玩家名,普通青年一般都是汉字,文艺青年会加几个特殊字符,2B青年火星文鸟语都会用上;这时候你就需要更强大的正则了。

        其实,游戏内大部分的玩家名都取自:中日韩统一表意文字(CJK Unified Ideographs),外加一些特殊的字符;用 [ \u2E80-\uFE4F]+基本都涵盖了 。根据Unicode5.0整理如下:

1)标准CJK文字

http://www.unicode.org/Public/UNIDATA/Unihan.html

2)全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

http://www.unicode.org/charts/PDF/UFF00.pdf

3)CJK部首补充:2E80-2EFF

http://www.unicode.org/charts/PDF/U2E80.pdf

4)CJK标点符号:3000-303F

http://www.unicode.org/charts/PDF/U3000.pdf

5)CJK笔划:31C0-31EF

http://www.unicode.org/charts/PDF/U31C0.pdf

6)康熙部首:2F00-2FDF

http://www.unicode.org/charts/PDF/U2F00.pdf

7)汉字结构描述字符:2FF0-2FFF

http://www.unicode.org/charts/PDF/U2FF0.pdf

8)注音符号:3100-312F

http://www.unicode.org/charts/PDF/U3100.pdf

9)注音符号(闽南语、客家语扩展):31A0-31BF

http://www.unicode.org/charts/PDF/U31A0.pdf

10)日文平假名:3040-309F

http://www.unicode.org/charts/PDF/U3040.pdf

11)日文片假名:30A0-30FF

http://www.unicode.org/charts/PDF/U30A0.pdf

12)日文片假名拼音扩展:31F0-31FF

http://www.unicode.org/charts/PDF/U31F0.pdf

13)韩文拼音:AC00-D7AF

http://www.unicode.org/charts/PDF/UAC00.pdf

14)韩文字母:1100-11FF

http://www.unicode.org/charts/PDF/U1100.pdf

15)韩文兼容字母:3130-318F

http://www.unicode.org/charts/PDF/U3130.pdf

16)太玄经符号:1D300-1D35F

http://www.unicode.org/charts/PDF/U1D300.pdf

17)易经六十四卦象:4DC0-4DFF

http://www.unicode.org/charts/PDF/U4DC0.pdf

18)彝文音节:A000-A48F

http://www.unicode.org/charts/PDF/UA000.pdf

19)彝文部首:A490-A4CF

http://www.unicode.org/charts/PDF/UA490.pdf

20)盲文符号:2800-28FF

http://www.unicode.org/charts/PDF/U2800.pdf

21)CJK字母及月份:3200-32FF

http://www.unicode.org/charts/PDF/U3200.pdf

22)CJK特殊符号(日期合并):3300-33FF

http://www.unicode.org/charts/PDF/U3300.pdf

23)装饰符号(非CJK专用):2700-27BF

http://www.unicode.org/charts/PDF/U2700.pdf

24)杂项符号(非CJK专用):2600-26FF

http://www.unicode.org/charts/PDF/U2600.pdf

25)中文竖排标点:FE10-FE1F

http://www.unicode.org/charts/PDF/UFE10.pdf

26)CJK兼容符号(竖排变体、下划线、顿号):FE30-FE4F

http://www.unicode.org/charts/PDF/UFE30.pdf

http://www.cnblogs.com/sosoft/p/3456631.html


=======================================
/[^\u0000-\u00FF]/ (匹配非单字节字符 )
分享到:
评论

相关推荐

    js写的 unicode 汉字编码转换,正则表达式测试

    自个用的一个小工具,比如将 “\u6C49\u5B57\u7F16\u7801\u8F6C\u6362” 转为“汉字编码转换”。要能看得懂描述对你可能有用,如果看不懂说明没有用。 附带简单的正则表达式测试:match和test方法的测试和语法介绍。

    正则表达式之 Unicode 匹配特殊字符

    Unicode是一种字符编码标准,能够为世界上几乎所有的字符提供唯一的数字编码。在JavaScript中,Unicode对于处理特殊字符具有重要作用,尤其是在需要在正则表达式中匹配这些特殊字符时。 ES6(ECMAScript 2015)是...

    Unicode中文编码对照表

    6. 编程应用:在编程语言中如何使用Unicode,如字符串操作、编码转换、正则表达式匹配等。 7. 解决乱码问题:在不同系统或软件间传输数据时可能出现的编码不一致问题,如何通过理解Unicode来解决。 通过学习这个...

    正则表达式调试工具_RegexDbg_GBK_and_Unicode.7z

    本文将详细介绍RegexDbg这款正则表达式调试工具,以及它在GBK和Unicode编码环境下的应用。 RegexDbg是一款强大的正则表达式调试工具,它提供了可视化的界面和详尽的匹配分析,帮助用户理解复杂的正则表达式行为。...

    使用正则表达式验证中文汉字输入

    中文字符在Unicode编码中占据着一定的范围,如基本汉字主要集中在GB2312编码的范围:0xB0A1 - 0xF7FE,以及GBK编码的范围:0x8140 - 0xFEFE,还有更广泛的Unicode BMP(基本多文种平面)中的0x4E00 - 0x9FFF,以及...

    判断不同编码的正则表达式

    - `[\x{4e00}-\x{9fa5}]`: 匹配中文汉字的Unicode范围。 - `A-Za-z0-9_`: 匹配大小写字母、数字和下划线。 - `]`: 表示结束字符集定义。 - `$`: 表示匹配字符串的结尾。 - `u`: 是一个模式修饰符,表示启用UTF-8模式...

    C语言正则表达式库

    它包含了对UTF-8编码的内置支持,并可以通过配置支持其他Unicode编码格式。 3. **回溯算法**:PCRE库使用了高效的回溯算法来执行正则表达式匹配。虽然这可能会导致性能问题,但通过优化的匹配引擎和使用预编译模式...

    unicode编码范围.txt

    ### Unicode编码范围详解 Unicode是一种国际化的字符编码标准,它为世界上几乎所有语言的文字提供了一种统一的编码方式。本文将详细介绍Unicode编码中的各种文字及其编码范围。 #### 基本拉丁字母与控制字符 (U+...

    C#正则提取中文

    正则表达式`[^\x00-\xff]`被用来匹配非ASCII字符,即通常用于表示中文字符的部分Unicode范围。 #### 正则表达式详解 - `[^\x00-\xff]`:这个模式匹配任何不在ASCII范围内的字符。由于ASCII字符的范围是`\x00`到`\...

    Unicode对应GBK编码范围详细整理

    这是我整理了一星期,记过了好多测试、修改得出的结果,相信可以帮助在编写Unicode对应GBK编码的正则表达式的程序员一些帮助!

    易语言正则表达式匹配中文

    这个表达式告诉易语言,我们要查找的模式是任何在这个范围内的Unicode字符。 然而,易语言可能不直接支持Unicode转义字符`\u`,在这种情况下,我们可以转换为其他形式来匹配中文。例如,可以使用两个字节的UTF-8...

    正则表达式大全 - 收集的最常用正则表达式

    它基于Unicode范围,u4e00到u9fa5涵盖了大部分常用汉字。 2. 匹配双字节字符:`[^x00-xff]` - 用于匹配包括汉字在内的任何双字节字符。双字节字符通常用于表示多语言字符,如中文、日文、韩文等。 3. 匹配空白行:...

    易语言正则采集猪八戒威客信息

    易语言正则采集猪八戒威客信息源码,正则采集猪八戒威客信息,获取数据,编码转换1,判断时限,编码_Unicode到Ansi,编码_Utf8到Ansi,编码_Utf8到Unicode,正则二次匹配,初始化对象开始,初始化对象结束

    使用javascript将汉字转化成UNICODE编码

    在JavaScript中,Unicode编码是一种表示任何字符的标准方式,无论该字符属于哪种语言。Unicode编码使得在Web开发中处理多语言内容变得更为简单。本篇文章将深入探讨如何使用JavaScript将汉字转化为UNICODE编码,并...

    正则表达式大全.docx

    该正则表达式用于匹配 Unicode 编码中的汉字范围,要求汉字在 Unicode 编码表中的范围内。 9. 匹配中文字符的正则表达式:[\u4e00-\u9fa5] 该正则表达式用于匹配中文字符,要求字符在 Unicode 编码表中的范围内。...

    把中文转化为Unicode

    在处理中文字符时,将汉字转化为Unicode编码,特别是在编写正则表达式进行文本处理时,是非常常见且重要的操作。下面我们将深入探讨这个话题。 首先,Unicode编码的核心理念是为每个独特的字符分配一个唯一的数字,...

    正则验证软件中文版正则验证软件中文版

    对于中文文本的处理,正则验证软件中文版会特别考虑Unicode编码,确保能够正确处理各种中文字符。例如,你可以使用正则表达式来验证一个字符串是否全为中文字符,这可以表示为`^[\u4e00-\u9fa5]+$`,这个范围包括了...

    正则表达式(Deelx版)|正则表达式(Deelx版)支持库

    - **Unicode支持**:对Unicode字符集有良好的支持,能处理多种语言的文本。 3. **正则表达式语法** - **量词**:如`*`, `+`, `?`, `{n}`, `{n,}` 和 `{n,m}` 控制匹配次数。 - **字符类**:如`[abc]`匹配a、b或c...

    正则表达式生成工具,正则表达式生成工具

    6. **编码支持**:考虑到不同的字符编码,工具可能支持Unicode,允许匹配各种语言的字符。 7. **教程和资源**:为了帮助初学者,这些工具往往还会链接到正则表达式的学习资源和教程,提供进一步的学习路径。 正则...

    js unicode 转换工具

    - 正则表达式中的`\u`和`\u{}`:在正则表达式中,可以使用`\u`和`\u{}`来匹配Unicode字符,但需要注意JavaScript引擎的限制,如在某些环境下,`\u`只能匹配四位的Unicode码,而`\u{}`可以匹配完整的六位码点。...

Global site tag (gtag.js) - Google Analytics