`

unicode中的几大区间

阅读更多

基本平面

 

平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP).

unicode基本平面区的编码区间含义

 

 

第一辅助平面

 

第一辅助平面又称多文种补充平面(Supplementary Multilingual Plane,缩写SMP,或简称Plane 1),摆放拼音文字(主要为现时已不再使用的文字)和音符等符号。范围在U+10000~U+1FFFD。计划分配如下。

编码范围 中文名称 英语名称

10000-100FF 线形文字B Linear B

10100-101CF 古代记数系统 Ancient numeric systems

101D0-107FF 从左向右书写的音素和音节文字和符号集 Alphabetic and syllabic LTR scripts and sets of symbols

10800-10FFF 从右向左书写的音素和音节文字 Alphabetic and syllabic RTL scripts

11000-11FFF 婆罗米文字 Brahmic scripts

12000-12FFF 楔形文字和其他古代文字 Cuneiform and other ancient scripts

13000-15BFF 埃及和玛雅圣书体 Egyptian and Maya hieroglyphs

15C00-15FFF 阿兹台克象形文字 Aztec pictograms

16000-16FFF 新创文字 Recently-devised scripts

17000-1B5FF 亚洲大文字 Large Asian scripts

1B600-1BFFF 未分配 unassigned

1C000-1CDFF 米格马赫圣书体 Micmac hieroglyphs

1CE00-1CFFF 原始埃兰文字 Proto-Elamite

1D000-1DFFF 记号系统 Notational systems

1E000-1E7FF 未分配 unassigned

1E800-1EFFF 从右向左书写的文字 RTL scripts

1F000-1F0FF 游戏符号 Game symbols

1F100-1F2FF 字母数字和表意字符集 Alphanumeric and ideographic sets

1F300-1F7FF 象形字符集 Pictographic sets

1F800-1FFFD 未分配 unassigned

 

 

第二辅助平面

 

第二辅助平面又称为表意文字补充平面(Supplementary Ideographic Plane,缩写SIP,或简称Plane 2),整个范围在 U+20000~U+2FFFD。整个平面配置的都是一些罕用的汉字或地区的方言用字,如粤语用字及越南语的字喃。现时摆放了“中日韩统一表意文字扩展B区”(4万3253个汉字)、“中日韩统一表意文字扩展C区”(4149个汉字)以及中日韩兼容表意文字增补(CJK Compatibility Ideographs Supplement)。预计“中日韩统一表意文字扩展D区”和“中日韩统一表意文字扩展E区”也会使用此平面。

已分配和计划分配的编码区段为:

U+20000-U+2A6DF:中日韩统一表意文字扩展B区

U+2A700-U+2B73F:中日韩统一表意文字扩展C区

U+2B740-U+2B81F:中日韩统一表意文字扩展D区

还在草拟阶段。

U+2B820-U+2????:中日韩统一表意文字扩展E区

还在草拟阶段。

U+2F800-U+2FA1F:中日韩兼容表意文字增补

 

第三至十三辅助平面

 

第三辅助平面尚未使用,但打算用来摆放甲骨文、金文、小篆、中国战国时期文字等。 计划分配的编码区段为:

U+30000-U+317FF:甲骨文

U+32000-U+32FFF:金文

U+34000-U+368FF:小篆

 

第四至第十三辅助平面并未计划使用

 

第十四辅助平面

 

第十四辅助平面又称特别用途补充平面(Supplementary Special-purpose Plane,简称SSP),摆放“语言编码标签”和“字形变换选取器”,它们都是控制字符。范围在U+E0000~U+E01FF。

编码表详见E0000-E0FFF。

 

第十五至十六辅助平面

 

第十五至十六辅助平面都是私人使用区。它们的范围是U+F0000~U+FFFFD 及U+100000~U+10FFFD.

 

 

 

 

 

分享到:
评论

相关推荐

    所有中文字Unicode编码区间及常用中文字Unicode编码

    所有中文字Unicode编码区间及常用中文字Unicode编码,在生成随机验证码时可能使用到

    各国文字Unicode编码范围.zip

    7. **日文**:日文字符包括平假名(3040-309F)、片假名(30A0-30FF)、汉字以及一些特殊符号,它们分散在不同的Unicode区间。 8. **韩文**:韩文或朝鲜文的谚文在AC00至D7AF之间,而韩文的汉字则与汉字一同在4E00...

    通过对字符的unicode编码进行判断来确定字符是否为中文

    ### 通过对字符的Unicode编码进行判断来确定字符是否为中文 在计算机编程中,经常需要对文本中的字符进行处理和判断...总之,通过Unicode编码判断字符是否为中文字符的方法简单而有效,可以在各种应用程序中广泛使用。

    各国文字Unicode编码范围

    在Unicode中,每种语言或文字系统的字符都有一个特定的编码范围。以下是一些主要语言的Unicode编码范围: 1. **英文**: - Unicode范围:0041-005A(大写), 0061-007A(小写);如果包含数字和符号,范围是0021-...

    unicode中文编码表

    - **4F00 - 50FF**: 在这部分区间中,我们可以看到不仅有汉字的编码,还混杂了一些拉丁字母和其他符号,这表明Unicode不仅仅限于汉字编码,还包括其他字符集的支持。 - **5100 - 53FF**: 这个区间的编码更加稀疏,...

    维吾尔文字符集unicode编码表

    通过这份表格,我们可以清晰地看到每一个维吾尔文字符对应的Unicode编码值及其在不同上下文中可能的变化形式。 #### Unicode与维吾尔文 Unicode是一种用于表示世界上几乎所有的书写系统(包括维吾尔文)的标准编码...

    维吾尔文unicode编码表

    **维吾尔文Unicode编码表**是针对现代维吾尔文中使用的字母、标点符号等字符制定的一种标准化编码方案。该编码表遵循Unicode国际标准,确保了维吾尔文在数字设备上的统一表示与兼容性。 #### 描述:标准的Unicode...

    汉字区间(16进制)

    例如,在建立索引时,考虑到汉字的Unicode区间,可以优化查询性能,避免因字符编码不一致导致的查询错误。 #### 文本分析与处理 在自然语言处理(NLP)、文本挖掘等领域,对汉字的精确编码和识别是基础。通过掌握...

    基于Python实现的检测中文,英语,韩文,日文源代码,利用不同语言的unicode字符区间不同来进行检测

    使用方法 把langdetect文件夹拷贝到项目中,... 由于日文中的汉字和中文的unicode大部分是通用的,因此无法通过unicode区分日文和中文汉字。 我们可以假设,含有日文假名的就是日文,这样判断一句话是日文还是中文。

    unicdoe转中文 泰文 日文 阿拉伯文 英文等等 也可以互相转,输入对应的码可以转成对应unicode区间的string

    unicdoe转中文 泰文 日文 阿拉伯文 英文等等 也可以互相转,输入对应的码可以转成对应unicode区间的string

    UNICODE编码表,方便查找对应关系

    而CJK统一表意文字(CJK Unified Ideographs)是Unicode编码中的一个重要部分,它包括了中文、日文、韩文中的汉字字符。 Unicode编码表是开发人员和用户查找和理解不同字符编码关系的重要工具。在Unicode中,每个...

    Unicode汉字内码表

    - **汉字的Unicode范围**:Unicode为汉字分配了一个较大的区间,主要包括基本汉字区(U+4E00-U+9FFF)、扩展A区(U+3400-U+4DBF)、扩展B区(U+20000-U+2A6DF)等。 - **示例解读**:根据题目给出的部分内容,我们...

    常见汉字unicode编码

    1. **基本多文种平面**:这是Unicode中最常用的平面,包含了绝大多数现代文字的字符,包括汉字。基本多文种平面内的汉字主要分布在以下区间: - **CJK统一汉字扩展A**(U+3400–U+4DBF) - **CJK统一汉字**(U+4E...

    汉字unicode码.txt

    - **编码范围**:从提供的数据来看,这些汉字的Unicode编码大多位于U+5000至U+9000区间内,这是汉字Unicode编码的常见范围。 - **编码含义**:每个Unicode编码对应着一个具体的汉字或符号,这意味着通过查找特定的...

    unicode编码对照

    例如,上文提到的4e00到4e70区间,包含了大量汉字的Unicode编码,如“一”到“乡”,每个字符都有其对应的Unicode值。这些编码使得各种语言的字符可以在同一文本中无缝混用,促进了全球化信息交流的便利性。 总的来...

    unicode编码转换

    虽然native2ascii工具在进行Unicode编码转换时非常便捷高效,但在实际使用过程中还需要注意以下几点: - **确认源文件编码**:确保在调用工具前明确源文件所使用的字符编码,这样才能准确无误地完成转换。 - **验证...

    UNICODE编码表

    综上所述,Unicode作为一种全球通用的字符编码标准,不仅解决了字符编码混乱的问题,还极大地促进了信息技术的发展和文化交流。在未来,随着新字符的不断加入和Unicode标准的持续更新,其在全球信息化进程中的作用将...

Global site tag (gtag.js) - Google Analytics