基本平面
平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP).
unicode基本平面区的编码区间含义
第一辅助平面
第一辅助平面又称多文种补充平面(Supplementary Multilingual Plane,缩写SMP,或简称Plane 1),摆放拼音文字(主要为现时已不再使用的文字)和音符等符号。范围在U+10000~U+1FFFD。计划分配如下。
编码范围 中文名称 英语名称
10000-100FF 线形文字B Linear B
10100-101CF 古代记数系统 Ancient numeric systems
101D0-107FF 从左向右书写的音素和音节文字和符号集 Alphabetic and syllabic LTR scripts and sets of symbols
10800-10FFF 从右向左书写的音素和音节文字 Alphabetic and syllabic RTL scripts
11000-11FFF 婆罗米文字 Brahmic scripts
12000-12FFF 楔形文字和其他古代文字 Cuneiform and other ancient scripts
13000-15BFF 埃及和玛雅圣书体 Egyptian and Maya hieroglyphs
15C00-15FFF 阿兹台克象形文字 Aztec pictograms
16000-16FFF 新创文字 Recently-devised scripts
17000-1B5FF 亚洲大文字 Large Asian scripts
1B600-1BFFF 未分配 unassigned
1C000-1CDFF 米格马赫圣书体 Micmac hieroglyphs
1CE00-1CFFF 原始埃兰文字 Proto-Elamite
1D000-1DFFF 记号系统 Notational systems
1E000-1E7FF 未分配 unassigned
1E800-1EFFF 从右向左书写的文字 RTL scripts
1F000-1F0FF 游戏符号 Game symbols
1F100-1F2FF 字母数字和表意字符集 Alphanumeric and ideographic sets
1F300-1F7FF 象形字符集 Pictographic sets
1F800-1FFFD 未分配 unassigned
第二辅助平面
第二辅助平面又称为表意文字补充平面(Supplementary Ideographic Plane,缩写SIP,或简称Plane 2),整个范围在 U+20000~U+2FFFD。整个平面配置的都是一些罕用的汉字或地区的方言用字,如粤语用字及越南语的字喃。现时摆放了“中日韩统一表意文字扩展B区”(4万3253个汉字)、“中日韩统一表意文字扩展C区”(4149个汉字)以及中日韩兼容表意文字增补(CJK Compatibility Ideographs Supplement)。预计“中日韩统一表意文字扩展D区”和“中日韩统一表意文字扩展E区”也会使用此平面。
已分配和计划分配的编码区段为:
U+20000-U+2A6DF:中日韩统一表意文字扩展B区
U+2A700-U+2B73F:中日韩统一表意文字扩展C区
U+2B740-U+2B81F:中日韩统一表意文字扩展D区
还在草拟阶段。
U+2B820-U+2????:中日韩统一表意文字扩展E区
还在草拟阶段。
U+2F800-U+2FA1F:中日韩兼容表意文字增补
第三至十三辅助平面
第三辅助平面尚未使用,但打算用来摆放甲骨文、金文、小篆、中国战国时期文字等。 计划分配的编码区段为:
U+30000-U+317FF:甲骨文
U+32000-U+32FFF:金文
U+34000-U+368FF:小篆
第四至第十三辅助平面并未计划使用。
第十四辅助平面
第十四辅助平面又称特别用途补充平面(Supplementary Special-purpose Plane,简称SSP),摆放“语言编码标签”和“字形变换选取器”,它们都是控制字符。范围在U+E0000~U+E01FF。
编码表详见E0000-E0FFF。
第十五至十六辅助平面
第十五至十六辅助平面都是私人使用区。它们的范围是U+F0000~U+FFFFD 及U+100000~U+10FFFD.
分享到:
相关推荐
所有中文字Unicode编码区间及常用中文字Unicode编码,在生成随机验证码时可能使用到
7. **日文**:日文字符包括平假名(3040-309F)、片假名(30A0-30FF)、汉字以及一些特殊符号,它们分散在不同的Unicode区间。 8. **韩文**:韩文或朝鲜文的谚文在AC00至D7AF之间,而韩文的汉字则与汉字一同在4E00...
### 通过对字符的Unicode编码进行判断来确定字符是否为中文 在计算机编程中,经常需要对文本中的字符进行处理和判断...总之,通过Unicode编码判断字符是否为中文字符的方法简单而有效,可以在各种应用程序中广泛使用。
在Unicode中,每种语言或文字系统的字符都有一个特定的编码范围。以下是一些主要语言的Unicode编码范围: 1. **英文**: - Unicode范围:0041-005A(大写), 0061-007A(小写);如果包含数字和符号,范围是0021-...
- **4F00 - 50FF**: 在这部分区间中,我们可以看到不仅有汉字的编码,还混杂了一些拉丁字母和其他符号,这表明Unicode不仅仅限于汉字编码,还包括其他字符集的支持。 - **5100 - 53FF**: 这个区间的编码更加稀疏,...
**维吾尔文Unicode编码表**是针对现代维吾尔文中使用的字母、标点符号等字符制定的一种标准化编码方案。该编码表遵循Unicode国际标准,确保了维吾尔文在数字设备上的统一表示与兼容性。 #### 描述:标准的Unicode...
通过这份表格,我们可以清晰地看到每一个维吾尔文字符对应的Unicode编码值及其在不同上下文中可能的变化形式。 #### Unicode与维吾尔文 Unicode是一种用于表示世界上几乎所有的书写系统(包括维吾尔文)的标准编码...
例如,在建立索引时,考虑到汉字的Unicode区间,可以优化查询性能,避免因字符编码不一致导致的查询错误。 #### 文本分析与处理 在自然语言处理(NLP)、文本挖掘等领域,对汉字的精确编码和识别是基础。通过掌握...
使用方法 把langdetect文件夹拷贝到项目中,... 由于日文中的汉字和中文的unicode大部分是通用的,因此无法通过unicode区分日文和中文汉字。 我们可以假设,含有日文假名的就是日文,这样判断一句话是日文还是中文。
Unicode的发展还在继续,随着技术的进步和人类对文化多样性的认识加深,新的字符不断加入到这个大家庭中。例如,表情符号的广泛使用也促使Unicode组织将其纳入标准,从而使得各个平台和应用能够显示和使用这些丰富...
unicdoe转中文 泰文 日文 阿拉伯文 英文等等 也可以互相转,输入对应的码可以转成对应unicode区间的string
而CJK统一表意文字(CJK Unified Ideographs)是Unicode编码中的一个重要部分,它包括了中文、日文、韩文中的汉字字符。 Unicode编码表是开发人员和用户查找和理解不同字符编码关系的重要工具。在Unicode中,每个...
- **汉字的Unicode范围**:Unicode为汉字分配了一个较大的区间,主要包括基本汉字区(U+4E00-U+9FFF)、扩展A区(U+3400-U+4DBF)、扩展B区(U+20000-U+2A6DF)等。 - **示例解读**:根据题目给出的部分内容,我们...
1. **基本多文种平面**:这是Unicode中最常用的平面,包含了绝大多数现代文字的字符,包括汉字。基本多文种平面内的汉字主要分布在以下区间: - **CJK统一汉字扩展A**(U+3400–U+4DBF) - **CJK统一汉字**(U+4E...
- **编码范围**:从提供的数据来看,这些汉字的Unicode编码大多位于U+5000至U+9000区间内,这是汉字Unicode编码的常见范围。 - **编码含义**:每个Unicode编码对应着一个具体的汉字或符号,这意味着通过查找特定的...
例如,上文提到的4e00到4e70区间,包含了大量汉字的Unicode编码,如“一”到“乡”,每个字符都有其对应的Unicode值。这些编码使得各种语言的字符可以在同一文本中无缝混用,促进了全球化信息交流的便利性。 总的来...
虽然native2ascii工具在进行Unicode编码转换时非常便捷高效,但在实际使用过程中还需要注意以下几点: - **确认源文件编码**:确保在调用工具前明确源文件所使用的字符编码,这样才能准确无误地完成转换。 - **验证...