基本多文种平面(Basic Multilingual Plane, BMP),或称第零平面(Plane 0),是Unicode中的一个编码区段。编码从U+0000至U+FFFF。
一般想要什么样的文字区间就可以在这里找到了,如果你只想要简体中文的区间,得另外分析unicode中简体中文编码
0000-001F C0控制符 C0 Controls
0020-007F 基本拉丁文 Basic Latin
0080-009F C1控制符 C1 Controls
00A0-00FF 拉丁文补充-1 Latin 1 Supplement
0100-017F 拉丁文扩展-A Latin Extended-A
0180-024F 拉丁文扩展-B Latin Extended-B
0250-02AF 国际音标扩展 IPA Extensions
02B0-02FF 占位修饰符号 Spacing Modifiers
0300-036F 结合附加符号 Combining Diacritics Marks
0370-03FF 希腊字母及科普特字母 Greek and Coptic
0400-04FF 西里尔字母 Cyrillic
0500-052F 西里尔字母补充 Cyrillic Supplement
0530-058F 亚美尼亚字母 Armenian
0590-05FF 希伯来文 Hebrew
0600-06FF 阿拉伯文 Arabic
0700-074F 叙利亚文 Syriac
0750-077F 阿拉伯文补充 Arabic Supplement
0780-07BF 它拿字母 Thaana
07C0-077F 西非书面语言 N'Ko
0800-083F 撒玛利亚字母 Samaritan
0840-085F Mandaic
0860-08FF 待定
0900-097F 天城文 Devanagari
0980-09FF 孟加拉文 Bengali
0A00-0A7F 果鲁穆奇字母 Gurmukhi
0A80-0AFF 古吉拉特文 Gujarati
0B00-0B7F 奥里亚文 Oriya
0B80-0BFF 泰米尔文 Tamil
0C00-0C7F 泰卢固文 Telugu
0C80-0CFF 卡纳达文 Kannada
0D00-0D7F 马拉雅拉姆文 Malayalam
0D80-0DFF 僧伽罗文 Sinhala
0E00-0E7F 泰文 Thai
0E80-0EFF 老挝文 Lao
0F00-0FFF 藏文 Tibetan
1000-109F 缅甸文 Myanmar
10A0-10FF 格鲁吉亚字母 Georgian
1100-11FF 谚文字母 Hangul Jamo
1200-137F 埃塞俄比亚语 Ethiopic
1380-139F 埃塞俄比亚语补充 Ethiopic Supplement
13A0-13FF 切罗基字母 Cherokee
1400-167F 统一加拿大土著语音节 Unified Canadian Aboriginal Syllabics
1680-169F 欧甘字母 Ogham
16A0-16FF 卢恩字母 Runic
1700-171F 他加禄字母 Tagalog
1720-173F 哈努诺文 Hanunóo
1740-175F 布迪文 Buhid
1760-177F 塔格巴努亚文 Tagbanwa
1780-17FF 高棉文 Khmer
1800-18AF 蒙古文 Mongolian
18B0-18FF 统一加拿大土著语音节扩展 Unified Canadian Aboriginal Syllabics Extended
1900-194F 林布文 Limbu
1950-197F 德宏傣文 Tai Le
1980-19DF 新傣仂文 New Tai Lue
19E0-19FF 高棉文符号 Khmer Symbols
1A00-1A1F 布吉文 Buginese
1A20-1AAF 老傣文 Tai Tham
1AB0-1AFF 待定
1B00-1B7F 巴厘字母 Balinese
1B80-1BBF 巽他字母 Sundanese
1BC0-1BFF 巴塔克文 Batak
1C00-1C4F 雷布查字母 Lepcha
1C50-1C7F Ol Chiki
1C80-1CBF 待定
1CC0-1CCF 巽他字母补充 Sudanese Supplement
1CD0-1CFF 吠陀梵文 Vedic Extensions
1D00-1D7F 语音学扩展 Phonetic Extensions
1D80-1DBF 语音学扩展补充 Phonetic Extensions Supplement
1DC0-1DFF 结合附加符号补充 Combining Diacritics Marks Supplement
1E00-1EFF 拉丁文扩展附加 Latin Extended Additional
1F00-1FFF 希腊语扩展 Greek Extended
2000-206F 常用标点 General Punctuation
2070-209F 上标及下标 Superscripts and Subscripts
20A0-20CF 货币符号 Currency Symbols
20D0-20FF 组合用记号 Combining Diacritics Marks for Symbols
2100-214F 字母式符号 Letterlike Symbols
2150-218F 数字形式 Number Form
2190-21FF 箭头 Arrows
2200-22FF 数学运算符 Mathematical Operator
2300-23FF 杂项工业符号 Miscellaneous Technical
2400-243F 控制图片 Control Pictures
2440-245F 光学识别符 Optical Character Recognition
2460-24FF 封闭式字母数字 Enclosed Alphanumerics
2500-257F 制表符 Box Drawing
2580-259F 方块元素 Block Element
25A0-25FF 几何图形 Geometric Shapes
2600-26FF 杂项符号 Miscellaneous Symbols
2700-27BF 印刷符号 Dingbats
27C0-27EF 杂项数学符号-A Miscellaneous Mathematical Symbols-A
27F0-27FF 追加箭头-A Supplemental Arrows-A
2800-28FF 盲文点字模型 Braille Patterns
2900-297F 追加箭头-B Supplemental Arrows-B
2980-29FF 杂项数学符号-B Miscellaneous Mathematical Symbols-B
2A00-2AFF 追加数学运算符 Supplemental Mathematical Operator
2B00-2BFF 杂项符号和箭头 Miscellaneous Symbols and Arrows
2C00-2C5F 格拉哥里字母 Glagolitic
2C60-2C7F 拉丁文扩展-C Latin Extended-C
2C80-2CFF 科普特字母 Coptic
2D00-2D2F 格鲁吉亚字母补充 Georgian Supplement
2D30-2D7F 提非纳文 Tifinagh
2D80-2DDF 埃塞俄比亚语扩展 Ethiopic Extended
2E00-2E7F 追加标点 Supplemental Punctuation
2E80-2EFF 中日朝部首补充 CJK Radicals Supplement
2F00-2FDF 康熙部首 Kangxi Radicals
2FF0-2FFF 表意文字描述符 Ideographic Description Characters
3000-303F 中日朝符号和标点 CJK Symbols and Punctuation
3040-309F 日文平假名 Hiragana
30A0-30FF 日文片假名 Katakana
3100-312F 注音字母 Bopomofo
3130-318F 谚文兼容字母 Hangul Compatibility Jamo
3190-319F 象形字注释标志 Kanbun
31A0-31BF 注音字母扩展 Bopomofo Extended
31C0-31EF 中日朝笔画 CJK Strokes
31F0-31FF 日文片假名语音扩展 Katakana Phonetic Extensions
3200-32FF 带圈中日朝字母和月份 Enclosed CJK Letters and Months
3300-33FF 中日朝兼容 CJK Compatibility
3400-4DBF 中日朝统一表意文字扩展A CJK Unified Ideographs Extension A
4DC0-4DFF 易经六十四卦符号 Yijing Hexagrams Symbols
4E00-9FFF 中日韩统一表意文字 CJK Unified Ideographs
A000-A48F 彝文音节 Yi Syllables
A490-A4CF 彝文字根 Yi Radicals
A4D0-A4FF 老傈僳文 Lisu
A500-A63F 瓦伊语 Vai
A640-A69F 西里尔字母扩展-B Cyrillic Extended-B
A6A0-A6FF 巴姆穆语 Bamum
A700-A71F 声调修饰字母 Modifier Tone Letters
A720-A7FF 拉丁文扩展-D Latin Extended-D
A800-A82F 锡尔赫特文 Syloti Nagri
A830-A83F Ind. No.
A840-A87F 八思巴字 Phags-pa
A880-A8DF 索拉什特拉 Saurashtra
A8E0-A8FF Deva. Ext.
A900-A92F 克耶字母 Kayah Li
A930-A95F 勒姜语 Rejang
A980-A9DF 爪哇语 Javanese
A9E0-A9FF 待定
AA00-AA5F 鞑靼文 Cham
AA60-AA7F 缅甸语扩展 Myanmar ExtA
AA80-AADF 越南傣文 Tai Viet
AAE0-AAFF 曼尼普尔文扩展 Meetei Ext
AB00-AB2F 埃塞俄比亚文 Ethiopic Ext-A
AB30-ABBF 待定
ABC0-ABFF Meetei Mayek
AC00-D7AF 谚文音节 Hangul Syllables
D7B0-D7FF 朝鲜语扩展-B Hangul Jamo Extended-B
D800-DBFF High-half zone of UTF-16
DC00-DFFF Low-half zone of UTF-16
E000-F8FF 自行使用区域 Private Use Zone
F900-FAFF 中日朝兼容表意文字 CJK Compatibility Ideographs
FB00-FB4F 字母表达形式(拉丁字母连字、亚美尼亚字母连字、希伯来文表现形式)Alphabetic Presentation Forms
FB50-FDFF 阿拉伯文表达形式A Arabic Presentation Forms A
FE00-FE0F 变量选择符 Variation Selector
FE10-FE1F 竖排形式 Vertical Forms
FE20-FE2F 组合用半符号 Combining Half Marks
FE30-FE4F 中日朝兼容形式 CJK Compatibility Forms
FE50-FE6F 小型变体形式 Small Form Variants
FE70-FEFF 阿拉伯文表达形式B Arabic Presentation Forms B
FF00-FFEF 半型及全型形式 Halfwidth and Fullwidth Forms
FFF0-FFFF 特殊 Specials
别的区间可参考
unicode中的几大区间
分享到:
相关推荐
6. **汉字**:Unicode为汉字预留了大量的编码空间,主要集中在基本多文种平面(BMP)的4E00至9FFF,称为CJK统一表意字符区。此外,还有许多补充汉字在更高平面中。 7. **日文**:日文字符包括平假名(3040-309F)、...
对于中文字符而言,它们主要集中在Unicode的基本多文种平面(BMP)的一个特定范围内:U+4E00至U+9FFF。这个范围包含了大多数常用的现代中文字符。 #### C#中的中文字符判断方法 下面的C#代码展示了如何编写一个...
基本多文种平面内的汉字主要分布在以下区间: - **CJK统一汉字扩展A**(U+3400–U+4DBF) - **CJK统一汉字**(U+4E00–U+9FFF) - **CJK统一汉字扩展B**(U+20000–U+2A6DF) - **其他扩展区域**(如U+2A700–U+...
由于字符集非常庞大,Unicode也分为多个部分或区段,CJK统一表意文字就位于基本多文种平面(BMP)中,其码点范围从U+4E00至U+9FFF。 汉字编码主要位于CJK统一表意文字区段,这部分涵盖了最常用的汉字,是对早期GB...
- Unicode编码范围从U+0000至U+10FFFF,其中常用的是基本多文种平面(BMP),即U+0000至U+FFFF。 2. **Unicode与UTF-8**: - UTF-8是一种变长的Unicode编码方式,兼容ASCII,并能够高效地表示各种语言的文字。 - ...
- **汉字的Unicode范围**:Unicode为汉字分配了一个较大的区间,主要包括基本汉字区(U+4E00-U+9FFF)、扩展A区(U+3400-U+4DBF)、扩展B区(U+20000-U+2A6DF)等。 - **示例解读**:根据题目给出的部分内容,我们...
- **基本多文种平面**(Basic Multilingual Plane, BMP):这是Unicode编码空间中的第一个平面,包含了大多数常用字符,包括汉语汉字。 - **辅助平面**(Supplementary Planes):用于存储一些较为罕见或历史性的...
对于汉字,Unicode编码通常在基本多文种平面(BMP)内的U+4E00到U+9FFF区间。 TFT_eSPI是一个用于Arduino的图形库,支持各种彩色TFT显示屏。它允许开发者自定义字体,以便在屏幕上显示非标准字符,如汉字。在...
- 基本多文种平面(BMP):`U+4E00` 至 `U+9FFF` - 扩展汉字A区:`U+3400` 至 `U+4DBF` - 扩展汉字B区:`U+20000` 至 `U+2A6DF` 这些区间覆盖了现代汉语中最常用到的汉字,包括但不限于简体字、繁体字等。 #### 三...
GBK编码是GB2312的超集,向下完全兼容GB2312的同时,收录了Unicode基本多文种平面中的所有CJK汉字,从而大大扩展了字符集的容量。GBK同样支持希腊字母、日文假名字母、俄语字母等字符,但不支持韩语中的表音字符。...
在ASCII编码中,汉字不在基本拉丁字符集中,而是存在于扩展的Unicode区间。通常,汉字的Unicode值在\u4e00到\u9fff之间,这是所谓的“基本多文种平面”(BMP)的汉字符集。 在易语言中,我们可以利用字符串处理函数...
中文字符在Unicode中的范围主要在`U+4E00`到`U+9FFF`之间,被称为"基本多文种平面"(BMP)的汉字区,但还包括其他扩展区域。英文字符则主要由拉丁字母组成,分布在Unicode的`U+0020`到`U+007F`之间,这个区间包含了...
但如果你希望限制到某个特定的Unicode区间,例如仅接受基本多文种平面(BMP)的字符(0-65535),则可以修改`is_valid_char`如下: ```cpp bool is_valid_char(char c) { unsigned int code_point = static_cast(c...
Unicode中的汉字范围远超GBK,主要分布在Unicode的基本多文种平面(BMP)的第2区(区号4E00-9FFF)以及辅助多文种平面(超出BMP的范围,如20000-2A6DF等)。因此,如果你需要匹配所有Unicode汉字,可以使用以下正则...
ASP.NET 可以通过编程方式从 Unicode 字符集中选择中文字符,例如使用 `Random` 类生成随机索引,然后从 Unicode 区间(如 U+4E00 到 U+9FFF,即基本多文种平面的汉字区)获取对应的字符。 2. **字体处理**:为了在...