`

unicode基本平面区的编码区间含义

阅读更多

 

基本多文种平面(Basic Multilingual Plane, BMP),或称第零平面(Plane 0),是Unicode中的一个编码区段。编码从U+0000至U+FFFF。

 

一般想要什么样的文字区间就可以在这里找到了,如果你只想要简体中文的区间,得另外分析unicode中简体中文编码

 

0000-001F	C0控制符	 C0 Controls
0020-007F	基本拉丁文	 Basic Latin
0080-009F	C1控制符	C1 Controls
00A0-00FF	拉丁文补充-1	Latin 1 Supplement
0100-017F	拉丁文扩展-A	Latin Extended-A
0180-024F	拉丁文扩展-B	Latin Extended-B
0250-02AF	国际音标扩展	IPA Extensions
02B0-02FF	占位修饰符号	Spacing Modifiers
0300-036F	结合附加符号	Combining Diacritics Marks
0370-03FF	希腊字母及科普特字母	Greek and Coptic
0400-04FF	西里尔字母	Cyrillic
0500-052F	西里尔字母补充	Cyrillic Supplement
0530-058F	亚美尼亚字母	Armenian
0590-05FF	希伯来文	Hebrew
0600-06FF	阿拉伯文	Arabic
0700-074F	叙利亚文	Syriac
0750-077F	阿拉伯文补充	Arabic Supplement
0780-07BF	它拿字母	Thaana
07C0-077F	西非书面语言	N'Ko
0800-083F	撒玛利亚字母	Samaritan
0840-085F			Mandaic
0860-08FF	待定
0900-097F	天城文		Devanagari
0980-09FF	孟加拉文	Bengali
0A00-0A7F	果鲁穆奇字母	Gurmukhi
0A80-0AFF	古吉拉特文	Gujarati
0B00-0B7F	奥里亚文	Oriya
0B80-0BFF	泰米尔文	Tamil
0C00-0C7F	泰卢固文	Telugu
0C80-0CFF	卡纳达文	Kannada
0D00-0D7F	马拉雅拉姆文	Malayalam
0D80-0DFF	僧伽罗文	Sinhala
0E00-0E7F	泰文		Thai
0E80-0EFF	老挝文		Lao
0F00-0FFF	藏文		Tibetan
1000-109F	缅甸文		Myanmar
10A0-10FF	格鲁吉亚字母	Georgian
1100-11FF	谚文字母	Hangul Jamo
1200-137F	埃塞俄比亚语	Ethiopic
1380-139F	埃塞俄比亚语补充	Ethiopic Supplement
13A0-13FF	切罗基字母	Cherokee
1400-167F	统一加拿大土著语音节	Unified Canadian Aboriginal Syllabics
1680-169F	欧甘字母	Ogham
16A0-16FF	卢恩字母	Runic
1700-171F	他加禄字母	Tagalog
1720-173F	哈努诺文	Hanunóo
1740-175F	布迪文		Buhid
1760-177F	塔格巴努亚文	Tagbanwa
1780-17FF	高棉文		Khmer
1800-18AF	蒙古文		Mongolian
18B0-18FF	统一加拿大土著语音节扩展	Unified Canadian Aboriginal Syllabics Extended
1900-194F	林布文		Limbu
1950-197F	德宏傣文	Tai Le
1980-19DF	新傣仂文	New Tai Lue
19E0-19FF	高棉文符号	Khmer Symbols
1A00-1A1F	布吉文		Buginese
1A20-1AAF	老傣文		Tai Tham
1AB0-1AFF	待定		
1B00-1B7F	巴厘字母	Balinese
1B80-1BBF	巽他字母	Sundanese
1BC0-1BFF	巴塔克文	Batak
1C00-1C4F	雷布查字母	Lepcha
1C50-1C7F			Ol Chiki
1C80-1CBF	待定
1CC0-1CCF	巽他字母补充	Sudanese Supplement
1CD0-1CFF	吠陀梵文	Vedic Extensions
1D00-1D7F	语音学扩展	Phonetic Extensions
1D80-1DBF	语音学扩展补充	Phonetic Extensions Supplement
1DC0-1DFF	结合附加符号补充	Combining Diacritics Marks Supplement
1E00-1EFF	拉丁文扩展附加	Latin Extended Additional
1F00-1FFF	希腊语扩展	Greek Extended
2000-206F	常用标点	General Punctuation
2070-209F	上标及下标	Superscripts and Subscripts
20A0-20CF	货币符号	Currency Symbols
20D0-20FF	组合用记号	Combining Diacritics Marks for Symbols
2100-214F	字母式符号	Letterlike Symbols
2150-218F	数字形式	Number Form
2190-21FF	箭头		Arrows
2200-22FF	数学运算符	Mathematical Operator
2300-23FF	杂项工业符号	Miscellaneous Technical
2400-243F	控制图片	Control Pictures
2440-245F	光学识别符	Optical Character Recognition
2460-24FF	封闭式字母数字	Enclosed Alphanumerics
2500-257F	制表符		Box Drawing
2580-259F	方块元素	Block Element
25A0-25FF	几何图形	Geometric Shapes
2600-26FF	杂项符号	Miscellaneous Symbols
2700-27BF	印刷符号	Dingbats
27C0-27EF	杂项数学符号-A	Miscellaneous Mathematical Symbols-A
27F0-27FF	追加箭头-A	Supplemental Arrows-A
2800-28FF	盲文点字模型	Braille Patterns
2900-297F	追加箭头-B	Supplemental Arrows-B
2980-29FF	杂项数学符号-B	Miscellaneous Mathematical Symbols-B
2A00-2AFF	追加数学运算符	Supplemental Mathematical Operator
2B00-2BFF	杂项符号和箭头	Miscellaneous Symbols and Arrows
2C00-2C5F	格拉哥里字母	Glagolitic
2C60-2C7F	拉丁文扩展-C	Latin Extended-C
2C80-2CFF	科普特字母	Coptic
2D00-2D2F	格鲁吉亚字母补充	Georgian Supplement
2D30-2D7F	提非纳文	Tifinagh
2D80-2DDF	埃塞俄比亚语扩展	Ethiopic Extended
2E00-2E7F	追加标点	Supplemental Punctuation
2E80-2EFF	中日朝部首补充	CJK Radicals Supplement
2F00-2FDF	康熙部首	Kangxi Radicals
2FF0-2FFF	表意文字描述符	Ideographic Description Characters
3000-303F	中日朝符号和标点	CJK Symbols and Punctuation
3040-309F	日文平假名	Hiragana
30A0-30FF	日文片假名	Katakana
3100-312F	注音字母	Bopomofo
3130-318F	谚文兼容字母	Hangul Compatibility Jamo
3190-319F	象形字注释标志	Kanbun
31A0-31BF	注音字母扩展	Bopomofo Extended
31C0-31EF	中日朝笔画	CJK Strokes
31F0-31FF	日文片假名语音扩展	Katakana Phonetic Extensions
3200-32FF	带圈中日朝字母和月份	Enclosed CJK Letters and Months
3300-33FF	中日朝兼容	CJK Compatibility
3400-4DBF	中日朝统一表意文字扩展A	CJK Unified Ideographs Extension A
4DC0-4DFF	易经六十四卦符号	Yijing Hexagrams Symbols
4E00-9FFF	中日韩统一表意文字	CJK Unified Ideographs
A000-A48F	彝文音节	Yi Syllables
A490-A4CF	彝文字根	Yi Radicals
A4D0-A4FF	老傈僳文	Lisu
A500-A63F	瓦伊语		Vai
A640-A69F	西里尔字母扩展-B	Cyrillic Extended-B
A6A0-A6FF	巴姆穆语	Bamum
A700-A71F	声调修饰字母	Modifier Tone Letters
A720-A7FF	拉丁文扩展-D	Latin Extended-D
A800-A82F	锡尔赫特文	Syloti Nagri
A830-A83F			Ind. No.
A840-A87F	八思巴字	Phags-pa
A880-A8DF	索拉什特拉	Saurashtra
A8E0-A8FF			Deva. Ext.
A900-A92F	克耶字母	Kayah Li
A930-A95F	勒姜语		Rejang
A980-A9DF	爪哇语		Javanese
A9E0-A9FF	待定
AA00-AA5F	鞑靼文		Cham
AA60-AA7F	缅甸语扩展	Myanmar ExtA
AA80-AADF	越南傣文	Tai Viet
AAE0-AAFF	曼尼普尔文扩展	Meetei Ext
AB00-AB2F	埃塞俄比亚文	Ethiopic Ext-A
AB30-ABBF	待定
ABC0-ABFF				Meetei Mayek
AC00-D7AF	谚文音节		Hangul Syllables
D7B0-D7FF	朝鲜语扩展-B	Hangul Jamo Extended-B
D800-DBFF				High-half zone of UTF-16
DC00-DFFF				Low-half zone of UTF-16
E000-F8FF	自行使用区域	Private Use Zone
F900-FAFF	中日朝兼容表意文字	CJK Compatibility Ideographs
FB00-FB4F	字母表达形式(拉丁字母连字、亚美尼亚字母连字、希伯来文表现形式)Alphabetic Presentation Forms
FB50-FDFF	阿拉伯文表达形式A	Arabic Presentation Forms A
FE00-FE0F	变量选择符	Variation Selector
FE10-FE1F	竖排形式	Vertical Forms
FE20-FE2F	组合用半符号	Combining Half Marks
FE30-FE4F	中日朝兼容形式	CJK Compatibility Forms
FE50-FE6F	小型变体形式	Small Form Variants
FE70-FEFF	阿拉伯文表达形式B	Arabic Presentation Forms B
FF00-FFEF	半型及全型形式	Halfwidth and Fullwidth Forms
FFF0-FFFF		特殊		Specials
 别的区间可参考 unicode中的几大区间
0
0
分享到:
评论

相关推荐

    各国文字Unicode编码范围.zip

    6. **汉字**:Unicode为汉字预留了大量的编码空间,主要集中在基本多文种平面(BMP)的4E00至9FFF,称为CJK统一表意字符区。此外,还有许多补充汉字在更高平面中。 7. **日文**:日文字符包括平假名(3040-309F)、...

    通过对字符的unicode编码进行判断来确定字符是否为中文

    对于中文字符而言,它们主要集中在Unicode的基本多文种平面(BMP)的一个特定范围内:U+4E00至U+9FFF。这个范围包含了大多数常用的现代中文字符。 #### C#中的中文字符判断方法 下面的C#代码展示了如何编写一个...

    常见汉字unicode编码

    基本多文种平面内的汉字主要分布在以下区间: - **CJK统一汉字扩展A**(U+3400–U+4DBF) - **CJK统一汉字**(U+4E00–U+9FFF) - **CJK统一汉字扩展B**(U+20000–U+2A6DF) - **其他扩展区域**(如U+2A700–U+...

    UNICODE编码表,方便查找对应关系

    由于字符集非常庞大,Unicode也分为多个部分或区段,CJK统一表意文字就位于基本多文种平面(BMP)中,其码点范围从U+4E00至U+9FFF。 汉字编码主要位于CJK统一表意文字区段,这部分涵盖了最常用的汉字,是对早期GB...

    汉字unicode码.txt

    - Unicode编码范围从U+0000至U+10FFFF,其中常用的是基本多文种平面(BMP),即U+0000至U+FFFF。 2. **Unicode与UTF-8**: - UTF-8是一种变长的Unicode编码方式,兼容ASCII,并能够高效地表示各种语言的文字。 - ...

    Unicode汉字内码表

    - **汉字的Unicode范围**:Unicode为汉字分配了一个较大的区间,主要包括基本汉字区(U+4E00-U+9FFF)、扩展A区(U+3400-U+4DBF)、扩展B区(U+20000-U+2A6DF)等。 - **示例解读**:根据题目给出的部分内容,我们...

    资料:Unicode 汉字内码对应表第1/5页

    - **基本多文种平面**(Basic Multilingual Plane, BMP):这是Unicode编码空间中的第一个平面,包含了大多数常用字符,包括汉语汉字。 - **辅助平面**(Supplementary Planes):用于存储一些较为罕见或历史性的...

    汉字批量转Unicode,生成C语言格式的16进制数组

    对于汉字,Unicode编码通常在基本多文种平面(BMP)内的U+4E00到U+9FFF区间。 TFT_eSPI是一个用于Arduino的图形库,支持各种彩色TFT显示屏。它允许开发者自定义字体,以便在屏幕上显示非标准字符,如汉字。在...

    中文汉字随机码字符

    - 基本多文种平面(BMP):`U+4E00` 至 `U+9FFF` - 扩展汉字A区:`U+3400` 至 `U+4DBF` - 扩展汉字B区:`U+20000` 至 `U+2A6DF` 这些区间覆盖了现代汉语中最常用到的汉字,包括但不限于简体字、繁体字等。 #### 三...

    常用字符集简介

    GBK编码是GB2312的超集,向下完全兼容GB2312的同时,收录了Unicode基本多文种平面中的所有CJK汉字,从而大大扩展了字符集的容量。GBK同样支持希腊字母、日文假名字母、俄语字母等字符,但不支持韩语中的表音字符。...

    判断一个字是否为汉字模块.zip易语言项目例子源码下载

    在ASCII编码中,汉字不在基本拉丁字符集中,而是存在于扩展的Unicode区间。通常,汉字的Unicode值在\u4e00到\u9fff之间,这是所谓的“基本多文种平面”(BMP)的汉字符集。 在易语言中,我们可以利用字符串处理函数...

    合法的中英文判断

    中文字符在Unicode中的范围主要在`U+4E00`到`U+9FFF`之间,被称为"基本多文种平面"(BMP)的汉字区,但还包括其他扩展区域。英文字符则主要由拉丁字母组成,分布在Unicode的`U+0020`到`U+007F`之间,这个区间包含了...

    用C++编写的TXT文档的字符合法性检测

    但如果你希望限制到某个特定的Unicode区间,例如仅接受基本多文种平面(BMP)的字符(0-65535),则可以修改`is_valid_char`如下: ```cpp bool is_valid_char(char c) { unsigned int code_point = static_cast(c...

    用正则表达式来表示中文

    Unicode中的汉字范围远超GBK,主要分布在Unicode的基本多文种平面(BMP)的第2区(区号4E00-9FFF)以及辅助多文种平面(超出BMP的范围,如20000-2A6DF等)。因此,如果你需要匹配所有Unicode汉字,可以使用以下正则...

    asp.net中文验证码

    ASP.NET 可以通过编程方式从 Unicode 字符集中选择中文字符,例如使用 `Random` 类生成随机索引,然后从 Unicode 区间(如 U+4E00 到 U+9FFF,即基本多文种平面的汉字区)获取对应的字符。 2. **字体处理**:为了在...

Global site tag (gtag.js) - Google Analytics