因为FontRouter新版本开发的需要,在网上搜索了一下汉字的Unicode范围,普遍给出了“U+4E00..U+9FA5”。但事实上这个范 围是不完整的,甚至连基本的全角(中文)标点也未包含在内。为此,我特地查询了Unicode官方的Code Charts数据库,并根据最新的Unicode 5.0版整理如下:
注:在绝大多数应用场合中,我们可以仅用(1)、(2)、(3)、(4)、(5)的集合作为CJK判断的依据。
1)标准CJK文字
http://www.unicode.org/Public/UNIDATA/Unihan.html
Code point range
Block name
Release
U+3400..U+4DB5 |
CJK Unified Ideographs Extension A |
3.0 |
U+4E00..U+9FA5 |
CJK Unified Ideographs |
1.1 |
U+9FA6..U+9FBB |
CJK Unified Ideographs |
4.1 |
U+F900..U+FA2D |
CJK Compatibility Ideographs |
1.1 |
U+FA30..U+FA6A |
CJK Compatibility Ideographs |
3.2 |
U+FA70..U+FAD9 |
CJK Compatibility Ideographs |
4.1 |
U+20000..U+2A6D6 |
CJK Unified Ideographs Extension B |
3.1 |
U+2F800..U+2FA1D |
CJK Compatibility Supplement |
3.1 |
2)全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF
http://www.unicode.org/charts/PDF/UFF00.pdf
3)CJK部首补充:2E80-2EFF
http://www.unicode.org/charts/PDF/U2E80.pdf
4)CJK标点符号:3000-303F
http://www.unicode.org/charts/PDF/U3000.pdf
5)CJK笔划:31C0-31EF
http://www.unicode.org/charts/PDF/U31C0.pdf
6)康熙部首:2F00-2FDF
http://www.unicode.org/charts/PDF/U2F00.pdf
7)汉字结构描述字符:2FF0-2FFF
http://www.unicode.org/charts/PDF/U2FF0.pdf
8)注音符号:3100-312F
http://www.unicode.org/charts/PDF/U3100.pdf
9)注音符号(闽南语、客家语扩展):31A0-31BF
http://www.unicode.org/charts/PDF/U31A0.pdf
10)日文平假名:3040-309F
http://www.unicode.org/charts/PDF/U3040.pdf
11)日文片假名:30A0-30FF
http://www.unicode.org/charts/PDF/U30A0.pdf
12)日文片假名拼音扩展:31F0-31FF
http://www.unicode.org/charts/PDF/U31F0.pdf
13)韩文拼音:AC00-D7AF
http://www.unicode.org/charts/PDF/UAC00.pdf
14)韩文字母:1100-11FF
http://www.unicode.org/charts/PDF/U1100.pdf
15)韩文兼容字母:3130-318F
http://www.unicode.org/charts/PDF/U3130.pdf
16)太玄经符号:1D300-1D35F
http://www.unicode.org/charts/PDF/U1D300.pdf
17)易经六十四卦象:4DC0-4DFF
http://www.unicode.org/charts/PDF/U4DC0.pdf
18)彝文音节:A000-A48F
http://www.unicode.org/charts/PDF/UA000.pdf
19)彝文部首:A490-A4CF
http://www.unicode.org/charts/PDF/UA490.pdf
20)盲文符号:2800-28FF
http://www.unicode.org/charts/PDF/U2800.pdf
21)CJK字母及月份:3200-32FF
http://www.unicode.org/charts/PDF/U3200.pdf
22)CJK特殊符号(日期合并):3300-33FF
http://www.unicode.org/charts/PDF/U3300.pdf
23)装饰符号(非CJK专用):2700-27BF
http://www.unicode.org/charts/PDF/U2700.pdf
24)杂项符号(非CJK专用):2600-26FF
http://www.unicode.org/charts/PDF/U2600.pdf
25)中文竖排标点:FE10-FE1F
http://www.unicode.org/charts/PDF/UFE10.pdf
26)CJK兼容符号(竖排变体、下划线、顿号):FE30-FE4F
http://www.unicode.org/charts/PDF/UFE30.pdf
以上翻译自Unicode官方网站,部分译法可能不够准确,还望大家予以指正!如有疏漏、错误之处也请一并指出,多谢!
相关推荐
因为FontRouter新版本开发的需要,在网上搜索了一下汉字的Unicode范围,普遍给出了“U+4E00..U+9FA5”。但事实上这个范围是不完整的,甚至连基本的全角(中文)标点也未包含在内。为此,我特地查询了Unicode官方的...
21)CJK特殊符号(日期合并):3300-33FF U3300.pdf 22)装饰符号(非CJK专用):2700-27BF U2700.pdf 23)杂项符号(非CJK专用):2600-26FF U2600.pdf 25)中文竖排标点:FE10-FE1F UFE10.pdf 26)CJK兼容符号...
Unicode编码表分为多个区域,其中一个主要的区域是CJK统一汉字区(CJK Unified Ideographs Range),范围从4E00至9FEF。这个区域主要涵盖了中文、日文、韩文以及古代越南文等使用的汉字字符集。CJK代表的是中文...
6. **汉字**:Unicode为汉字预留了大量的编码空间,主要集中在基本多文种平面(BMP)的4E00至9FFF,称为CJK统一表意字符区。此外,还有许多补充汉字在更高平面中。 7. **日文**:日文字符包括平假名(3040-309F)、...
4. **CJK Unified Ideographs Extension D**:Unicode 5.1中新增,继续扩大汉字的覆盖范围,特别是增加了大量的台湾地区使用的汉字。 5. **CJK Unified Ideographs Extension E**:在Unicode 6.0中加入,主要包含了...
在Unicode中,汉字被分配在多个不同的代码块中,其中最常用的是“CJK Unified Ideographs”块,该块覆盖了从U+4E00到U+9FA0的范围,包含了大部分常用汉字。以下是一部分具体的例子: - 汉字“经”的Unicode编码为0x...
扩展A至E的CJK字符集在Unicode11.0中进一步扩大了对东亚地区汉字的覆盖范围。这些扩展包含了大量罕见的汉字、古汉字、异体字以及部分少数民族文字。对于学术研究、文献整理和文化保护等领域具有重要意义。例如,扩展...
在Unicode 5.0版本中,这个码点范围从U+0000到U+10FFFF,共包括1,114,112个码点,涵盖了世界上大多数语言的文字,包括但不限于拉丁文、希腊文、希伯来文、阿拉伯文、汉字、日文、韩文以及各种古老和罕见的语言文字。...
综上所述,Unicode编码表不仅解决了字符编码冲突的问题,还为全球范围内多语言的交流和使用提供了强有力的支持。无论是对于软件开发者还是语言学者而言,理解和掌握Unicode编码都是非常重要的。
在Unicode编码体系中,"CJK Unified Ideographs"是一个重要的部分,覆盖了汉字以及部分日韩使用的汉字。这部分编码范围从U+4E00至U+9FCF,包含了超过两万个字符,几乎涵盖了中文、日文和韩文中常用的汉字。这些字符...
#### 常用汉字的Unicode范围 根据题目提供的信息,“所有常用字的unicode”这一主题主要关注的是常用汉字的Unicode编码。通常,我们所说的“常用汉字”指的是在日常生活中频繁使用的汉字集合。这些汉字涵盖了汉语中...
- 中文字符范围是4E00-9FA5,属于CJK统一表意符号(CJKUnifiedIdeographs)。 - 拉丁文的大小写字母和数字等基础字符位于0000-007F,属于C0控制符及基本拉丁文(C0ControlandBasicLatin)。 - 拉丁文补充范围位于...
在Unicode编码体系中,对于中文字符(尤其是繁体和简体汉字)的支持是通过**CJK Unified Ideographs**(中日韩统一表意文字)来实现的。这部分编码范围广泛涵盖了汉字的使用需求,特别是针对东亚地区的书写系统。 #...
Unicode编码的范围从U+0000到U+10FFFF,共包含超过140万个不同的码点,涵盖了全球几乎所有的文字系统。 Unicode编码表分为多个区块,每个区块对应一组特定的字符或符号。例如,汉字主要位于基本多文种平面(BMP)的...
Unicode块是Unicode码点的一个连续范围,通常用于组织和分类字符。例如,“CJK统一汉字符扩展A区”就是一个Unicode块,包含了大量汉语字符。在PHP中,我们可以使用`mb_convert_encoding()`函数来处理特定Unicode块...
#### 三、常见汉字Unicode范围 1. **基本多文种平面**:这是Unicode中最常用的平面,包含了绝大多数现代文字的字符,包括汉字。基本多文种平面内的汉字主要分布在以下区间: - **CJK统一汉字扩展A**(U+3400–U+4...
- Unicode除了基本多文种平面之外,还包括了一些扩展区域,用于支持更多特殊字符或古文字,如CJK Unified Ideographs Extension A(U+3400–U+4DBF)等。 3. **字符编码转换**: - 在实际应用中,常常需要进行不同...
由于字符集非常庞大,Unicode也分为多个部分或区段,CJK统一表意文字就位于基本多文种平面(BMP)中,其码点范围从U+4E00至U+9FFF。 汉字编码主要位于CJK统一表意文字区段,这部分涵盖了最常用的汉字,是对早期GB...
由于Unicode的出现,ASCII现在已成为Unicode的一部分,具体来说,ASCII覆盖了Unicode编码中的U+0000到U+007F范围。 HTML(超文本标记语言)是用于创建网页的标准标记语言,而字符集的声明在HTML文档的部分的标签中...
中文汉字在Unicode中的范围大致为:4E00-9FBF,这部分被称为CJK统一表意符号(CJKUnifiedIdeographs)。 #### ASCII编码介绍 ASCII编码是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它...