`
achun
  • 浏览: 314149 次
  • 性别: Icon_minigender_1
  • 来自: 河南郑州
社区版块
存档分类
最新评论

Unicode CJK部分编码笔记

阅读更多

首先请关注 http://zh.wikibooks.org/wiki/Unicode 直观对照,下面是范围的解释
他的应用就不说了,基础设施呀。

本来要带上例子字符的,可ITEYE发不上,没办法了。

全部Unicode中日韩越通用汉字字符(约76227字)。
定义            范围                   字数
CJK基本集    [4E00-9FBB]      20924字
                   [9FC3-9FCB]              8字
CJK扩展A     [3400-4DB5]       6582字
CJK扩展B     [20000-2A6D6] 42711字
CJK扩展C   [2A700-2B734]   4149字
CJK扩展D   [2A740-2B81D]     222字

部首扩展      [2E80-2EF3]        115字
康熙部首      [2F00-2FD5]        214字
IDS符号       [2FF0-2FFB]          12字
CJK符号      [3000-303F]          64字
日文假名      [3040-30FF]        189字
CJK注音符号 [3105-312C]         40字
CJK笔画       [31C0-31E3]         36字
全角符号      [FF01-FF60]           96字

CJK兼容        [F900-FAD9]        474字
CJK兼容扩展  [2F800-2FA1D]    542字
PUA(GBK) [E815-E864]          79字


更详细的解释,其实有些是保留的,目的不外乎扩容准备

中日韩字符范围2E80~9FFF

2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。

3400~4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字。

4E00~9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字。

A000~A4FFh:彝族文字区,收容中国南方彝族文字和字根。

AC00~D7FFh:韩文拼音组合字区,收容以韩文音符拼成的文字。

F900~FAFFh:中日韩兼容表意文字区,总计收容302个中日韩汉字。

FB00~FFFDh:文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。

对应官方文档

标准CJK文字
http://www.unicode.org/Public/UNIDATA/Unihan.html

全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF
http://www.unicode.org/charts/PDF/UFF00.pdf


CJK部首补充:2E80-2EFF
http://www.unicode.org/charts/PDF/U2E80.pdf


CJK标点符号:3000-303F
http://www.unicode.org/charts/PDF/U3000.pdf


CJK笔划:31C0-31EF
http://www.unicode.org/charts/PDF/U31C0.pdf


康熙部首:2F00-2FDF

http://www.unicode.org/charts/PDF/U2F00.pdf


汉字结构描述字符:2FF0-2FFF
http://www.unicode.org/charts/PDF/U2FF0.pdf


注音符号:3100-312F
http://www.unicode.org/charts/PDF/U3100.pdf


注音符号(闽南语、客家语扩展):31A0-31BF
http://www.unicode.org/charts/PDF/U31A0.pdf


日文平假名:3040-309F
http://www.unicode.org/charts/PDF/U3040.pdf


日文片假名:30A0-30FF
http://www.unicode.org/charts/PDF/U30A0.pdf


日文片假名拼音扩展:31F0-31FF
http://www.unicode.org/charts/PDF/U31F0.pdf


韩文拼音:AC00-D7AF
http://www.unicode.org/charts/PDF/UAC00.pdf


韩文字母:1100-11FF
http://www.unicode.org/charts/PDF/U1100.pdf


韩文兼容字母:3130-318F
http://www.unicode.org/charts/PDF/U3130.pdf


太玄经符号:1D300-1D35F
http://www.unicode.org/charts/PDF/U1D300.pdf


易经六十四卦象:4DC0-4DFF
http://www.unicode.org/charts/PDF/U4DC0.pdf


彝文音节:A000-A48F
http://www.unicode.org/charts/PDF/UA000.pdf


彝文部首:A490-A4CF
http://www.unicode.org/charts/PDF/UA490.pdf


盲文符号:2800-28FF
http://www.unicode.org/charts/PDF/U2800.pdf


CJK字母及月份:3200-32FF
http://www.unicode.org/charts/PDF/U3200.pdf


CJK特殊符号(日期合并):3300-33FF
http://www.unicode.org/charts/PDF/U3300.pdf


装饰符号(非CJK专用):2700-27BF
http://www.unicode.org/charts/PDF/U2700.pdf


杂项符号(非CJK专用):2600-26FF
http://www.unicode.org/charts/PDF/U2600.pdf


中文竖排标点:FE10-FE1F
http://www.unicode.org/charts/PDF/UFE10.pdf


CJK兼容符号(竖排变体、下划线、顿号):FE30-FE4F
http://www.unicode.org/charts/PDF/UFE30.pdf


分享到:
评论

相关推荐

    Unicode汉字编码表(全)

    Unicode对汉字的编码主要集中在CJK(Chinese, Japanese, Korean)统一表意文字部分,这包含了中日韩三国广泛使用的汉字和类似字符。在你提供的压缩包中,我们可以看到几个扩展部分,这些扩展分别对应了Unicode对汉字...

    Unicode,Unicode汉字编码,Unicode汉字编码表

    在Unicode中,汉字被分配在多个不同的代码块中,其中最常用的是“CJK Unified Ideographs”块,该块覆盖了从U+4E00到U+9FA0的范围,包含了大部分常用汉字。以下是一部分具体的例子: - 汉字“经”的Unicode编码为0x...

    完整Unicode编码表

    因此,Unicode官方网站提供了一种方式,让用户可以通过不同的链接访问到各个部分的编码表。例如,*** 可以访问到最新字符编码图表的列表,而 *** 可以看到仅在Unicode 10.0中新增的字符。 Unicode标准会定期更新,...

    完整的CJK Unicode范围(5_0版)

    21)CJK特殊符号(日期合并):3300-33FF U3300.pdf 22)装饰符号(非CJK专用):2700-27BF U2700.pdf 23)杂项符号(非CJK专用):2600-26FF U2600.pdf 25)中文竖排标点:FE10-FE1F UFE10.pdf 26)CJK兼容符号...

    所有UNICODE字符的编码表

    例如,汉字主要位于基本多文种平面(BMP)的CJK统一汉字区,而日文则包括平假名、片假名和汉字等多个部分。此外,还有拉丁字母、希腊字母、数学符号、标点符号等区块,使得Unicode可以涵盖广泛的语言和用途。 汉字...

    各国文字Unicode编码范围.zip

    6. **汉字**:Unicode为汉字预留了大量的编码空间,主要集中在基本多文种平面(BMP)的4E00至9FFF,称为CJK统一表意字符区。此外,还有许多补充汉字在更高平面中。 7. **日文**:日文字符包括平假名(3040-309F)、...

    unicode编码表_txt文件

    - **代码点表示**:“Unicode编码表_txt文件”中提供了部分Unicode编码表的内容,通过查看这些代码点及其对应的字符,可以了解到Unicode是如何表示各种字符的。 - **十六进制与十进制转换**:例如,“0x3000”表示...

    Fontcreate用Unicode编码下较完整的字符集分类压缩包

    2. **105-106.Yi Syllables & Yi Radicals(1220).ttf**:这部分涉及到 Yi 语系的音节和部首,Yi 是中国的少数民族语言,有1220个Unicode编码的字符。 3. **76.Braille Patterns(256).ttf**:Braille点字法是一种...

    UNICODE编码表

    在Unicode编码体系中,"CJK Unified Ideographs"是一个重要的部分,覆盖了汉字以及部分日韩使用的汉字。这部分编码范围从U+4E00至U+9FCF,包含了超过两万个字符,几乎涵盖了中文、日文和韩文中常用的汉字。这些字符...

    86五笔CJK-CD编码

    标题中的“86五笔CJK-CD编码”指的是基于86版五笔字型编码的一个扩展或优化版本,专门针对CJK(Chinese, Japanese, Korean)字符集中的CD部分进行了调整。86版五笔字型是中国早期广泛使用的汉字输入法,它通过将汉字...

    常见汉字unicode编码

    ### 常见汉字Unicode编码知识点 #### 一、引言 在计算机科学与软件开发领域,字符编码是一项至关重要的技术。随着全球化的推进,如何有效地处理多种语言文本成为了一个重要议题。Unicode作为国际上广泛接受的标准之...

    UNICODE编码表,方便查找对应关系

    而CJK统一表意文字(CJK Unified Ideographs)是Unicode编码中的一个重要部分,它包括了中文、日文、韩文中的汉字字符。 Unicode编码表是开发人员和用户查找和理解不同字符编码关系的重要工具。在Unicode中,每个...

    完整的CJK Unicode范围.txt

    因为FontRouter新版本开发的需要,在网上搜索了一下汉字的Unicode范围,普遍给出了“U+4E00..U+9FA5”。但事实上这个范围是不完整的,甚至连基本的全角(中文)标点也未包含在内。为此,我特地查询了Unicode官方的...

    Unicode 中文转换工具

    有的时候,遇见中文都被转化成了Unicode内码,看着很不爽,于是写了这么个小工具,用来将Unicode内码转换为中文,可以实现整篇的转换。 另外,此工具也可以将中英文转换为Unicode内码(您可以选择是否将英文转换)...

    unicode编码转换

    根据Unicode标准,大多数常用汉字被分配到了U+4E00至U+9FFF这一区间内,这部分也被称为CJK(中日韩)统一表意文字块。随着Unicode版本的不断更新,越来越多的汉字被加入到这个庞大的字符集中,以满足不同地区和历史...

    cjk-4.8.4.rar

    例如,可以使用`{\CJKfamily{bkai}}`命令切换到楷体,或者用`\begin{CJK*}{GBK}{song}`来指定GBK编码和宋体。对于日文和韩文,只需要更换相应的字体和编码即可。 在论文排版中,CJKLMacros(CJK的扩展宏包)可以...

    ASCII码和Unicode中韩字符集(包括简体和繁体中文)很强大

    ASCII码和Unicode是计算机世界中两种重要的字符编码标准,它们为全球各种语言的文本表示提供了基础。这篇文档将深入探讨这两个编码系统,以及它们在处理中文字符,包括简体和繁体中文时的角色。 首先,ASCII码...

    常用字unicode

    题目部分提供了一串Unicode转义序列`"\u7684\u4e00\u662f\u4e86\u6211\u4e0d\u4eba\u5728\u4ed6"`,这段序列代表了以下汉字及其对应的Unicode编码: - `\u7684`:的 - `\u4e00`:一 - `\u662f`:是 - `\u4e86`:了 ...

    Python 2/3下处理cjk编码的zip文件的方法

    ### Python 2/3 下处理 CJK 编码的 ZIP 文件的方法 在开发过程中,我们经常需要处理包含中文或其他 CJK(Chinese, Japanese, Korean)字符的ZIP文件。尤其是在使用Python进行文件操作时,可能会遇到因为编码问题而...

Global site tag (gtag.js) - Google Analytics