GBK是GB2312的后续标准,添加了更多的汉字和特殊符号,类似的是,GBK也是同时指他的字符集和他的编码。
参考资料:
GBK 是又一个汉字编码标准,全称《汉字内码扩展规范》(GBK),英文名称 Chinese Internal Code
Specification ,中华人民共和国全国信息技术标准化技术委员会 1995 年 12 月 1 日制订,国家技术监督局标准
化司、电子工业部科技与质量监督司 1995 年 12 月 15 日联合以技监标函 [1995] 229 号文件的形式,将它确定
为技术规范指导性文件,发布和实施。这一版的 GBK 规范为 1.0 版。GB 即“国标”,K 是“扩展”的汉语拼音第一个
字母。
GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1 国际标准,是前者向后者过渡过程中的一个承上启下的
标准。
ISO 10646 是国际标准化组织 ISO 公布的一个编码标准,即 Universal Multilpe-Octet Coded Character Set
(简称 UCS),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位编码字符集》,它与 Unicode 组织的
Unicode 编码完全兼容。ISO 10646.1 是该标准的第一部分《体系结构与基本多文种平面》。我国 1993 年以
GB 13000.1 国家标准的形式予以认可(即 GB 13000.1 等同于 ISO 10646.1)。
ISO 10646 是一个包括世界上各种语言的书面形式以及附加符号的编码体系。其中的汉字部分称为“CJK 统一汉字”
(C 指中国,J 指日本,K 指朝鲜)。而其中的中国部分,包括了源自中国大陆的 GB 2312、GB 12345、
《现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的 CNS 11643 标准中第 1、2 字面(基本等同于
BIG-5 编码)、第 14 字面的汉字和符号。
(一)、字汇
GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充。具体包括:
1. GB 2312 中的全部汉字、非汉字符号。
2. GB 13000.1 中的其它 CJK 汉字。以上合计 20902 个 GB 化汉字。
3. 《简化字总表》中未收入 GB 13000.1 的 52 个汉字。
4. 《康熙字典》及《辞海》中未收入 GB 13000.1 的 28 个部首及重要构件。
5. 13 个汉字结构符。
6. BIG-5 中未被 GB 2312 收入、但存在于 GB 13000.1 中的 139 个图形符号。
7. GB 12345 增补的 6 个拼音符号。
8. 汉字“○”。
9. GB 12345 增补的 19 个竖排标点符号(GB 12345 较 GB 2312 增补竖排标点符号 29 个,其中 10 个未被
GB 13000.1 收入,故 GBK 亦不收)。
10. 从 GB 13000.1 的 CJK 兼容区挑选出的 21 个汉字。
11. GB 13000.1 收入的 31 个 IBM OS/2 专用符号。
(二)、码位分配及顺序
GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F
一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形
符号 883 个。 全部编码分为三大部分:
1. 汉字区。包括:
a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个,按原顺序排列。
b. GB 13000.1 扩充汉字区。包括:
(1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。
(2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前,按 UCS 代码大小排列;增补
的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。
2. 图形符号区。包括:
a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符号外,还有 10 个小写罗马数字和
GB 12345 增补的符号。计符号 717 个。
b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“○”排列在此区。计符号
166 个。
3. 用户自定义区(使用者加字区):分为(1)(2)(3)三个小区。
(1) AAA1-AFFE,码位 564 个。
(2) F8A1-FEFE,码位 658 个。
(3) A140-A7A0,码位 672 个。
第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。
(三)、字形
GBK 对字形作了如下的规定:
1. 原则上与 GB 13000.1 G列(即源自中国大陆法定标准的汉字)下的字形/笔形保持一致。
2. 在 CJK 汉字认同规则的总框架内,对所有的 GBK 编码汉字实施“无重码正形”(“GB 化”);即在不造成重码的
前提下,尽量采用中国新字形。
3. 对于超出 CJK 汉字认同规则的、或认同规则尚未明确规定的汉字,在 GBK 码位上暂安放旧字形。这样,在许多
情况下 GBK 收入了同一汉字的新旧两种字形。
4. 非汉字符号的字形,凡 GB 2312 已经包括的,与 GB 2312 保持一致;超出 GB 2312 的部分,与 GB 13000.1
保持一致。
5. 带声调的拼音字母取半型形式。
GB 2312 码是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集 基本集》,标准号为
GB 2312-80(GB 是“国标”二字的汉语拼音缩写),由中华人民共和国国家标准总局发布,1981年5月1日实施。
习惯上称国标码、GB 码,或区位码。它是一个简化字汉字的编码,通行于中国大陆地区。新加坡等地也使用这一编码。
GB 2312-80 收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、
汉语注音字母,共 7445 个图形字符。其中汉字以外的图形字符 682 个,汉字 6763 个。
GB 2312-80 规定,“对任意一个图形字符都采用两个字节(Byte)表示。每个字节均采用 GB 1988-80 及
GB 2311-80 中的七位编码表示。两个字节中前面的字节为第一字节,后面的字节为第二字节。”习惯上称第一字
节为“高字节”,第二字节为“低字节”。
GB 2312-80 将代码表分为 94 个区(Section),对应第一字节;每个区 94 个位(Position),对应第二字节。
两个字节的值,分别为区号值和位号值各加 32(20H)。
GB 2312-80 规定,01~09 区(原规定为 1~9 区,为表示区位码方便起见,今改称 01~09 区)为符号、数字
区,16~87 区为汉字区。而 10~15 区、88~94 区是有待于“进一步标准化”的“空白位置”区域。但第 10 区推荐
与第 3 区的 94 个图形字符(即 GB 1988-80 中的 94 个图形字符)相同,字形宽度为其宽度的一半。
GB 2312-80 把收录的汉字分成两级。第一级汉字是常用汉字,计 3755 个,置于 16~55 区,按汉语拼音字母/笔
形顺序排列;第二级汉字是次常用汉字,计 3008 个,置于 56~87 区,按部首/笔画顺序排列。字音以普通话审音
委员会发表的《普通话异读词三次审音总表初稿》(1963年出版)为准,字形以中华人民共和国文化部、中国文字改
革委员会公布的《印刷通用汉字字形表》(1964年出版)为准。
分享到:
相关推荐
《GBK与GB2312-80:汉字编码的历史演变与应用》 在信息技术领域,汉字编码是一种至关重要的技术,它使得计算机能够识别、存储和处理汉字。本篇文章将深入探讨“GBK”和“GB2312-80”这两种汉字编码标准,以及它们在...
### GB18030编码研究以及GBK,GB2312,GB18030与Unicode的映射,乱码解决 #### 1. GBK与GB2312的关系 - **GB2312**:该标准包含了682个图形符号,并将它们放置在1区。它是中国大陆最早制定的汉字编码标准之一,主要...
### UTF-8与GBK及GB2312的区别 #### 一、引言 随着互联网技术的发展和全球化的深入,不同国家和地区之间的信息交流日益频繁。为了满足这种需求,多种字符编码标准应运而生,其中UTF-8、GBK和GB2312是中文环境中最...
关于GBK、GB2312、UTF8,按照GBK18030、GBK、GB2312的顺序,3种编码是向下兼容,同一个汉字在三个编码方案中是相同的编码。
### UTF-8、GBK、GB2312的区别 在计算机科学领域,字符编码是将文字转换为二进制数字以便计算机处理的过程。常见的字符集包括UTF-8、GBK、GB2312等,它们各有特点,在不同的场景下被广泛应用。 #### GB2312编码 *...
GBK和GB2312是中国常用的两种汉字编码标准,它们都是中文信息处理的重要组成部分,尤其在早期的计算机系统和网络中广泛使用。本文将详细解析这两种编码格式的特点、区别以及与汉字和字符的关系。 首先,GB2312是...
总之,理解和正确处理GBK与GB2312等不同的字符编码对于进行跨平台、跨语言的数据交换至关重要,尤其是在处理中文内容时。在编程中,我们需要确保XML文件的编码声明与实际编码一致,并使用正确的解码方法读取和写入...
#### 六、GBK与GB2312的区别 虽然GBK完全兼容GB2312,但它在编码范围和字符集方面做了显著的扩展。GB2312只包含了6763个常用汉字以及682个图形符号,而GBK则收录了超过21000个汉字。这使得GBK能够满足更广泛的应用...
国标一二级汉字字符集是指在中国大陆地区广泛使用的汉字编码标准,包括GB2312和GBK两个标准。GB2312是在1980年由中国国家标准总局发布的一个字符集,它收录了6763个汉字和682个其他符号,共7445个字符,分为一二级...
GBK是在GB2312基础上的扩展,增加了对GBK18030之前其他编码系统的兼容,包括BIG5(用于繁体中文)和GB2312不涵盖的一些少数民族文字,共收录了20902个汉字和符号,是GB2312的一个广泛使用的扩展版本。 转换码表是...
GBK1.0同样采用双字节编码,其编码空间与GB2312兼容,即保留了GB2312的编码范围,但在GB2312未使用的编码区域内增加了新的字符。GBK1.0的高位字节范围扩大至0x81到0xFE,低位字节范围不变,从而能容纳更多的汉字和...
字符编码标准之GBK、GB2312、UTF-8和ISO-8859-1的比较 字符编码标准是计算机领域中的一项基本技术,用于将文字或符号转换为计算机能够识别的二进制代码。常见的字符编码标准有GBK、GB2312、UTF-8和ISO-8859-1等,...
GBK、GB2312和UTF-8是三种常见的字符编码标准,每种都有其特定的应用场景和特点。C#作为.NET框架下的主要编程语言,提供了丰富的类库支持对不同编码格式之间的转换。 1. **GBK编码**:GBK是中国大陆广泛使用的汉字...
GBK编码(GB2312中没有的部分)对应GB2312编码中的同音字
- **转换路径**:GBK、GB2312与UTF-8之间的转换必须通过Unicode编码来进行。 - **GBK、GB2312 → Unicode → UTF-8** - **UTF-8 → Unicode → GBK、GB2312** - **示例**:假设一个汉字在GBK中的编码为`b030`,其...
GBK/GB2312/UTF8编码的文件相互转换, 主要应用于网站编码方式的整体转换上。
GBK GB2312 BIG5 三种常见的中文内码转换,代码
本文主要讨论了三种常见的字符编码:GBK、GB2312以及UTF-8。 首先,GBK编码是基于GB2312标准的扩展,兼容GB2312,是中国大陆广泛使用的编码系统。GBK使用双字节来表示所有字符,对于中文字符,其最高位被设置为1,...
#### 六、GB2312与其他编码的兼容性 GB2312作为早期的标准,在后续的发展中逐渐被扩展。例如,GBK编码是在GB2312的基础上增加了更多的汉字和符号,而GB18030又进一步扩展了GBK,包含了更多的汉字及少数民族文字。...