GBK、GB18030、GB2312 区别

watch

浏览: 25690 次
性别:
来自: 杭州

最近访客更多访客>>

gaohongliang

zengshaotao

bachest

wangenbao

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

other

Linux 搜索引擎 Windows Blog

概括一下:
GB18030向下兼容GBK、GB2312。GBK向下兼容GB2312
【以下内容转自：http://blog.sina.com.cn/s/blog_62c074450100fllj.html】

GBK、GB18030、GB2312 区别
1、标准标准编号:GB 2312-1980
标准名称:信息交换用汉字编码字符集基本集
标准状态:现行
英文标题:Code of chinese graphic character set for information interchange; Primary set
实施日期:1981-10-01
GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1- FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。
GB2312 码是中华人民共和国国家汉字信息交换用编码，全称《信息交换用汉字编码字符集——基本集》，由国家标准总局发布，1981年5月1日实施，通行于大陆。新加坡等地也使用此编码。
GB2312 收录简化汉字及符号、字母、日文假名等共 7445 个图形字符，其中汉字占 6763 个。GB2312 规定“对任意一个图形字符都采用两个字节表示，每个字节均采用七位编码表示”，习惯上称第一个字节为“高字节”，第二个字节为“低字节”。
GB2312 将代码表分为 94 个区，对应第一字节；每个区 94 个位，对应第二字节，两个字节的值分别为区号值和位号值加 32（2OH）,因此也称为区位码。01-09 区为符号、数字区，16-87 区为汉字区，10-15 区、88-94 区是有待进一步标准化的空白区。GB2312 将收录的汉字分成两级：第一级是常用汉字计 3755 个，置于 16-55 区，按汉语拼音字母/笔形顺序排列；第二级汉字是次常用汉字计 3008 个，置于 56-87 区，按部首/笔画顺序排列。故而GB2312最多能表示 6763 个汉字。
GB2312 的编码范围为 2121H-777EH，与 ASCII 有重叠，通行方法是将 GB 码两个字节的最高位置 1 以示区别。

2、GBK
1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。
GBK是GB18030的子集 , GBK是包括中日韩字符的大字符集合
在90年代初期,制定了一个GBK的规范,就是在大陆的6763字后面,增加BIG5里面的15000汉字的部分.这个部分是字型与台湾的字型是一样的,但是编码仍然是SO2022.
全国信息技术化技术委员会于1995年12月1日《汉字内码扩展规范》。GBK 向下与 GB2312 完全兼容，向上支持 ISO 10646 国际标准，在前者向后者过渡过程中起到的承上启下的作用。GBK 亦采用双字节表示，总体编码范围为 8140-FEFE 之间，首字节在 81-FE 之间，尾字节在 40-FE 之间，剔除 XX7F 一条线。
GBK 共收入 21886 个汉字和图形符号，包括：
* GB2312 中的全部汉字、非汉字符号。
* BIG5 中的全部汉字。
* 与 ISO 10646 相应的国家标准 GB13000 中的其它 CJK 汉字，以上合计 20902 个汉字。
* 其它汉字、部首、符号，共计 984 个。
微软公司自 Windows 95 简体中文版开始支持GBK代码，但目前的多数搜索引擎都不能很好地支持 GBK 汉字。
GBK 编码区分三部分：
* 汉字区，包括：
GBK/2：OXBOA1-F7FE, 收录 GB2312 汉字 6763 个，按原序排列；
GBK/3：OX8140-AOFE，收录 CJK 汉字 6080 个；
GBK/4：OXAA40-FEAO，收录 CJK 汉字和增补的汉字 8160 个。
* 图形符号区，包括：
GBK/1：OXA1A1-A9FE，除 GB2312 的符号外，还增补了其它符号
GBK/5：OXA840-A9AO，扩除非汉字区。
* 用户自定义区：
即 GBK 区域中的空白区，用户可以自己定义字符。

3、标准编号:GB 18030-2005
标准名称:信息技术中文编码字符集
标准状态:现行
英文标题:Information technology -- Chinese coded character set
替代情况:GB 18030-2000
实施日期:2006-05-01
颁布部门: 国家标准化管理委员会
内容简介:本标准规定了信息技术用的中文图形字符及其二进制编码的十六进制表示。
2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。从汉字字汇上说，GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字（Unicode码 0x3400-0x4db5），一共收录了27484个汉字。
GB18030的编码采用单字节、双字节和4字节方案。其中单字节、双字节和GBK是完全兼容的。4字节编码的码位就是收录了CJK扩展A的6582个汉字。
GB18030 是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准。 GB18030 编码是一二四字节变长编码。一字节部分从 0x0~0x7F 与 ASCII 编码兼容。二字节部分, 首字节从 0x81~0xFE, 尾字节从 0x40~0x7E 以及 0x80~0xFE, 与 GBK 标准基本兼容。四字节部分, 第一字节从 0x81~0xFE, 第二字节从 0x30~0x39, 第三和第四字节的范围和前两个字节分别相同。四字节部分覆盖了从 0x0080 开始, 除去二字节部分已经覆盖的所有 Unicode 3.1 码位。也就是说, GB18030 编码在码位空间上做到了与 Unicode 标准一一对应,这一点与 UTF-8 编码类似。
目前最新的 glibc 2.2.x 系列已经全面支持了 GB18030 Locale 和 GB18030 与 UCS-4 之间的编码转换, 也就是说在系统层上 Linux 已经可以支持 GB18030 标准了。下面问题的关键就是怎样让 XFree86 窗口系统也支持 GB18030 标准。

分享到：

TUXEDO与WEBLOGIC通过WTC进行互连的配置 | mysql Error 1130问题的解决方案

2010-07-20 14:58
浏览 1454
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论