`
watch
  • 浏览: 25207 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

GBK、GB18030、GB2312 区别

阅读更多
概括一下:
GB18030向下兼容GBK、GB2312。GBK向下兼容GB2312
【以下内容转自:http://blog.sina.com.cn/s/blog_62c074450100fllj.html】

GBK、GB18030、GB2312 区别
1、 标准标准编号:GB 2312-1980
标准名称:信息交换用汉字编码字符集 基本集
标准状态:现行
英文标题:Code of chinese graphic character set for information interchange; Primary set
实施日期:1981-10-01
GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7,低字节从A1- FE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。
GB2312 码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。
GB2312 收录简化汉字及符号、字母、日文假名等共 7445 个图形字符,其中汉字占 6763 个。GB2312 规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。
GB2312 将代码表分为 94 个区,对应第一字节;每个区 94 个位,对应第二字节,两个字节的值分别为区号值和位号值加 32(2OH),因此也称为区位码。01-09 区为符号、数字区,16-87 区为汉字区,10-15 区、88-94 区是有待进一步标准化的空白区。GB2312 将收录的汉字分成两级:第一级是常用汉字计 3755 个,置于 16-55 区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计 3008 个,置于 56-87 区,按部首/笔画顺序排列。故而GB2312最多能表示 6763 个汉字。
GB2312 的编码范围为 2121H-777EH,与 ASCII 有重叠,通行方法是将 GB 码两个字节的最高位置 1 以示区别。

2、GBK
1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。汉字区包括21003个字符。
GBK是GB18030的子集 , GBK是包括中日韩字符的大字符集合
在90年代初期,制定了一个GBK的规范,就是在大陆的6763字后面,增加BIG5里面的15000汉字的部分.这个部分是字型与台湾的字型是一样的,但是编码仍然是SO2022.
全国信息技术化技术委员会于1995年12月1日《汉字内码扩展规范》。GBK 向下与 GB2312 完全兼容,向上支持 ISO 10646 国际标准,在前者向后者过渡过程中起到的承上启下的作用。GBK 亦采用双字节表示,总体编码范围为 8140-FEFE 之间,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 XX7F 一条线。
GBK 共收入 21886 个汉字和图形符号,包括:
* GB2312 中的全部汉字、非汉字符号。
* BIG5 中的全部汉字。
* 与 ISO 10646 相应的国家标准 GB13000 中的其它 CJK 汉字,以上合计 20902 个汉字。
* 其它汉字、部首、符号,共计 984 个。
微软公司自 Windows 95 简体中文版开始支持GBK代码,但目前的多数搜索引擎都不能很好地支持 GBK 汉字。
GBK 编码区分三部分:
* 汉字区,包括:
GBK/2:OXBOA1-F7FE, 收录 GB2312 汉字 6763 个,按原序排列;
GBK/3:OX8140-AOFE,收录 CJK 汉字 6080 个;
GBK/4:OXAA40-FEAO,收录 CJK 汉字和增补的汉字 8160 个。
* 图形符号区,包括:
GBK/1:OXA1A1-A9FE,除 GB2312 的符号外,还增补了其它符号
GBK/5:OXA840-A9AO,扩除非汉字区。
* 用户自定义区:
即 GBK 区域中的空白区,用户可以自己定义字符。

3、 标准编号:GB 18030-2005
标准名称:信息技术 中文编码字符集
标准状态:现行
英文标题:Information technology -- Chinese coded character set
替代情况:GB 18030-2000
实施日期:2006-05-01
颁布部门: 国家标准化管理委员会
内容简介:本标准规定了信息技术用的中文图形字符及其二进制编码的十六进制表示。
2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。从汉字字汇上说,GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字(Unicode码 0x3400-0x4db5),一共收录了27484个汉字。
GB18030的编码采用单字节、双字节和4字节方案。其中单字节、双字节和GBK是完全兼容的。4字节编码的码位就是收录了CJK扩展A的6582个汉字。
GB18030 是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准。 GB18030 编码是一二四字节变长编码。一字节部分从 0x0~0x7F 与 ASCII 编码兼容。 二字节部分, 首字节从 0x81~0xFE, 尾字节从 0x40~0x7E 以及 0x80~0xFE, 与 GBK 标准基本兼容。 四字节部分, 第一字节从 0x81~0xFE, 第二字节从 0x30~0x39, 第三和第四字节的范围和前两个字节分别相同。 四字节部分覆盖了从 0x0080 开始, 除去二字节部分已经覆盖的所有 Unicode 3.1 码位。也就是说, GB18030 编码在码位空间上做到了与 Unicode 标准一一对应,这一点与 UTF-8 编码类似。
目前最新的 glibc 2.2.x 系列已经全面支持了 GB18030 Locale 和 GB18030 与 UCS-4 之间的编码转换, 也就是说在系统层上 Linux 已经可以支持 GB18030 标准了。 下面问题的关键就是怎样让 XFree86 窗口系统也支持 GB18030 标准。
分享到:
评论

相关推荐

    unicode与GB18030(GB2312,GBK) 转换码表

    本主题主要关注四种常见的字符编码标准:Unicode、GB18030、GB2312以及GBK,它们在中国汉字编码领域扮演着关键角色。 首先,Unicode是一个全球通用的字符集,它为世界上几乎所有的文字系统提供了唯一的数字表示,...

    GB18030编码研究以及GBK,GB2312,GB18030与Unicode的映射,乱码解决

    ### GB18030编码研究以及GBK,GB2312,GB18030与Unicode的映射,乱码解决 #### 1. GBK与GB2312的关系 - **GB2312**:该标准包含了682个图形符号,并将它们放置在1区。它是中国大陆最早制定的汉字编码标准之一,主要...

    GBK码表 GB18030码表 汉字编码

    GB18030是正式国家标准,是GBK或GB2312的超集。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。 这里是一个Excle版本的码表,罗列出码元及对应的GBK编码和Unicode编码,是研究编码的...

    GB2312 GBK GB18030的汉字编码表

    GB18030字符集 作用:它解决了中文、日文、朝鲜语等的编码,兼容GBK。 位数:它采用变字节表示(1 ASCII,2,4字节)。可表示27484个文字。 范围:1字节从00到7F; 2字节高字节从81到FE,低字节从40到7E和80到FE;4字节...

    gen-gbk-gb18030.rar_18030_GB18030_GBK

    GBK和GB18030是中国大陆广泛使用的汉字编码标准,它们都是对GB2312的扩展,旨在容纳更多的汉字和符号。 GBK编码是1995年发布的,基于ISO-8859-1(西文字符)和GB2312(简体汉字)的标准,增加了对繁体汉字和其他...

    GB2312、GB 13000、GBK、GB18030 介绍.doc

    GB2312、GB 13000、GBK、GB18030 的介绍 GB 2312 是一个简体中文字符集的中国国家标准,由中国国家标准总局发布于 1980 年,全称为《信息交换用汉字编码字符集基本集》,规定了 6763 个汉字和 682 个非汉字图形。GB...

    WINDOWS GB18030支持补丁

    GB18030是一种汉字编码标准,全称为“信息技术—多文种字符集—GB18030—2000”,是中国国家标准,也是对GB2312和GBK编码的扩展。GB18030编码系统在1995年的GB2312基础上增加了大量的汉字,同时包含了一些其他语言的...

    GB18030编码以及GBK、GB18030与Unicode的映射

    Gb2312、gbk、gb18030码位空间的约定以及计算,gbk历史回顾以及与Unicode之间的映射。gb18030各个版本的区别以及码位空间的分布以及与Unicode的映射。

    gb18030所有字符集与码表.rar

    GB18030字符集是基于GBK字符集发展而来,GBK包含了GB2312的基础字符集,并增加了许多繁体字、生僻字以及部分少数民族文字。而GB18030则进一步扩大了字符范围,不仅涵盖了GBK的所有字符,还加入了更多的简体和繁体...

    gb18030与unicode的映射表

    GB18030,全称是《信息技术 中文编码扩展规范》,是中国国家标准,旨在扩大GB2312和GBK编码的覆盖范围,以支持更多的汉字和其他中文字符。GB18030编码标准包含了大约27,500多个汉字,包括简体和繁体,以及一些少数...

    GB18030-2005标准文字库支持

    国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。 目前,GB18030有两个版本:GB18030-2000...

    gb18030与unicode转换表

    GB18030,全称“国家标准GB18030-2000”,是中国大陆的一种汉字编码标准,它是GBK编码的扩展,增加了对更多汉字和少数民族文字的支持。GB18030最多可以表示27,533个汉字,同时包含了部分非汉语言字符。其编码方式...

    unicode转gb18030编码

    **GB18030** 是中国国家标准的汉字编码,全称为“信息技术—多字节编码字符集—GBK扩展A”,它是GBK编码的升级版。GB18030不仅包含了GBK中的所有汉字,还增加了大量其他语言字符,如藏文、蒙古文等。GB18030采用了单...

    GB18030汉字全表

    GB18030不仅涵盖了GB2312、GBK等早期汉字编码标准中的所有字符,还增加了大量的少数民族文字、古代汉字以及繁体字,极大地扩展了汉字编码的范围。 #### 标准特点与应用领域 GB18030的特点在于其全面性和兼容性,...

    GBK.rar_GB2312-80_GBK_gb2312_gb2312-To-unicode_汉字编码

    《GBK与GB2312-80:汉字编码的历史演变与应用》 在信息技术领域,汉字编码是一种至关重要的技术,它使得计算机能够识别、存储和处理汉字。本篇文章将深入探讨“GBK”和“GB2312-80”这两种汉字编码标准,以及它们在...

    unicode字库 GBK字符集 字库资料 GB2312、GB 13000、GBK、GB18030简介说明.zip

    unicode字库 GBK字符集 字库资料 : GB2312、GB 13000、GBK、GB18030 介绍.doc GBK字符集.doc unicode.txt UNICODE字(加入了字母等ASCII).doc unicode字库.txt

    GB18030字符集输出

    7. **兼容性**:GB18030与GB2312和GBK兼容,意味着在GB18030环境下处理GB2312或GBK的文本不会丢失信息,但反过来则可能丢失部分字符。 综上所述,GB18030字符集是中文信息处理领域的重要标准,其丰富的字符集和兼容...

    unicode转gb18030的c代码

    总结来说,从"unicode转gb18030的c代码"这个主题中,我们可以学习到字符编码的基础知识,了解Unicode和GB18030的区别,掌握C语言实现编码转换的方法,以及如何处理跨平台的兼容性问题。这对于开发涉及多语言环境的...

Global site tag (gtag.js) - Google Analytics