GB2312、GBK和 GB18030
简单来讲,这三者是这样一个关系:GB2312扩展便成了GBK,GBK扩展便成了GB18030。后者都对前者兼容。
GB2312:采用2个字节。简体字的编码规范,也包括其他的符号、字母、日文假名等,共7445个图形字符,其中汉字占6763个
GBK:采用了2个字节。GB2312明显收录的汉字不够,于是增加了大量不常用汉字,还加入了几乎所有的Big5中的繁体汉字之后便成了GBK。
GB18030:与前两者不同,采用了变长的编码方式,有1、2、4个字节的编码长度。1个字节编码与ASCII兼容,2个字节编码与GBK兼容,4个字节主要是收录了少数民族的文字等。GB18030诞生的原因类似于GBK,就是增加了大量的汉字,多收录了藏文、蒙文、维吾尔文等主要的少数民族文字。GB18030现在是国家非手持/非嵌入式设备的强制性标准。
但是GB18030与前者不同的是,所有的Unicode编码都可以转换为GB18030,而且GB18030除了兼容GBK以及Unicode的BMP部分外,其余的Unicode扩展平面和它的4字节扩展平面都是简单直接的映射。
分享到:
相关推荐
UTF-8是一种变长的字节编码方式,它将Unicode码点转换成一系列的字节序列。对于不同的码点,UTF-8使用1到4个字节进行编码。例如,ASCII字符(码点在U+0000至U+007F之间)使用单个字节表示,而大部分汉字则需要三个...
### 字符编码笔记:ASCII,Unicode和UTF-8 #### 1. ASCII码 ASCII码是上个世纪60年代由美国制定的一套字符编码标准,用于规定英语字符与计算机内部二进制位之间的关系。在计算机内部,信息通常以二进制形式存在,...
Unicode和UTF-8之间的转换更为复杂,因为它们之间不存在一对一的关系,而是需要通过一系列算法来完成。 1. **从Unicode到UTF-8**:Unicode编码中的每个字符被映射到UTF-8中的1到4个字节。转换过程中需要判断Unicode...
Unicode和UTF-8是两种广泛使用的字符编码标准,它们各自有其特点和应用场景。本篇文章将深入探讨"unicode_utf8转换"这一主题,以及如何在源码软件中实现这种转换。 首先,我们来理解Unicode和UTF-8的含义。Unicode...
UTF(Unicode Transformation Format)是一系列用于编码Unicode字符的编码方式,包括UTF-8、UTF-16和UTF-32等。其中,UTF-8是最常用的,它用1到4个字节来表示一个码点,ASCII字符只用1个字节,而其他字符则用更多...
首先,我们来理解一下Unicode和UTF-8。Unicode是一个国际标准,它定义了一个统一的字符集,包含了世界上几乎所有的文字系统,用一个唯一的数字(称为码点)来表示每个字符。而UTF-8是一种变长的Unicode编码方式,它...
ASCII、Unicode和UTF-8是计算机世界中处理字符编码的三种重要标准,它们各自有着不同的历史背景和设计目的,对于理解和处理多语言文本至关重要。 首先,ASCII(American Standard Code for Information Interchange...
在Linux C编程中,字符编码主要涉及Unicode和UTF-8标准。Unicode是一个广泛采用的字符集,它包含世界上几乎所有的文字系统,而UTF-8是Unicode的一种编码方式,具有良好的向后兼容性和易于处理的特性。 UTF-8编码在...
在提供的压缩包文件中,我们看到有ConvertZ.exe作为主程序,ConvertZ.hlp为帮助文件,Readme系列文件分别提供了不同编码的说明文档,BI_TradFix.dat和BI_SimFix.dat可能是用于转换的字库文件,而西西下载.txt和西西...
这个模块可能包含了一系列函数,如`utf8_to_unicode/1`,可以接受一个UTF-8编码的二进制数据或者字符串,然后返回对应的Unicode码点列表。通过这样的功能,开发者可以在任何Erlang环境中无缝地处理Unicode字符,而不...
3. GB系列编码:GBK(Great Wall Kludge,大字符集)是GB2312的扩展,增加了更多的汉字和符号。GB18030进一步扩展了GBK,除了汉字外,还包含了少数民族文字,以满足更多语言需求。这些编码方式通常被视为ANSI编码的...
Unicode为每个字符分配了一个唯一的代码点,而UTF(Unicode Transformation Format)是将这些代码点转换为一系列字节的编码方式。UTF-8、UTF-16和UTF-32是Unicode字符编码中常见的三种格式。UTF-8是一种可变长度的...
本文将深入探讨“Unicode2GB”和“UTF8ToGB”字符集转换的相关知识点,以及如何在C++环境中实现这些转换。 首先,我们需要理解字符集的基本概念。字符集是一系列符号和编码的集合,它定义了每个字符如何用二进制...
总的来说,理解和熟练运用Unicode与UTF-8的转换对于Windows开发人员来说是至关重要的,特别是当他们的应用需要处理来自不同来源的文本数据时。正确地进行这种转换能够确保数据在不同系统和平台之间的兼容性。
UTF(Unicode Transformation Format)是一系列将Unicode字符转换为字节序列的编码方式,以便在网络传输、文件存储等场景中使用。UTF-8是最广泛使用的编码格式,它使用8位字节,并根据字符的不同范围使用1至4个字节...
汉字、UTF8、GB2312和UNICODE都是与汉字编码相关的概念,理解和掌握它们之间的转换对于进行跨平台的软件开发和数据处理至关重要。 1. **汉字编码** 汉字编码是为了能在计算机内部表示和处理汉字而设计的一系列标准...
UTF-8(8-bit Unicode Transformation Format)是Unicode的一种编码形式,它可以将Unicode编码转换成一系列1到4字节的序列。UTF-8的最大优点是向后兼容ASCII编码,并且对于英文字符只需要一个字节,这使得它在网络...
3. **字符编码**:理解不同的字符编码格式至关重要,如UTF-8和GB2312。UTF-8是Unicode的一种变长编码方式,能够表示所有Unicode字符,每个字符占用1到4个字节。GB2312是中文简体字符集,只包含6763个汉字,每个字符...
在Notepad++中,"UNICODE"指的是UTF-16编码,这是一种广泛使用的Unicode实现方式,能够处理世界上几乎所有的文字系统。通过使用UNICODE,Notepad++能够正确地显示和保存包含中文字符的文件,这对于中文开发者来说...
UTF-16作为Unicode标准的一部分,被广泛应用于各种系统和软件中。对于汉字而言,UTF-16提供了统一且广泛的编码支持,使得不同系统之间可以无障碍地交换包含汉字的信息。此外,UTF-16还支持多种语言和符号,这对于...