如果说GB2312、GBK是ANSI时代的产物,为什么如今还需要制定GB18030呢?以下引用官方的话:"世界许多国家和地区从方便本国和民族应用的角度出发,制定了相应的编码标准和内码体系,如日本的JIS X 0208和JIS X 0212,韩国的KS C 5601和KS C 5657等,这是国际上采用的通行惯例。制定GB 18030同样符合国际惯例,它全面兼容GB 2312,在字汇上兼容GB 13000.1,可以充分利用已有资源,保证不同系统间的兼容性,最大限度地共享资源,为我国软件产业留有巨大的发展空间。可以相信,GB 18030的实施将有利于国产软件的发展并形成规模,使我国的中文信息技术再上一个台阶。"
GB2312、GBK的编码范围如下:
名称 第一字节 第二字节
GB2312 0xA1-0xF7(161-247) 0xA1-0xFE(161-254)
GBK 0x81-0xFE(129-254) 0x40-0xFE(64-254)
GB18030编码范围如下:
字节数 码位空间
单字节 0x00~0x7F (0-127)
双字节 第一字节在0x81~0xFE (129-254)第二字节在0x40~0x7E,0×80至0×FE(64-126),(128-254)
四字节 第一字节在0x81~0xFE之间 (129-254) 第二字节在0x30~0x39之间 (48-57) 第三字节在0x81~0xFE之间 (129-254) 第四字节在0x30~0x39之间 (48-57)
分享到:
相关推荐
UTF-8是一种变长的字节编码方式,它将Unicode码点转换成一系列的字节序列。对于不同的码点,UTF-8使用1到4个字节进行编码。例如,ASCII字符(码点在U+0000至U+007F之间)使用单个字节表示,而大部分汉字则需要三个...
### 字符编码笔记:ASCII,Unicode和UTF-8 #### 1. ASCII码 ASCII码是上个世纪60年代由美国制定的一套字符编码标准,用于规定英语字符与计算机内部二进制位之间的关系。在计算机内部,信息通常以二进制形式存在,...
Unicode和UTF-8之间的转换更为复杂,因为它们之间不存在一对一的关系,而是需要通过一系列算法来完成。 1. **从Unicode到UTF-8**:Unicode编码中的每个字符被映射到UTF-8中的1到4个字节。转换过程中需要判断Unicode...
Unicode和UTF-8是两种广泛使用的字符编码标准,它们各自有其特点和应用场景。本篇文章将深入探讨"unicode_utf8转换"这一主题,以及如何在源码软件中实现这种转换。 首先,我们来理解Unicode和UTF-8的含义。Unicode...
UTF(Unicode Transformation Format)是一系列用于编码Unicode字符的编码方式,包括UTF-8、UTF-16和UTF-32等。其中,UTF-8是最常用的,它用1到4个字节来表示一个码点,ASCII字符只用1个字节,而其他字符则用更多...
而UTF-8是一种变长的Unicode编码方式,它可以根据不同的码点长度使用1到4个字节来表示一个字符,且在ASCII兼容性上表现出色,使得它在网络传输和存储中广泛应用。 在易语言中,处理Unicode到UTF-8的转换通常涉及...
ASCII、Unicode和UTF-8是计算机世界中处理字符编码的三种重要标准,它们各自有着不同的历史背景和设计目的,对于理解和处理多语言文本至关重要。 首先,ASCII(American Standard Code for Information Interchange...
UTF-8是Unicode的一种实现方式,它是一种变长编码,根据字符的不同,可以占用1至4个字节。UTF-8的优点在于对ASCII字符集的兼容性,使得英文字符只占用一个字节,而大部分中文字符则占用3个字节。 “中文 Big5/GBK/...
这个模块可能包含了一系列函数,如`utf8_to_unicode/1`,可以接受一个UTF-8编码的二进制数据或者字符串,然后返回对应的Unicode码点列表。通过这样的功能,开发者可以在任何Erlang环境中无缝地处理Unicode字符,而不...
在Linux C编程中,字符编码主要涉及Unicode和UTF-8标准。Unicode是一个广泛采用的字符集,它包含世界上几乎所有的文字系统,而UTF-8是Unicode的一种编码方式,具有良好的向后兼容性和易于处理的特性。 UTF-8编码在...
本文将深入探讨几种常见的字符编码规范,包括ASCII、Unicode、UTF8、ANSI、GBK、GB18030等,以及它们之间的关系和转换规则。 1. ASCII编码:ASCII(American Standard Code for Information Interchange,美国信息...
Unicode为每个字符分配了一个唯一的代码点,而UTF(Unicode Transformation Format)是将这些代码点转换为一系列字节的编码方式。UTF-8、UTF-16和UTF-32是Unicode字符编码中常见的三种格式。UTF-8是一种可变长度的...
UTF-8是一种变长的Unicode编码方式,它使用1到4个字节来表示一个字符,广泛用于网络传输和存储。GBK是基于GB2312的,它是单字节和双字节编码的混合,可以看作是简体中文的扩展GBK版本。 在C++中进行字符集转换,...
而UTF-8是Unicode的一种编码方式,它使用1到4个字节来表示一个字符,这种编码方式在互联网上非常常见,因为其字节顺序独立,且对ASCII字符兼容。 在Windows编程中,尤其是涉及到系统API时,经常需要处理Unicode字符...
UTF(Unicode Transformation Format)是一系列将Unicode字符转换为字节序列的编码方式,以便在网络传输、文件存储等场景中使用。UTF-8是最广泛使用的编码格式,它使用8位字节,并根据字符的不同范围使用1至4个字节...
汉字、UTF8、GB2312和UNICODE都是与汉字编码相关的概念,理解和掌握它们之间的转换对于进行跨平台的软件开发和数据处理至关重要。 1. **汉字编码** 汉字编码是为了能在计算机内部表示和处理汉字而设计的一系列标准...
UTF-8(8-bit Unicode Transformation Format)是Unicode的一种编码形式,它可以将Unicode编码转换成一系列1到4字节的序列。UTF-8的最大优点是向后兼容ASCII编码,并且对于英文字符只需要一个字节,这使得它在网络...
- **U+4F00** 至 **U+4FFF**:这一段包含了更多汉字和其他字符,例如“ɡΰα٣٤λس٢٠٦٥٬ٮ٫ʹ٩ֶ٨٪٧ٰ@٭AٯB”等,显示了UTF-16编码覆盖了多种语言和符号。 - **U+5000** 至 **U+50FF**:这段代码点中...
UTF-8是一种变长的Unicode编码,广泛用于网络和操作系统,而GB2312是中国大陆早期的简体中文字符集,主要用于存储中文文本。 标题"STM32 C 语言转换 utf8 gb2312"涉及的主要知识点包括: 1. **C语言编程**:C语言...
在Notepad++中,"UNICODE"指的是UTF-16编码,这是一种广泛使用的Unicode实现方式,能够处理世界上几乎所有的文字系统。通过使用UNICODE,Notepad++能够正确地显示和保存包含中文字符的文件,这对于中文开发者来说...