1 字符集
字符集(CHARACTER SET),或称字集,是指字符的集合;字符集种类较多,每个字符集包含的字符个数不同,常见的字符集名称:ASCII字符集、GB2312字符集、GB18030字符集、UNICODE字符集等。
1.1ASCII字符集
上 个世纪60年代,美国有关的标准化组织就出台了ASCII(AMERICAN STANDARD CODE FOR INFORMATION INTERCHANGE:美国信息交换标准码)编码,制定了一套字符编码,只能表示256个符号,主要用于显示现代英语和其他西欧语言。它是现今最通用的 单字节编码系统,并等同于国际标准ISO 10646。
1.2GB系列字符集(GB2312、GB13000、GBK、GB18030)
GB2312 由原中国国家标准总局发布,共收录6763个简体汉字、682个符号,由于GB2312定义的字符集太小,容纳的汉字太少,在UNICODE出台之后,我 国立刻制定了完全兼容的GB13000标准,微软以技术上难以实现为理由,自己搞了一套扩展字符集,也就是GBK,在GB2312基础上定义了包括繁体字 在内的更多汉字,并在WINDOWS简体中文版中加以实施。到了二十世纪末,GBK字符集也不够用了,WINDOWS操作系统将内核改为支持 UNICODE字符集。UNICODE与GB系列字符集不兼容。于是我国政府于2000年3月17日发布的新的汉字编码国家标准GB18030,作为我国 所有非手持/嵌入式计算机系统的强制实施标准,GB18030收录了27484个汉字,不但与UNICODE3.0版本兼容,还与以前的GB字符编码标准 兼容。
2 字符编码与字库
字符集只是文字的集合,不一定适合网络传送、处理。计算机要准确的处理各种字符集文字, 有时须经编码(ENCODING)后才能应用。所谓字符编码是规定每个“字符”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做“编 码”。各个国家和地区在制定编码标准的时候,“字符集”和“编码”一般都是同时制定的。因此,平常我们所说的“字符集”,比如GB2312、GBK等,除 了有“字符的集合”这层含义外,同时也包含了“编码”的含义。对UNICODE字符集的编码称为UTF。目前通用的编码标准有UTF-16小尾序 (LITTLE ENDIAN)、UTF-16大尾序(BIG ENDIAN)和UTF-8变长编码。
字库就是字型库(FONT LIBRARY),其实计算机上显示的每个字符(不管它是哪种语言的),都是一个小的图案。字库就是把这些小的图案以图片的某种形式保存起来,需要显示的 时候还原出来就可以了。在WINDOWS操作系统里的字库存放在系统盘windows/fonts文件夹下,在linux操作系统中字库存放在这/usr /share/fonts/文件夹下。
- 浏览: 57012 次
相关推荐
字符集和字符编码 字符集是指计算机系统支持的所有抽象字符的集合,包括文字、符号、图形符号、数字等。字符编码是将字符转换为二进制数据的过程,反之,解码是将存储在计算机中的二进制数据解析显示出来。 1. ...
在计算机科学领域,字符集(Character Set)是用于表示文本的一组符号集合,它定义了可以被编码的字符范围和编码方式。字符集对于不同语言的处理至关重要,尤其是在存储、显示和传输文本时。本篇文章将详细介绍韩文...
在嵌入式系统中,由于资源有限,往往需要对字符集和编码进行精简处理。GB18030因其广泛的字符覆盖范围,尤其适用于需要处理复杂文本环境的嵌入式设备,如智能电视、移动设备等。然而,由于其四字节编码的特性,相...
### GBK字符集编码表详解 #### 一、概述 GBK是中文内码扩展规范,是一种简体中文字符集编码方案。它是在GB2312的基础上进行扩展,增加了对更多的汉字以及符号的支持,旨在更好地满足中文信息化处理的需求。本文将...
4. **教育与学习资源**:对于汉字教学,提供标准的汉字字符集有助于学习者正确理解和书写汉字,特别是在电子学习平台上的应用。 #### 总结 《常用汉字utf-8字符集》不仅是一份技术文档,更是现代数字化社会中不可...
在实际应用中,GB2312通常用于早期的简体中文系统,而GBK由于其广泛的兼容性和更大的字符集,逐渐成为了主流的中文字符编码。然而,GBK仍然存在一定的局限性,因为它不能完全覆盖所有中文字符,如部分生僻字和少数...
在IT领域,字库和字符集是至关重要的组成部分,它们决定了计算机系统如何显示和处理文本。字库,也称为字体库,包含了一系列图形化的字符,这些字符被设计用来表示特定的文字或符号。字符集则是一组编码规则,用于将...
本压缩包包含四个重要的汉字字符集编码对应表,分别是GB2312-80(国标码)、GBK(大字库)、Big5(大五码)和Unicode(大字符集)。以下是对这些编码系统的详细解释: 1. **GB2312-80(国标码)** GB2312是中国最...
根据提供的文件信息,我们可以深入探讨波斯语字符集的相关知识点,包括波斯语字符的特点、如何在软件...通过深入了解波斯语字符集的特点和规则,开发者可以更好地满足目标用户的需求,提供更加友好和准确的应用体验。
GB18030字符集,全称是《信息技术 中文编码字符集 GB18030》,是中国国家标准,用于编码...使用提供的小工具,可以深入了解和掌握GB18030的全貌,对于开发、测试和研究中文字符编码的人员来说,具有很高的参考价值。
本文将深入探讨UCS-2、UCS-4、中文字符编码以及它们与TrueType Font (TTF)字库之间的关系。 首先,字符编码是用来将字符转换为二进制形式,以便计算机可以理解和处理的规则。例如,ASCII编码是一种早期的编码系统,...
支持包安装成功后,转换工具 (gbunicnv.exe) 和微软4字节字符集编码支持包 (ms4bsp.dll) 会被安装在系统的 Program Files\GB18030Tools 文件夹下。用户可通过 Windows 2000 中的中文内码(Unicode) 输入法输入所需的 ...
### gb2312字符集编码 #### 概述 gb2312是一种中文字符集编码标准,它由中华人民...对于从事IT行业的专业人士来说,了解gb2312的历史背景、特点及其应用领域,有助于更好地理解中文字符编码的发展历程和技术细节。
GBK字符集是一种在中国大陆广泛使用的汉字编码标准,它在计算机领域中扮演着重要的角色,尤其在嵌入式系统和字库制作中。GBK字符集基于GB2312标准,扩展了更多的汉字和符号,目的是为了包含更多汉语方言区域的常用字...
《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。 GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等...
标题和描述中的“日文字库Sjis码表”和“sjis--gbk”涉及到的是计算机编码领域的一个重要概念——字符编码。字符编码是计算机处理、存储和传输文本信息的基础,它将各种字符(包括字母、数字、符号以及特定语言的...
HZK16字库则是专为显示中文而设计的,它符合GB2312国家标准,GB2312是中华人民共和国国家标准的简体中文字符集,包含了6763个常用汉字和682个其他符号。HZK16字库使用16x16点阵,这意味着每个汉字占用16行16列的像素...
Unicode字符集,全称为“统一码”或“万国码”,是计算机领域中广泛采用的一种字符编码标准。它的设计目标是为全球各种语言的每一个字符提供一个唯一且统一的二进制表示,以便于跨语言、跨平台的文本处理。Unicode自...
通过这份按照GBK编码字库编号整理的国家标准通用字表,我们不仅能够了解到GB2312扩展后的字符集规模和特性,还能够深刻理解字符编码在现代信息技术中的重要地位。对于开发者而言,掌握这一知识不仅可以提升工作效率...
同时,对于中文字符集的研究和应用,GBK编码表是基础知识点,其编码规则和汉字范围的掌握对于编程开发人员来说是必备的技能。 总之,GBK编码表是中文计算机处理领域中非常重要的编码标准,它在中文信息处理、存储、...