`

各种编码的由来

阅读更多

转自:http://www.iteye.com/topic/351135  做排版修改了。

 

ANSI :

八位的字节一共可以组合出256(2的8次方)种不同的状态。 编号从0开始的32种状态分别规定了特殊的用途,一但终端、打印机遇上约定好的这些字节被传过来时,就要做一些约定的动作。遇上00x10, 终端就换行,遇上0x07, 终端就向人们嘟嘟叫,例好遇上0x1b, 打印机就打印反白的字,或者终端就用彩色显示字母。他们看到这样很好,于是就把这些0x20以下的字节状态称为"控制码"。 他们又把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示,一直编到了第127号,这样计算机就可以用不同字节来存储英语的文字了。最开始在美国开始使用。

 

ANSI扩展字符集:

世界各地的都开始使用计算机,但是很多国家用的不是英文,他们的字母里有许多是ASCII里没有的,为了可以在计算机保存他们的文字,他们决定采用127号之后的空位来表示这些新的字母、符号,还加入了很多画表格时需要用下到的横线、竖线、交叉等形状,一直把序号编到了最后一个状态255。从128到255这一页的字符集被称"扩展字符集"。

 

GB2312:

经过扩展,ANSI的所有状态都被用完了。美帝国主义可能没有想到还有第三世界国家的人们也希望可以用到计算机吧! 等中国人们得到计算机时,已经没有可以利用的字节状态来表示汉字,况且有6000多个常用汉字需要保存呢。但是这难不倒智慧的中国人民,我们不客气地把那些127号之后的奇异符号们直接取消掉, 规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。在这些编码里,我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了,连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的"全角"字符,而原来在127号以下的那些就叫"半角"字符了。 中国人民看到这样很不错,于是就把这种汉字方案叫做 "GB2312"。"GB2312"是对 ASCII 的中文扩展。

 

 GBK :

中国的汉字太多了,我们很快就就发现有许多人的人名没有办法在这里打出来,特别是某些很会麻烦别人的国家领导人。于是我们不得不继续把 GB2312 没有用到的码位找出来老实不客气地用上。 后来还是不够用,于是干脆不再要求低字节一定是127号之后的内码,只要第一个字节(可以理解为高位否?)是大于127就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准,GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。

 

GB18030:

后来少数民族也要用电脑了,于是我们再扩展,又加了几千个新的少数民族的字,GBK 扩成了 GB18030

 

DBCS:

Double Byte Charecter Set 双字节字符集

在DBCS系列标准里,最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里,因此他们写的程序为了支持中文处理,必须要注意字串里的每一个字节的值,如果这个值是大于127的,那么就认为一个双字节字符集里的字符出现了。

 

UNICODE:

原因:各个国家都像中国这样搞出一套自己的编码标准,结果互相之间谁也不懂谁的编码。

废了所有的地区性编码方案,重新搞一个包括了地球上所有文化、所有字母和符号的编码!他们打算叫它"Universal Multiple-Octet Coded Character Set",简称 UCS, 俗称 "UNICODE"。 UNICODE 开始制订时,计算机的存储器容量极大地发展了,空间再也不成为问题了。于是 ISO 就直接规定必须用两个字节,也就是16位来统一表示所有的字符,对于ascii里的那些“半角”字符,UNICODE 包持其原编码不变,只是将其长度由原来的8位扩展为16位,而其他文化和语言的字符则全部重新统一编码。由于"半角"英文符号只需要用到低8位,所以其高8位永远是0,因此这种大气的方案在保存英文文本时会多浪费一倍的空间。

从 UNICODE 开始,无论是半角的英文字母,还是全角的汉字,它们都是统一的"一个字符"!同时,也都是统一的"两个字节",请注意"字符"和"字节"两个术语的不同,“字节”是一个8位的物理存贮单元,而“字符”则是一个文化相关的符号。在UNICODE 中,一个字符就是两个字节。一个汉字算两个英文字符的时代已经快过去了。

 

UNICODE 在制订时没有考虑与任何一种现有的编码方案保持兼容,这使得 GBK 与UNICODE 在汉字的内码编排上完全是不一样的,没有一种简单的算术方法可以把文本内容从UNICODE编码和另一种编码进行转换,这种转换必须通过查表来进行。 如前所述,UNICODE 是用两个字节来表示为一个字符,他总共可以组合出65535不同的字符,这大概已经可以覆盖世界上所有文化的符号。如果还不够也没有关系,ISO已经准备了UCS-4方案,说简单了就是四个字节来表示一个字符,这样我们就可以组合出21亿个不同的字符出来(最高位有其他用途),这大概可以用到银河联邦成立那一天吧!

 

UTF:

面向传输的众多 UTF(UCS Transfer Format)标准出现了,顾名思义,UTF8就是每次8个位传输数据,而UTF16就是每次16个位,只不过为了传输时的可靠性,从UNICODE到UTF时并不是直接的对应,而是要过一些算法和规则来转换。

受到过网络编程加持的计算机僧侣们都知道,在网络里传递信息时有一个很重要的问题,就是对于数据高低位的解读方式,一些计算机是采用低位先发送的方法,例如我们PC机采用的 INTEL 架构,而另一些是采用高位先发送的方式,在网络中交换数据时,为了核对双方对于高低位的认识是否是一致的,采用了一种很简便的方法,就是在文本流的开始时向对方发送一个标志符——如果之后的文本是高位在位,那就发送"FEFF",反之,则发送"FFFE"。

 

分享到:
评论

相关推荐

    各种字符编码方式详解及由来

    一直对字符的各种编码方式懵懵懂懂,什么ANSI UNICODE UTF-8 GB2312 GBK DBCS UCS……是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们

    网络编码的由来 李硕彦

    网络编码的由来及其核心概念 网络编码,作为现代通讯技术的重要组成部分,其起源和发展历程充满着学术探索的戏剧性和创新精神。李硕彦、张震、杨伟豪和蔡宁等人在这一领域的贡献尤为突出,他们通过深入研究,不仅...

    网站编码详解(送给初级网站程序员)

    #### 一、各种编码的来历及发展 1. **ANSI编码**:最早的计算机仅在美国使用,8位字节(共256种状态)被用来表示各种字符。其中0-31以及127(共33个)为控制字符或功能字符,如换行、退格等;32-126(共95个)用于...

    字符编码详解

    #### 一、编码问题的由来及相关概念理解 ##### 1.1 字符与编码的发展历程 字符编码的历史可以追溯到计算机发展的早期阶段,当时计算机仅能支持英语,即ASCII(American Standard Code for Information Interchange...

    汉字编码规则

    本文将详细介绍GB2312-80与BIG5这两种常见的汉字编码规则,并探讨它们的由来和发展历程。 #### 二、GB2312-80编码规则 GB2312-80是中国大陆制定的第一个汉字编码国家标准,发布于1980年。该标准定义了6763个汉字的...

    关于URL编码.pdf

    首先,URL编码问题的由来是与网络标准RFC1738紧密相关的。RFC1738规定了URL中哪些字符是允许的,哪些是需要编码的。标准规定只允许使用字母、数字、少数特殊符号和一些保留字。这导致URL中如果出现非英文字符,如...

    LDPC码的编译码原理及编码设计

    编译码过程中,LDPC码将信息比特表示为稀疏校验矩阵,这些矩阵具有较低的密度(大部分元素为零),使得校验过程只需少量计算即可完成,这便是其“低密度”名称的由来。密度进化理论是描述迭代译码过程中错误概率演化...

    视频编码基础(H.264)

    ##### 2.7 图像编码失真的由来 图像编码失真主要来源于量化过程中的信息丢失。由于量化过程会将连续的DCT系数转换为有限个级别,因此会导致图像质量的损失。此外,如果量化步长过大,则可能会引入明显的块效应。 #...

    字节、字符、编码的相关知识

    #### 编码问题的由来与概念理解 **1.1 字符与编码的发展** 计算机对多国语言的支持经历了三个主要阶段:ASCII、多字节字符(MBCS)和Unicode。早期的ASCII阶段,每个字符仅占用一个字节,适用于英语等拉丁字母为主...

    超详细的字符编码教程

    2.8.2. 各种中文字符编码标准的关系 2.9. 字符存储(交换)标准 2.10. 字形和你所看到的字符的关系 参考书目 A. 编码相关的表格 A.1. ASCII编码表(0-127) A.2. ISO/IEC 8859编码标准中的15种字符集 A.3. Code Page...

    编码的奥秘

    《编码的奥秘》一书以生动有趣的方式,讲述了编码的来历及其在历史上的应用。本书首先通过“电筒密谈”的例子引入话题,这是一个关于两个孩子利用手电筒在夜间进行秘密交流的故事。这个简单的例子揭示了编码的基本...

    Base64编码

    #### 一、Base64编码的来历与组成 Base64是一种常用的二进制到文本字符串的编码方式,主要用于在电子邮件等环境中传输二进制数据。由于许多邮件服务器不支持二进制数据的传输,因此Base64被广泛应用于将二进制数据...

    MIT 网络编码 PPT, 值得一看!

    麻省理工学院权威的关于网络编码的PPT,详细介绍了网络编码的由来,综述了网络编码的最新研究成果。是研究网络编码必看的资料!!!

    [G01]系统编码与实现计划1

    编码工作可能包括前端界面的实现、后端逻辑的编写、数据库的交互以及各种接口的集成。团队成员需要协同工作,通过版本控制工具如Git进行代码管理,以避免冲突并追踪改动。同时,代码审查也是保证质量的重要环节,...

    计算机课件:密码编码学

    在本压缩包中,你将找到一系列关于密码编码学的珍贵资源,这些资料可以帮助你深入理解和掌握这个领域的核心概念。 密码编码学的研究内容广泛,主要包括以下几个方面: 1. **密码的历史**:从古代的密码棒到现代的...

    php各种编码集详解和以及在什么情况下进行使用

    计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。中文文字数目大,而且还分为简体中文和繁体中文两种不同书写规则的文字,而计算机最初是按英语单字节字符设计的,因此,对...

    趣谈Unicode、Ascii、utf-8、GB2312、GBK等编码学问_.docx

    本文将从头讲解编码的故事,包括 Unicode、Ascii、utf-8、GB2312、GBK 等编码标准的由来和发展。 首先,让我们从基本的概念开始。计算机使用字节来存储信息,而字节是由 8 个可以开合的晶体管组合成的。这些字节...

    Base64编码解码原理及C#编程实例

    Base64编码由来于对传统协议的扩展,解决了无法直接传输非可见ASCII字符的问题。 在Base64编码原理中,它使用了64个可打印字符,包括大写字母"A"到"Z"、小写字母"a"到"z"、数字"0"到"9"以及"+"和"/"。这些字符对应...

    node.js学习之base64编码解码

    Base64编码由来 为什么会有Base64编码呢?因为有些网络传送渠道并不支持所有的字节,例如传统的邮件只支持可见字符的传送,像ASCII码的控制字符就 不能通过邮件传送。这样用途就受到了很大的限制,比如图片二进制流...

Global site tag (gtag.js) - Google Analytics