字符编码整理

lokvin

浏览: 164900 次
性别:
来自: 地球

最近访客更多访客>>

akingde

seancheer

新一哥哥

lya041

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (74)

社区版块

存档分类

嵌入式

关于字符集一直搞得不是很清楚，下面整理一些从网上查到的内容：

     在所有字符集中，最知名可能要数被称为ASCII的7位字符集了。它是美国信息交换标准委员会
（American Standards Committee for Information Interchange）的缩写, 为美国英语通信所
设计。它由128个字符组成，包括大小写字母、数字0-9、标点符号、非打印字符（换行符、制表
符等4个）以及控制字符（退格、响铃等）组成。

    另一种8位字符集是ISO 8859-1 Latin 1，也简称为ISO Latin-1。它把位于128-255之间的字
符用于拉丁字母表中特殊语言字符的编码，也因此而得名。

    把汉语、日语和越南语的一些相似的字符结合起来，在不同的语言里，使不同的字符代表不同
的字，这样只用2个字节就可以编码地球上几乎所有地区的文字。因此，创建了UNICODE编码。它通
过增加一个高字节对ISO Latin-1字符集进行扩展，当这些高字节位为0时，低字节就是ISO Latin-1
字符。UNICODE支持欧洲、非洲、中东、亚洲（包括统一标准的东亚像形汉字和韩国像形文字）。

    事实证明，对可以用ASCII表示的字符使用UNICODE并不高效，因为UNICODE比ASCII占用大一倍的
空间，而对ASCII来说高字节的0对他毫无用处。为了解决这个问题，就出现了一些中间格式的字符集，
他们被称为通用转换格式，既UTF（Universal Transformation Format）。目前存在的UTF格式有：
UTF-7, UTF-7.5, UTF-8, UTF-16, 以及 UTF-32。

    big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。
那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。
还是将49写在前面，就是little endian。

    GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字
节从B0-F7，低字节从A1-FE，占用的码位是((15*16 + 7) - (11*16 + 0) + 1) * (15*16 + 14 ) -(10*16 + 1) + 1) =
72*94=6768。其中有5个空位是D7FA-D7FE。

    GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。
汉字区包括21003个字符。2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时
还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持GB18030，对嵌入式产品暂不
作要求。所以手机、MP3一般只支持GB2312。

     从ASCII、GB2312、GBK到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同
的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高
字节的最高位不为0。按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。

      前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容（更准确
地说，是与ISO-8859-1兼容），与GB码不兼容。例如“汉”字的Unicode编码是6C49，而GB码是BABA。

       Unicode也是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案。
Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode
Character Set"的缩写。

       UCS规定了怎么用多个字节表示各种文字。怎样传输这些编码，是由UTF(UCS Transformation Format)
规范规定的，常见的UTF规范包括UTF-8、UTF-7、UTF-16。

       UCS有两种格式：UCS-2和UCS-4。顾名思义，UCS-2就是用两个字节编码，UCS-4就是用4个字节（实际上
只用了31位，最高位必须为0）编码。

分享到：