`
lokvin
  • 浏览: 164499 次
  • 性别: Icon_minigender_1
  • 来自: 地球
文章分类
社区版块
存档分类
最新评论

字符编码整理

阅读更多
关于字符集一直搞得不是很清楚,下面整理一些从网上查到的内容:

     在所有字符集中,最知名可能要数被称为ASCII的7位字符集了。它是美国信息交换标准委员会
(American Standards Committee for Information Interchange)的缩写, 为美国英语通信所
设计。它由128个字符组成,包括大小写字母、数字0-9、标点符号、非打印字符(换行符、制表
符等4个)以及控制字符(退格、响铃等)组成。

    另一种8位字符集是ISO 8859-1 Latin 1,也简称为ISO Latin-1。它把位于128-255之间的字
符用于拉丁字母表中特殊语言字符的编码,也因此而得名。
   
    把汉语、日语和越南语的一些相似的字符结合起来,在不同的语言里,使不同的字符代表不同
的字,这样只用2个字节就可以编码地球上几乎所有地区的文字。因此,创建了UNICODE编码。它通
过增加一个高字节对ISO Latin-1字符集进行扩展,当这些高字节位为0时,低字节就是ISO Latin-1
字符。UNICODE支持欧洲、非洲、中东、亚洲(包括统一标准的东亚像形汉字和韩国像形文字)。

    事实证明,对可以用ASCII表示的字符使用UNICODE并不高效,因为UNICODE比ASCII占用大一倍的
空间,而对ASCII来说高字节的0对他毫无用处。为了解决这个问题,就出现了一些中间格式的字符集,
他们被称为通用转换格式,既UTF(Universal Transformation Format)。目前存在的UTF格式有:
UTF-7, UTF-7.5, UTF-8, UTF-16, 以及 UTF-32。

    big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。
那么写到文件里时,究竟是将6C写在前面,还是将49写在前面?如果将6C写在前面,就是big endian。
还是将49写在前面,就是little endian。

    GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围高字
节从B0-F7,低字节从A1-FE,占用的码位是((15*16 + 7) - (11*16 + 0) + 1) * (15*16 + 14 ) -(10*16 + 1) + 1) =
72*94=6768。其中有5个空位是D7FA-D7FE。


    GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。
汉字区包括21003个字符。2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时
还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持GB18030,对嵌入式产品暂不
作要求。所以手机、MP3一般只支持GB2312。

     从ASCII、GB2312、GBK到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同
的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高
字节的最高位不为0。按照程序员的称呼,GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。

      前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容(更准确
地说,是与ISO-8859-1兼容),与GB码不兼容。例如“汉”字的Unicode编码是6C49,而GB码是BABA。

       Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。
Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。UCS可以看作是"Unicode
Character Set"的缩写。

       UCS规定了怎么用多个字节表示各种文字。怎样传输这些编码,是由UTF(UCS Transformation Format)
规范规定的,常见的UTF规范包括UTF-8、UTF-7、UTF-16。

       UCS有两种格式:UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,UCS-4就是用4个字节(实际上
只用了31位,最高位必须为0)编码。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics