论坛首页 入门技术论坛

说说字符集、编码概念

浏览 6823 次
精华帖 (0) :: 良好帖 (1) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-01-17   最后修改:2009-01-17
OO

要谈编码就要先谈两个十分容易混淆的概念,一个是编码字符集 (Coded Character Set),一个是字符编码方案 (Character Encoding Scheme)。

 

编码字符集就是将字符集中每个字符赋一个数字代码 ,这是为了便于计算机处理。编码字符集一般由标准组织制定,Unicode就是典型的编码字符集。一个编码字符集必定对应一个字符集,Unicode编码字符集对应Unicode字符集,那么什么是字符集呢?


字符集是一个字符的集合,它规定这个集合包含哪些字符 。Unicode字符集包含所有Unicode字符,这几乎囊括了世界上所有语言的文字。一个更小的字符集是ASCII字符集,它只有128个字符,包含52个字母、10个数字、一些标点符号和一些控制字符。一个字符集想要被计算机表示,首先要将它映射成数字代码,因为计算机本质上只能表示数字,这是由编码字符集定义的。如何存储这些数字代码就涉及到字符编码方案了。

 

字符编码方案定义如何将数字代码映射成字节序列 。有人可能就要问了,有必要这么麻烦吗,代码1不就映射成字节1,代码2不就映射成字节2,依次类推。的确如果,字符集的不超过256个字符,这是一种非常合理简单的编码方案,每个字符只用一个字节来表示就可以了。但是如果字符集大小超过256个且不超过65536个,每个字符就需要2字节来编码,如果字符集包含更多的字符就需要使用更多的字节来编码一个字符,这种编码方案称为定长编码 ,例如GB2312就是采用这样的编码方案。这种编码方案很简单但是却存在问题,它对常用的和生癖的字符都使用同样的长度来编码,这很浪费存储空间,一种更好的编码方案是使用变长编码 ,它对常用的字符使用一个字节来编码,对不常用的字符使用两个字节来编码,而对非常生癖的字符使用三个或更多的字节来编码。Unicode编码字符集的一种变长编码方案是就是UTF-8,它的定长编码方案称为UTF-16。需要注意的是,既然涉及到多个字节就需要注意字节序了,因此UTF-16又分为Big Endian UTF-16和Little Endian UTF-16。UTF-8只能有一种字节序,这是因为字符编码之后的字节之间存在依赖关系。

 

最后什么是编码呢?编码是编码字符集和字符编码方案的一个组合 ,它可以将字符集中的字符映射成字节序列。编码隐含着编码字符集和字符编码方案,从而也隐含着字符集。例如UTF-8是一种编码,它是Unicode编码字符集和UTF8编码方案的一个组合。GB2312也是一种编码,它的编码字符集就是编码的简体中文字符集,编码方案采用定长编码。实践中经常混用编码字符集和编码这两个概念,这是因为大多数编码字符集都只有一种编码方案,这样的编码字符集(或者说编码)包括GB2312, GBK, ASCII, ISO8859-1等。但是当编码字符集存在多种编码方案时,就有必要区分编码字符集和编码了,例如我们说Unicode时一般是指编码字符集,说UTF-8,UTF-16时才是指编码。

   发表时间:2009-01-17  
这些概念估计学习的人更迷糊了。 哈哈, 其实可以说的更简单点:字符集 & 字符集计算机实现. 如果要更深入点, 可以说说不同字符集之间, 基础的字符如何兼容的。
0 请登录后投票
   发表时间:2009-01-17  
我想听有人讲讲java里面的那些编码集相关的api在你所说的这些概念中都扮演一些什么角色,好进一步了解java编码
0 请登录后投票
   发表时间:2009-01-20  
非常好的文章,以前很糊涂,现在总算有些明白了
0 请登录后投票
   发表时间:2009-02-01  
unsid 写道

我想听有人讲讲java里面的那些编码集相关的api在你所说的这些概念中都扮演一些什么角色,好进一步了解java编码


Java API中没有和“编码字符集”及“字符编码方案”对应的API,只有对应“编码”的API,叫做java.nio.charset.Charset,我想它之所以没有将它命名为"Encoding"是因为Encoding可能代表一个动词。在一般的程序中很少需要使用到这个,需要接受Charset的方法一般也存在一个重载方法它接受字符串参数,代表编码的名称。
0 请登录后投票
   发表时间:2009-03-22  
收藏了~~
0 请登录后投票
   发表时间:2009-03-22  
编码就是 索引键,索引键对应了字符
字符集就是 一张键值表

不同的字符集会有不同的索引键派分方式

例如
1 在 A 字符集内对应了 a
1 在 B 字符集内对应了 b
如果用A字符集写入,读取时却说它是B字符集那么应该显示成a的东西就变成了b。
如果 1 在 B 字符集内是“乱码”,那么这个时候应该显示成a的东西就变成“乱码”了。
0 请登录后投票
论坛首页 入门技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics