研究了一下字符编码

smartzxy

浏览: 201293 次
性别:
来自: 苏州

最近访客更多访客>>

cctv08520

superact007

wt_7628

amwfngt

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Python

Python Linux WAP MySQL 网络应用

凡是在应用中涉及到中文了，都会遇到字符编码问题。之前没有仔细研究，脑中只有一个比较敷衍的概念——在交互中统一字符编码就不会出问题了~具体字符编码会出什么问题，一直没好好研究下。（今早看到华莽邮件里又有人为了字符编码抓狂了，同情下……）

首先要清楚一下几个概念：

字节（byte）：计算机中存储数据的单元，一个8位的二进制数，是一个很具体的存储空间。

字符（Character）：是文字与符号的总称，包括文字、图形符号、数学符号等。

字符集（Charset）：即字符的集合，规定了在这些集合里面有哪些字符。

字符编码(Encoding)：就是规定用一个字节还是多个字节来存储一个字符，用固定的二进制码值表示某个字符。

目前常见的字符集有ASCII、ISO-8859-1、Unicode、GB2312、GBK、BIG5等。各自都有各自的编码方式，比如“中华”这个词在GBK中编码为：“\xd6\xd0\xbb\xaa”，在Unicode中为：“\u4e2d\u534e”。当然各自的特性也不同，这里就不介绍了。

在所有这些字符集中，Unicode比较特殊，因为它的野心比较大，想囊括所有语言的字符作为统一字符集，所以编码就不能只用小小一个字节了，所有它能表示的字符都编码为两个字节。但是英语系的家伙们不干了，他们的语言仅仅26个字母，也要用2个字节来编码，传输时岂不是浪费大了！于是想出了UTF-8、UTF-16等针对Unicode的二次编码方式。UTF-8对传统ASCII字符用一个字节来编码，对中文这样的字符用3个字节来编码（我们亏了~）。

出现乱码问题主要在数据的表现上，也就是显示设备在根据数据中的字符编码值找出相应的字符并加以显示时，使用了错误的编码方式。这个问题只要在通信中交互数据时标记清楚数据所使用的编码方式。在xml中，可以设置：

<?xml version="1.0" encoding="UTF-8"?>

在HTTP传输中可以在报头设置字符集编码方式，HTML也可以标记字符编码，这样浏览器就会自动选择了……

字符编码不仅仅会引起乱码麻烦，在数据处理中也会惹麻烦。例如Python在“对外”（包括标准输出流）发送Unicode编码的文本数据时，会默认的使用ASCII字符集的codecs将字符转换成ASCII编码，如果含有非ASCII字符集的字符，就会报“UnicodeEncodeError”；在比较Python中的字符串时，如果使用的编码不同，也会报UnicodeEncodeError异常………所以比较乖的方式就像《Python Cookbook》中建议的，在发生IO动作时，I时将数据decode成Unicode，O时再将数据encode成相应的字符编码。

以上是今天下午的学习心得……

分享到：

改进我的人人农场收菜外挂 | 被偷无奈写个收菜外挂

2010-06-16 17:47
浏览 1716
评论(29)
论坛回复 / 浏览 (29 / 20025)
分类:编程语言
查看更多

29 楼苏小脉 2010-10-22

wait10000y 写道

utf8是可变字节长度保存的，不同字符集占字节长度不同；
linux 系统默认 utf-8;
windows 系统默认 gbk ;
对中文来说用这两个中的哪个都一样的。

这个不是绝对的，locale 的设置决定了系统当前使用的代码页，像 GBK 只不过恰好是 PRC 区域设置的代码页而已。

28 楼 kevintse 2010-10-18

http://www.joelonsoftware.com/articles/Unicode.html
看看这篇文章会有很大的帮助.

另外,楼主所说的"但是英语系的家伙们不干了，他们的语言仅仅26个字母，也要用2个字节来编码，传输时岂不是浪费大了！于是想出了UTF-8、UTF-16等针对Unicode的二次编码方式。"有点问题~

"于是想出了UTF-8、UTF-16等针对Unicode的二次编码方式。",实际上他们只想出了UTF-8,也不叫二次编码,而是Unicode标准的一个实现.
Unicode并不是一种编码,而是一个标准,但是当人们说使用Unicode的时候,他们说的是UTF-16.所以,你又可以认为Unicode=UTF-16.

GBK都是两个字节的,但是因为GBK兼容ISO-8859-1(ASCII),所以,表示ASCII字符的时候,就只需要一个字节.
中文在UTF-8里面都是占用3个字节的.UTF-8的出现就是为了解决UTF-16总是占用两个字节,太浪费存储空间的问题.

27 楼 liangguanhui 2010-09-16

utf8的长度是1-6，其中4-6的长度是为了支持UCS4，而1-3的长度支持UCS2，目前常用的是UCS2。

通常在UT8，中文都是三个字节表示，这个应该算是常识那。

26 楼 nkranber 2010-09-15

用UTF8还是用GBK不能一概而论啊，主要还得看网站的带宽和使用的平台。例如：WAP网站私底下还是认为用GBK比较好，而网络就无所谓了。

25 楼 laobian 2010-08-14

全部采用encode和decode就不会有乱码了嘛，吵啥呀？

24 楼 wait10000y 2010-07-03

utf8是可变字节长度保存的，不同字符集占字节长度不同；
linux 系统默认 utf-8;
windows 系统默认 gbk ;
对中文来说用这两个中的哪个都一样的。

23 楼 smartzxy 2010-07-03

i2534 写道

在我看来,除了UTF-8，其他一切区域性的编码都可以在程序员的世界里抛弃了.我上个公司给移动做一个国际邮件处理,遇到的乱码问题真是匪夷所思,很多都是无解的,当然,也和发送的客户端有关,让人要抓狂.

是啊，Unicode已经完全包含了gbk的字符集，最新的Unicode已经涵盖了gb18030，除了utf-8的3字符表示不太舒服外，没什么不好的了~

22 楼 i2534 2010-06-30

21 楼 hesy_007 2010-06-29

lei_1021 写道

无语了，谁告诉你utf-8是用三个字节表示中文啊，UTF-8编码是根据字符不同所占的长度也不同，从一个字节到四个字节不等

UTF-8的编码长度是可变的。但是就目前来说，中文基本上是三个字节表示，英文等拉丁语言两个字节，其他一些用四个字节。

20 楼 J-catTeam 2010-06-29

开发中经常遇到编码的问题,UTF-8是合理的

19 楼 thethinking 2010-06-29

IcedCoffee 写道

utf-8是3个字节？
我一直以为是2个...

我也一直以为是2个，但是前阵子使用Yii。里面验证字段长度，发现中文按3个字节计算的，当时有些纳闷但是也没深究。不求甚解啊！

18 楼 whitesock 2010-06-29

UTF8是可变长的编码方式，这个想必大家都清楚，用不着摘个繁体维基百科。

17 楼 yining159 2010-06-28

whitesock 写道

jojo_java 写道

yangguo 写道

utf-8太恶心，中文用三字节，还是使用gbk吧。多国语言支持通常都是一种过度设计与奢侈。

谁跟你说的一定是三个啊

谁跟你说不是？

對於UTF-8編碼中的任意位元組B，如果B的第一位為0，則B為ASCII碼，並且B獨立的表示一個字元;

如果B的第一位為1，第二位為0，則B為一個非ASCII字元（該字元由多個位元組表示）中的一個位元組，並且不為字元的第一個位元組編碼;

如果B的前兩位為1，第三位為0，則B為一個非ASCII字元（該字元由多個位元組表示）中的第一個位元組，並且該字元由兩個位元組表示;

如果B的前三位為1，第四位為0，則B為一個非ASCII字元（該字元由多個位元組表示）中的第一個位元組，並且該字元由三個位元組表示;

如果B的前四位為1，第五位為0，則B為一個非ASCII字元（該字元由多個位元組表示）中的第一個位元組，並且該字元由四個位元組表示;
摘自维基百科http://zh.wikipedia.org/zh-tw/UTF-8

16 楼蓝皮鼠 2010-06-27

对于汉字来说，utf-8基本是三个字节表示的

System.out.println("汉字".getBytes("UTF-8").length);
System.out.println("汉字".getBytes("GBK").length);

上面的代码输出是6和4。
有疑问的可以用任意的中文试试。

程序员对程序有疑问时，请直接问电脑，不用自己猜。。。

15 楼 xiaolongfeixiang 2010-06-26

<div class="quote_title">lei_1021 写道</div>
<div class="quote_div">无语了，谁告诉你utf-8是用三个字节表示中文啊，UTF-8编码是根据字符不同所占的长度也不同，从一个字节到四个字节不等</div>
 
不要总是“谁告诉你”、“一直都是”、“一直都不是”，这样不是在讨论，不会有结果的。
 
看证据：
 
<a href="http://doc.mysql.cn/mysql5/refman-5.1-zh.html-chapter/charset.html#charset-metadata">http://doc.mysql.cn/mysql5/refman-5.1-zh.html-chapter/charset.html#charset-metadata</a>
 
10.5节，Unicode支持。
 
 <img src="http://dl.iteye.com/upload/attachment/269233/7e8b87f1-dae6-314f-a779-fc760af414af.jpg" alt="">

14 楼 lei_1021 2010-06-26

无语了，谁告诉你utf-8是用三个字节表示中文啊，UTF-8编码是根据字符不同所占的长度也不同，从一个字节到四个字节不等

13 楼 lilsean 2010-06-26

<div class="quote_title">xiaolongfeixiang 写道</div>
<div class="quote_div">
<div class="quote_title">jojo_java 写道</div>
<div class="quote_div">
<div class="quote_title">yangguo 写道</div>
<div class="quote_div">utf-8太恶心，中文用三字节，还是使用gbk吧。多国语言支持通常都是一种过度设计与奢侈。</div>
 谁跟你说的一定是三个啊</div>
 
jojo_java兄弟，看书要仔细点。
 
utf8的编码集中，汉字是3个字符。
 
utf-8是1-4个字节的变长编码：
 
· 基本拉丁字母、数字和标点符号使用一个字节。
 
·
大多数的欧洲和中东手写字母适合两个字节序列：扩展的拉丁字母（包括发音符号、长音符号、重音符号、低音符号和其它音符）、西里尔字母、希腊语、亚美尼亚语、希伯来语、阿拉伯语、叙利亚语和其它语言。
 
· 韩语、中文和日本象形文字使用三个字节序列。
</div>
我得好好看看了

12 楼 xiaolongfeixiang 2010-06-26

<div class="quote_title">jojo_java 写道</div>
<div class="quote_div">
<div class="quote_title">yangguo 写道</div>
<div class="quote_div">utf-8太恶心，中文用三字节，还是使用gbk吧。多国语言支持通常都是一种过度设计与奢侈。</div>
 谁跟你说的一定是三个啊</div>
 
jojo_java兄弟，看书要仔细点。
 
utf8的编码集中，汉字是3个字符。
 
utf-8是1-4个字节的变长编码：
 
· 基本拉丁字母、数字和标点符号使用一个字节。
 
·
大多数的欧洲和中东手写字母适合两个字节序列：扩展的拉丁字母（包括发音符号、长音符号、重音符号、低音符号和其它音符）、西里尔字母、希腊语、亚美尼亚语、希伯来语、阿拉伯语、叙利亚语和其它语言。
 
· 韩语、中文和日本象形文字使用三个字节序列。

11 楼 whitesock 2010-06-26

hozaka 写道

whitesock 写道

jojo_java 写道

yangguo 写道

utf-8太恶心，中文用三字节，还是使用gbk吧。多国语言支持通常都是一种过度设计与奢侈。

谁跟你说的一定是三个啊

谁跟你说不是？

一直都不是，参考 http://en.wikipedia.org/wiki/UTF-8

引用

UTF-8 (8-bit UCS/Unicode Transformation Format) is a variable-length character encoding for Unicode. It is able to represent any character in the Unicode standard, yet is backwards compatible with ASCII. For these reasons, it is steadily becoming the preferred encoding for e-mail, web pages,[1][2] and other places where characters are stored or streamed.

UTF-8 encodes each character (code point) in 1 to 4 octets (8-bit bytes), with the single–octet encoding used only for the 128 US-ASCII characters.

你再仔细看看吧

10 楼 hozaka 2010-06-25

whitesock 写道

jojo_java 写道

yangguo 写道

utf-8太恶心，中文用三字节，还是使用gbk吧。多国语言支持通常都是一种过度设计与奢侈。

谁跟你说的一定是三个啊

谁跟你说不是？

一直都不是，参考 http://en.wikipedia.org/wiki/UTF-8

引用

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论