深入剖析字符集

kayo

浏览: 562359 次
性别:
来自: 安徽

最近访客更多访客>>

ssk168

zzy7075

hxgg

yangbo126

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

JAVA体系

Sybase SQL SQL Server MySQL JSP

anci.z(小谢), 2003.11.16
通过JDBC访问数据库时遇到的字符集问题中，可以归纳为如下因素：
- JVM对字符集的处理
JVM核心完全使用Unicode字符集，编码上采用UTF-16LE(x86和Unix)。 Java编译器
扫描.java源文件时将完成预转换，比如在中文Windows上编译.java文件时，你可能
已经注意到.java文件中的字符串和.class中的不一样。因为.java文件本身用的是
gb2312编码，而.class内则是UTF-16LE编码。如果你的编辑器支持，你可能会选择
直接用UTF-8来书写.java源程序，这时Java编译器就会用UTF-8对源程序解码。
在输出时，比如调用System.out.print方法也将完成一个编码转换，在上述情况中
经常是将内存中的UTF-16LE编码的字串转换成控制台上可读的gb2312编码。
- JSP页面使用的字符集
运行JSP页面前总会被预处理至.java程序并被编译成.class，注意到JSP总是一个
servlet，因此实际上这里存在两个字符集，一是.jsp文件本身使用的字符集，另一
则是servlet输出内容的字符集(content-type)。尽量使.jsp文件本身的字符集和输
出内容的字符集保持一致，比如一致采用UTF-8。Response的实现将jvm中的UTF-
16LE字串转换至<%@page encoding=...%>所指定的编码，
- Connection 使用的字符集
连接的字符集限制了SQL语句可以使用的字符。这在UTF-16中格外明显，如果连接不
使用UTF-16的字符集，那么由于大多数的Latin-1字符集对'\0'的处理将使大多数
SQL语句成为无效语句，比如SELECT语句通过UTF-16LE编码后将变
成"S\0E\0L\0E\0C\0T\0..."，服务器的SQL分析器在遇到第一个'\0'便认为语句已经结束。
但仍然可以将UTF-16LE编码的字串送入Latin-1字符集的连接，方法是SQL语句本身
仍采用Latin-1编码，而相关的字串(引号内部的)采用UTF-16LE。这种情况下，UTF
-16LE的字串不能包括Unicode字符集中编码小于256的字符(包括拉丁字母和数字、
英文符号)，否则SQL分析器会报告"字符串未结束"之类的错误。(为什么?)
- 数据库系统
并不是所有数据库都支持Unicode，你可能有必要通过字符集转换来保存一些特殊的
字符数据。如果数据库仅支持Latin-1字符集（这样的系统不在少数），对于中文的
情况，你可以将字符串用Latin-1编码，然后用gb2312解码，觉得困惑？如果你(曾
经)是C++程序员，那么这里的编码类似于dynamic_cast, 而解码则相当于
reinterpret_cast。
sql_str = new String( java_str.getBytes("ISO-8859-1"), "gb2312" );
在获取数据的时候则刚好相反：
java_str = new String( sql_str.getBytes("gb2312"), "ISO-8859-1" );
如果数据库系统支持Unicode，那么请尽量采用Unicode。有些手册上建议你根据具
体情况决定是否使用Unicode，因为Unicode将占用更多的存储空间，而且如果采用
UTF-8，排序的速度将会"减慢30% (mysql)"，请不要为这些词语而顾虑，大多数情
况这些都不是问题。
对于SQL Server 2000，这篇文章值得一读:
http://www.microsoft.com/china/msdn/library/techart/IntlFeaturesInSQLServer2000.asp
最关键的就是你需要在字符串左边加上N字符(N一定要大写)，如
INSERT INTO table(name_en, name_native) VALUES('yokohama', N' 横浜 ')
对于Sybase数据库(Sybase 11.5, Sybase 12)，系统不支持UTF-16，但支持UTF-8，
为了使用Unicode，你可能需要下面的连接字串:
jdbc:sybase:Tds:127.0.0.1:4000/database?charset=utf8&jconnect_version=0
类似的，在SQL语句中使用字符N修饰的字串，使SQL分析器认为字串是Unicode编码的。
对于MySQL数据库，系统支持四个级别的字符集设置：
连接，数据库，表，字段
MySQL参考手册第9章有详细的讨论，但注意版本要求4.1.0以上，同时Windows
(nt,2k,xp) 的用户请注意 4.1.0 有个bug，你必须使用4.1.1才能正确使用Unicode。
在 SQL Server 和 Sybase 中都有N开头的字段类型，它们被设计用于国际化的字符
存储。在SQL Server中，比如NTEXT实际上就是用Unicode存储的的字段类型。
SQL-99规定了Unicode字符串统一使用 u 前缀，如 u"コンピュータ"，但目前还没
有见哪个数据库系统支持这种语法。
附：几个字符集支持的测试例子（需要测试用的源码可以向我要：
jljljjl@yahoo.com）声明：
Connection c;
Statement s;
生成数据：
String lit1 = "的文本：中华人民共和国]";
String[] encs = new String[] {
"(default)",
"ISO-8859-1",
"cp850",
"gb2312",
"gbk",
"big5",
"UTF-16LE",
"UTF-16BE",
"UTF-8", };
String javaSrc = "[这是默认编码" + lit1;
byte[] rawdata;
s.executeUpdate("DELETE FROM StringTable");
for (int i = 0; i < encs.length; i++) {
String targetEncoding = encs[i];
javaSrc = "[这是" + targetEncoding + lit1;
String testTarget;
if (i == 0) {
rawdata = javaSrc.getBytes();
testTarget = new String(rawdata);
} else {
rawdata = javaSrc.getBytes(targetEncoding);
testTarget = new String(rawdata); }
System.out.println(testTarget);
String sql = ("INSERT INTO StringTable(charset,text) VALUES(" +
"'" + targetEncoding + "', N'" + testTarget + "')");
System.out.println(sql);
s.executeUpdate(sql); }
获取数据：
ResultSet rs = s.executeQuery("SELECT * FROM StringTable");
String charset;
String text;
while (rs.next()) {
charset = rs.getString("charset").trim();
text = rs.getString("text");
System.out.println(charset + ": [" + text + "]");
byte[] raws = text.getBytes();
String restore;
if ("(default)".equals(charset)) {
restore = new String(raws);
} else {
restore = new String(raws, charset); }
System.out.println(" --> [" + restore + "]"); }
典型测试结果：
SQL-Server, type = ntext
(default): [[这是(default)的文本：中华人民共和国]]
--> [[这是(default)的文本：中华人民共和国]]
ISO-8859-1: [[??ISO-8859-1???????????]]
--> [[??ISO-8859-1???????????]]
cp850: [[??cp850???????????]]
--> [[??cp850???????????]]
gb2312: [[这是gb2312的文本：中华人民共和国]]
--> [[这是gb2312的文本：中华人民共和国]]
gbk: [[这是gbk的文本：中华人民共和国]]
--> [[这是gbk的文本：中华人民共和国]]
big5: [[?琌big5ゅセい?チ㎝?]]
--> [[?是big5的文本：中?人民共和?]]
UTF-8: [[杩欐槸UTF-8鐨勬枃鏈細涓崕浜烘皯鍏卞拰鍥絔]
--> [[这是UTF-8的文本：中华人民共和国]]
SQL-Server, type = text
(default): [[这是(default)的文本：中华人民共和国]]
--> [[这是(default)的文本：中华人民共和国]]
ISO-8859-1: [[??ISO-8859-1???????????]]
--> [[??ISO-8859-1???????????]]
cp850: [[??cp850???????????]]
--> [[??cp850???????????]]
gb2312: [[这是gb2312的文本：中华人民共和国]]
--> [[这是gb2312的文本：中华人民共和国]]
gbk: [[这是gbk的文本：中华人民共和国]]
--> [[这是gbk的文本：中华人民共和国]]
big5: [[?琌big5ゅセい?チ㎝?]]
--> [[?是big5的文本：中?三民囝和?]]
UTF-8: [[杩欐槸UTF-8鐨勬枃鏈細涓崕浜烘皯鍏卞拰鍥絔]
--> [[这是UTF-8的文本：中华人民共和国]]
Sybase, type = char
(default): [[??(default)???????????]]
--> [[??(default)???????????]]
ISO-8859-1: [[??ISO-8859-1???????????]]
--> [[??ISO-8859-1???????????]]
cp850: [[??cp850???????????]]
--> [[??cp850???????????]]
gb2312: [[??gb2312???????????]]
--> [[??gb2312???????????]]
gbk: [[??gbk???????????]]
--> [[??gbk???????????]]
big5: [[??big5???????????]]
--> [[??big5???????????]]
UTF-16LE
--> [[?啦吀??????????乎?民共?]]
UTF-16BE:
--> [[??唀吀??????????乎?共吿??]
UTF-8: [[???UTF-8?????????????????]
--> [[???UTF-8?????????????????]
Sybase, type = nchar
(default): [[??(default)???????????]]
--> [[??(default)???????????]]
ISO-8859-1: [[??ISO-8859-1???????????]]
--> [[??ISO-8859-1???????????]]
cp850: [[??cp850???????????]]
--> [[??cp850???????????]]
gb2312: [[??gb2312???????????]]
--> [[??gb2312???????????]]
gbk: [[??gbk???????????]]
--> [[??gbk???????????]]
big5: [[??big5???????????]]
--> [[??big5???????????]]
UTF-16LE
--> [[?啦吀??????????乎?民共?]]
UTF-16BE:
--> [[??唀吀??????????乎?共吿??]
UTF-8: [[???UTF-8?????????????????]
--> [[???UTF-8?????????????????]
Sybase, type = char, charset=utf8
(default): [[这是(default)的文本：中华人民共和国]]
--> [[这是(default)的文本：中华人民共和国]]
ISO-8859-1: [[??ISO-8859-1???????????]]
--> [[??ISO-8859-1???????????]]
cp850: [[??cp850???????????]]
--> [[??cp850???????????]]
gb2312: [[这是gb2312的文本：中华人民共和国]]
--> [[这是gb2312的文本：中华人民共和国]]
gbk: [[这是gbk的文本：中华人民共和国]]
--> [[这是gbk的文本：中华人民共和国]]
big5: [[?琌big5ゅセい?チ㎝?]]
--> [[?是big5的文本：中?人民共和?]]
UTF-16LE: [[这是UTF-16LE的文本?中华人民共和国]]
UTF-16BE: [[这是UTF-16BE的文本?中华人民共和嘿]]
UTF-8: [[杩欐槸UTF-8鐨勬枃鏈細涓崕浜烘皯鍏卞拰鍥絔]
--> [[这是UTF-8的文本：中华人民共和国]]
Sybase, type = nchar, charset=utf8
(default): [[这是(default)的文本：中华人民共和国]]
--> [[这是(default)的文本：中华人民共和国]]
ISO-8859-1: [[??ISO-8859-1???????????]]
--> [[??ISO-8859-1???????????]]
cp850: [[??cp850???????????]]
--> [[??cp850???????????]]
gb2312: [[这是gb2312的文本：中华人民共和国]]
--> [[这是gb2312的文本：中华人民共和国]]
gbk: [[这是gbk的文本：中华人民共和国]]
--> [[这是gbk的文本：中华人民共和国]]
big5: [[?琌big5ゅセい?チ㎝?]]
--> [[?是big5的文本：中?人民共和?]]
UTF-16LE: --> [[这是UTF-16LE的文本?中华人民共和国]]
UTF-16BE: --> [[这是UTF-16BE的文本?中华人民共和嘿]]
UTF-8: [[杩欐槸UTF-8鐨勬枃鏈細涓崕浜烘皯鍏卞拰鍥絔]
--> [[这是UTF-8的文本：中华人民共和国]]
Sybase, type = char, charset=cp936
(default): [[这是(default)的文本：中华人民共和国]]
--> [[这是(default)的文本：中华人民共和国]]
ISO-8859-1: [[??ISO-8859-1???????????]]
--> [[??ISO-8859-1???????????]]
cp850: [[??cp850???????????]]
--> [[??cp850???????????]]
gb2312: [[这是gb2312的文本：中华人民共和国]]
--> [[这是gb2312的文本：中华人民共和国]]
gbk: [[这是gbk的文本：中华人民共和国]]
--> [[这是gbk的文本：中华人民共和国]]
big5: [[?琌big5ゅセい?チ㎝?]]
--> [[?是big5的文本：中?人民共和?]]
UTF-16LE: --> [[这是UTF-16LE的文本?中华人民共和国]]
UTF-16BE: --> [[这是UTF-16BE的文本?中华人民共和嘿]]
UTF-8: [[杩欐槸UTF-8鐨勬枃鏈細涓崕浜烘皯鍏卞拰鍥絔]
--> [[这是UTF-8的文本：中华人民共和国]]
Sybase, type = char, charset=eucgb
(default): [[这是(default)的文本：中华人民共和国]]
--> [[这是(default)的文本：中华人民共和国]]
ISO-8859-1: [[??ISO-8859-1???????????]]
--> [[??ISO-8859-1???????????]]
cp850: [[??cp850???????????]]
--> [[??cp850???????????]]
gb2312: [[这是gb2312的文本：中华人民共和国]]
--> [[这是gb2312的文本：中华人民共和国]]
bk: [[这是gbk的文本：中华人民共和国]]
--> [[这是gbk的文本：中华人民共和国]]
big5: [[??big5?ゅセ?い??チ???]]
--> [[??big5?文本?中??民???]]
UTF-16LE: --> [[?啦吀??????????乎?民共?]]
UTF-16BE: --> [[??唀吀??????????乎?共吿??]
UTF-8: [[杩??UTF-8??????涓??浜烘??卞???]
--> [[???UTF-8?????????人????????]
Sybase, type = nchar, charset=eucgb
(default): [[这是(default)的文本：中华人民共和国]]
--> [[这是(default)的文本：中华人民共和国]]
ISO-8859-1: [[??ISO-8859-1???????????]]
--> [[??ISO-8859-1???????????]]
p850: [[??cp850???????????]]
--> [[??cp850???????????]]
gb2312: [[这是gb2312的文本：中华人民共和国]]
--> [[这是gb2312的文本：中华人民共和国]]
gbk: [[这是gbk的文本：中华人民共和国]]
--> [[这是gbk的文本：中华人民共和国]]
big5: [[??big5?ゅセ?い??チ???]]
--> [[??big5?文本?中??民???]]
UTF-16LE: --> [[?啦吀??????????乎?民共?]]
UTF-16BE: --> [[??唀吀??????????乎?共吿??]
UTF-8: [[杩??UTF-8??????涓??浜烘??卞???]
--> [[???UTF-8?????????人????????]

--------------------------------------------------------------------

GB2312,GBK和UTF-8的区别

GBK包含全部中文字符， GBK的文字编码是双字节来表示的，即不论中、英文字符均使用双字节来表示，只不过为区分中文，将其最高位都定成1。
至于UTF－8编码则是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24位（三个字节）来编码。对于英文字符较多的论坛则用UTF－8节省空间。

GBK包含全部中文字符，
UTF-8则包含全世界所有国家需要用到的字符。
GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准
UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。
比如，如果是UTF8编码，则在外国人的英文IE上也能显示中文，而无需他们下载IE的中文语言支持包。
对于英文比较多的论坛，使用GBK则每个字符占用2个字节，而使用UTF－8英文却只占一个字节。

分享到：

在C/S中如何让工作站自动升级程序 | jconnect的字符集

2008-08-02 10:35
浏览 1876
评论(1)
查看更多

1 楼 kayo 2008-08-02

2.1. iso8859-1

属于单字节编码，最多能表示的字符范围是0-255，应用于英文系列。比如，字母'a'的编码为0x61=97。

很明显，iso8859-1编码表示的字符范围很窄，无法表示中文字符。但是，由于是单字节编码，和计算机最基础的表示单位一致，所以很多时候，仍旧使用iso8859-1编码来表示。而且在很多协议上，默认使用该编码。比如，虽然"中文"两个字不存在iso8859-1编码，以gb2312编码为例，应该是"d6d0 cec4"两个字符，使用iso8859-1编码的时候则将它拆开为4个字节来表示："d6 d0 ce c4"（事实上，在进行存储的时候，也是以字节为单位处理的）。而如果是UTF编码，则是6个字节"e4 b8 ad e6 96 87"。很明显，这种表示方法还需要以另一种编码为基础。

2.2. GB2312/GBK

这就是汉子的国标码，专门用来表示汉字，是双字节编码，而英文字母和iso8859-1一致（兼容iso8859-1编码）。其中gbk编码能够用来同时表示繁体字和简体字，而gb2312只能表示简体字，gbk是兼容gb2312编码的。

2.3. unicode

这是最统一的编码，可以用来表示所有语言的字符，而且是定长双字节（也有四字节的）编码，包括英文字母在内。所以可以说它是不兼容iso8859 -1编码的，也不兼容任何编码。不过，相对于iso8859-1编码来说，uniocode编码只是在前面增加了一个0字节，比如字母'a'为"00 61"。

需要说明的是，定长编码便于计算机处理（注意GB2312/GBK不是定长编码），而unicode又可以用来表示所有字符，所以在很多软件内部是使用unicode编码来处理的，比如java。

2.4. UTF

考虑到unicode编码不兼容 iso8859-1编码，而且容易占用更多的空间：因为对于英文字母，unicode也需要两个字节来表示。所以unicode不便于传输和存储。因此而产生了utf编码，utf编码兼容iso8859-1编码，同时也可以用来表示所有语言的字符，不过，utf编码是不定长编码，每一个字符的长度从1-6 个字节不等。另外，utf编码自带简单的校验功能。一般来讲，英文字母都是用一个字节表示，而汉字使用三个字节。

注意，虽然说utf是为了使用更少的空间而使用的，但那只是相对于unicode编码来说，如果已经知道是汉字，则使用GB2312/GBK无疑是最节省的。不过另一方面，值得说明的是，虽然utf编码对汉字使用3个字节，但即使对于汉字网页，utf编码也会比unicode编码节省，因为网页中包含了很多的英文字符。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论