Java中如何正确使用字体编码 -

wcb820710

浏览: 23512 次
性别:
来自: 杭州

最近访客更多访客>>

xuHuihui

wenj91

icantforget

eryk

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2009-02 ( 9)
更多存档...

Java中如何正确使用字体编码

博客分类：

Java

Java JSP MySQL 编程 JDBC

首先声明一下，此文章是从网上转载的。但是没有考虑使用不同Web Server时出现的情况，比如文章里的用 红色字体画出来的部分代码在用Tomcat时用文章中的方法，不过到了WebSphere的时候必须用原先的String name = request.getParameter("name");因此采用本文方法的时候不要太死板，多试试。
在Java编程中，中文字体编码有一定的难度，如果抓住了影响Java中文显示的关键因素，问题将迎刃而解。
Java是目前最流行的面向对象的编程语言之一，Java支持UTF-8、ISO-8859-1、GBK等各种字体编码，现在对Java中字体编码的问题，特意总结如下：

影响Java中字体编码正确显示的有几个因素：
1）数据库的连接方式；
2）网页中使用的字体编码；
3）数据库里存放数据的字体编码；
4）Java的缺省字体编码。
如果在编程中遇到不能正确显示中文的问题时，要先弄清楚以上几项所使用的字体编码，在分析找出原因，即可解决问题。众所周知，JSP是Java的一种，和网页有关，而网页也有自己的中文编码系统，所以JSP处理中文要比纯Java的类文件更为麻烦。本文的测试数据库是mySql，数据库连接驱动是org.gjt.mm.mysql.Driver，这里主要讨论UTF-8和GBK的显示(GB2312是GBK的一个子集，Java中可以使用GBK代替GB系列)。我们先来研究JSP中字体编码问题，以下第一到第六点是针对JSP的(因为从数据库读取中文数据与写入中文数据有所区别，分别说明，前三点是从数据库读取数据到显示在页面上，后三点是从网页输入数据到存入数据库)，第七到第九点是针对纯Java的类文件。以下rs表示ResultSet的一个实例，是执行select语句之后产生的数据集。

一、数据库连接方式使用UTF-8
在连接数据库的驱动后面加上参数——useUnicode=true&characterEncoding=UTF-8
例如：jdbc:mysql://localhost/DBVF?autoReconnect=true&useUnicode=true&characterEncoding=UTF-8

1、从数据库中读取中文，显示在使用GBK的JSP页面里：
(1)如果数据库中存放的字体编码是UTF-8数据，在JSP页面中使用
str = new String(rs.getBytes(1),"UTF-8");
或者
str = rs.getString(1);可以正确显示中文。
(2)如果数据库中存放的字体编码是GBK数据，在JSP页面中使用
str = new String(rs.getBytes(1),"GBK");正确显示中文。

2、值得注意的是：如果网页使用UTF-8，数据库中存放的是UTF-8，可以用
str = new String(rs.getBytes(1),"GBK");正确显示中文。
如果网页使用UTF-8，而数据库中存放的是GBK，无法直接显示中文，需要２步转换：
str = new String(rs.getBytes(1),"GBK");
str = new String(str.getBytes("UTF-8"),"GBK");才可以正确显示中文。

二、数据库连接方式使用GBK
在连接数据库的驱动后面加上参数——useUnicode=true&characterEncoding=GBK
例如：jdbc:mysql://localhost/DBVF?autoReconnect=true&useUnicode=true&characterEncoding=GBK

1、从数据库中读取中文，显示在使用GBK的JSP页面里：
(1)如果数据库中存放的字体编码是UTF-8数据，在JSP页面中一定使用
str = new String(rs.getBytes(1),"UTF-8");才可以正确显示中文。
(2)如果数据库中存放的字体编码是GBK数据，在JSP页面中使用
str = new String(rs.getBytes(1),"GBK");
或者
str = rs.getString(1);即可显示正确的中文。

2、如果网页使用UTF-8，数据库中存放的是GBK，只能用
   str = new String(rs.getString(1).getBytes("UTF-8）","GBK");正确显示中文。
如果网页使用UTF-8，而数据库中存放的是UTF-8，可以用
   str = new String(rs.getBytes(1),"GBK");
   或者
   str = rs.getString(1);正确显示中文。

三、数据库连接使用缺省方式
   在连接数据库的驱动后面没有参数——useUnicode=&characterEncoding=
   例如：jdbc:mysql://localhost/DBVF?autoReconnect=true
   没有参数useUnicode=true&characterEncoding=UTF-8，表示使用默认的ISO-8859-1编码。
1、从数据库中读取中文，显示在使用GBK的JSP页面里。
(1)如果数据库中存放的字体编码是UTF-8数据，在JSP页面中一定使用
str = new String(rs.getString(1).getBytes(),"UTF-8");
或者
str = new String(rs.getString(1).getBytes("ISO-8859-1"),"UTF-8);才可以正确显示中文。
(2)如果数据库中存放的字体编码是GBK数据，在JSP页面中使用
str = new String(rs.getBytes(1),"GBK");
或者
str = new String(rs.getString(1).getBytes("ISO-8859-1"),"GBK");即可显示正确的中文。
2、如果网页是UTF-8，不能直接正确显示GBK，需要2步转换
str = new String(rs.getBytes(1),"GBK");
str = new String(str.getByte("UTF-8"),"GBK");才可以正确显示中文。
如果数据库里存的是UTF-8，直接用
str = new String(rs.getBytes(1),"GBK");
或者
str = new String(rs.getString(1).getBytes("ISO-8859-1)","GBK");显示正确的中文。

以上三点是读取数据库里中文正确显示在网页上，以下三点是如何正确存入数据库。

四、数据库连接方式使用UTF-8
要把JSP网页输入的中文存入数据库，通常有一个提交(Submit)的过程，是用
str = request.getParameter("userName");
然后执行update或insert语句存入数据库。如何赋值给str很重要，而且这里中文输入与网页所使用的字体编码有关。

1、网页使用UTF-8，使用
str = new String(request.getParameter("userName").getBytes("ISO-8859-1"),"UTF-8");
或者
str = new String(request.getParameter("userName").getBytes(),"UTF-8");
都可以使得存入数据库的数据是UTF-8编码。

2、网页使用GBK,使用
str = new String(request.getParameter("userName").getBytes(),"GBK");
那么存入数据库的数据是UTF-8编码。

3、值得注意的是使用UTF-8的数据库连接方式不能存GBK。

五、数据库连接方式使用GBK
1、网页使用GBK，使用
str = new String(request.getParameter("userName").getBytes("ISO-8859-1"),"GBK");
或者
str = new String(request.getParameter("userName").getBytes(),"GBK");
都可以使得存入数据库的数据是GBK编码。

2、网页使用GBK，想存UTF-8编码到数据库里，需要2步转换
str = new String(request.getParameter("userName").getBytes(),"GBK");
str = new String(str.getBytes("UTF-8"),"GBK");

3、网页使用UTF-8，使用
str = new String(request.getParameter("userName").getBytes("ISO-8859-1"),"GBK");
或者
str = new String(request.getParameter("userName").getBytes(),"UTF-8");
都可以使得存入数据库的数据是UTF-8编码。

4、网页使用UTF-8，使用
str = new String(request.getParameter("userName").getBytes("ISO-8859-1"),"UTF-8");
那么存到数据库的数据是GBK编码。

六、数据库连接使用缺省方式，即不使用参数useUnicode和characterEncoding
1、网页使用GBK，如果使用
str = request.getParameter("userName");
或者
str = new String(request.getParameter("userName").getBytes());
那么存到数据库的数据是GBK编码。

网页使用UTF-8和使用
str = request.getParameter("userName");
则存到数据库的数据是UTF-8编码。

2、如果使用
str = new String(request.getParameter("userName").getBytes("ISO-8859-1"));
那么根据网页提供的字体编码而存到数据库里，如果使用UTF-8的网页，那么存到数据库中的数据就是UTF-8编码，如果使用GBK的网页，那么存到数据库中的数据就是GBK编码。

3、如果使用
str = new String(request.getParameter("userName").getBytes("UTF-8"),"UTF-8");
这种组合能存到正确的数据外，其他存到数据库里的数据都是乱码或者错误码。在这个UTF-8组合的特列中，网页使用的是GBK，则存到数据库里就是GBK，网页使用的是UTF-8，则存到数据库里就是UTF-8。

4、网页使用GBK的要存UTF-8，一定需要2步：
company = new String(request.getParameter("company").getBytes(),"GBK");
company = new String(company.getBytes("UTF-8"));

5、网页使用UTF-8的，不能存GBK在数据库里，一句话，改变数据库连接方式不能存GBK码。

以上所有的都是基于JSP网页和数据库交互数据，下面讨论以下纯Java编程下的字体转换编码。

七、数据库连接方式使用UTF-8编码
1、数据库里的中文是UTF-8，可以转换为GBK，但不能把GBK存入数据库。
2、数据库是GBK，如果转换为UTF-8，使用
content = new String(rs.getBytes(2),"GBK");
直接将content存入数据库就可为UTF-8。

八、数据库连接方式使用GBK编码
1、数据库里的中文是UTF-8，如果转换为GBK：
如果使用
content = new String(rs.getString(2).getBytes(),"UTF-8");
再直接使用update或者insert语句插入到数据库，即存得GBK。

如果使用
content = new String(rs.getString(2).getBytes(),"GBK");
或者
content = new String(rs.getString(2).getBytes());
再存入数据库即存得还是UTF-8编码。

2、数据库里的中文是GBK，如果转换为UTF-8，使用
content = new String(rs.getString(2).getBytes("UTF-8"));
或者
content = new String(rs.getString(2).getBytes("UTF-8"),"GBK");
再直接使用update或者insert语句插入到数据库，即存得UTF-8。

3、如果某个String是GBK，要转换为UTF-8，也是使用
content= new String(GBKstr.getBytes("UTF-8"));
或者
content= new String(GBKstr.getBytes("UTF-8"),"GBK");

如果某个String是UTF-8，要转换为GBK，应该使用new String(UTFstr.getBytes("GBK"),"UTF-8");

九、数据库连接方式使用缺省,即不使用参数useUnicode和characterEncoding
1、str2 = new String(GBKstr.getBytes("UTF-8"),"ISO-8859-1");
   可以将数据库里的GBK编码转换为UTF-8。

2、读取UTF-8然后存入UTF-8，使用
   str1 = new String(UTFstr.getBytes(),"ISO-8859-1");
   或者
   str1 = new String(UTFstr.getBytes("GBK"),"ISO-8859-1");

3、不能实现数据库里的UTF-8转换为GBK
   如果采用UTF-8的数据库连接方式或者缺省数据库连接方式，那么无法将UTF-8转换为GBK；而GBK的数据库连接方式可以实现UTF-8和GBK的相互转换。建议大家采用GBK的数据连接方式。

<meta http-equiv="content-type" content="text/html; charset=UTF-8"/>
设置HTML网页文件编码信息，浏览器会按UTF-8来解析页面。
<%@ page contentType="text/html;charset=utf-8" pageEncoding="GBK"%>
contentType的charset是指服务器发送给客户端时的内容编码,正好是HttpServletResponse.setContentType()语句；pageEncoding是jsp文件本身的编码，是用什么编码方式保存的,这样转成servlet时,就能正确的解析文件中的汉字。

分享到：