Java基础——孙鑫谈Java中文乱码问题产生原因分析（二）

星海孤舟

浏览: 70037 次
性别:
来自: 哈尔滨

最近访客更多访客>>

newsisyphus

cigogo

mjs

jjxliu306

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Java JSP Web Servlet 浏览器

Java基础——孙鑫谈Java中文乱码问题产生原因分析（二）

作者：孙鑫来源：孙鑫发布者：admin
时间：2009-07-22 10:56:59 点击：2734

在输出字符和字符串的时候，会从Unicode编码向中文系统默认的编码GBK转换，由于Unicode编码0xfffd在GBK字符集中没有对应的编码，于是得到0x3f，输出字符“?”。最后输出的结果如下：

fffd--?

40--@

554a--啊

从上述所知，由于存在着多种不同的字符集，在各种字符集之间进行转换，就有可能出现乱码，同样是中文字符集GB2312和GBK，由于编码范围的不同，某些字符在转换时也会出现乱码。

在一个使用了数据库的Web应用程序中，乱码可能会在多个环节产生。由于浏览器会根据本地系统默认的字符集来提交数据，而Web容器默认采用的是ISO-8859-1的编码方式解析POST数据，在浏览器提交中文数据后，Web容器会按照ISO-8859-1字符集来解码数据，在这一环节可能会导致乱码的产生。由于大多数数据库的JDBC驱动程序默认采用ISO-8859-1的编码方式在Java程序和数据库之间传递数据，我们的程序在向数据库中存储包含中文的数据时，JDBC驱动首先将程序内部的Unicode编码格式的数据转化为ISO-8859-1的格式，然后传递到数据库中，在这一环节可能会导致乱码的产生。目前流行的关系型数据库系统都支持数据库编码，也就是说在创建数据库时可以指定它自己的字符集设置，数据库的数据以指定的编码形式存储。当JDBC驱动向数据库中保存数据时，有可能还会发生字符集的转换。正是由于在Web应用程序运行过程中，输入的中文字符需要在不同的字符集之间来回转换，也就导致了中文乱码问题的频繁出现。

图17-1 描述了在Web应用的请求响应过程中，发生的字符编码转换过程，其中浏览器是IE 6.0，Web容器的是Tomcat 6.0.16。

从图17-1 描述的过程中可以看到，如果在Web应用程序中不指定任何的字符集，从浏览器端传来的中文字符，输出回浏览器时，可以正常显示（以简体中文的方式查看网页）。然而，事情并没有这么简单，在Servlet/JSP中，可能存在着直接写入的或从其他来源读取的中文字符，如果这些字符对应的Unicode码是从GB2312编码转换而来，那么以ISO-8859-1编码方式输出，这些字符将不能正常显示。所以对于中文的处理，应该在图17-1②和⑤的位置明确指定使用GB2312或GBK字符集。

图17-1 在Web请求响应过程中，中文字符编码的转换过程

java中文乱码问题的解决方案

只要掌握了中文乱码问题产生的原因，然后对症下药，就可以顺利地解决这些问题。下面我们对容易产生乱码问题的场景进行分析，并提出解决方案。

1．以POST方法提交的表单数据中有中文字符

由于Web容器默认的编码方式是ISO-8859-1，在Servlet/JSP程序中，通过请求对象的getParameter()方法得到的字符串是以ISO-8859-1转换而来，这是导致乱码产生的原因之一。为了避免容器以ISO-8859-1的编码方式返回字符串，对于以POST方法提交的表单数据，可以在获取请求参数值之前，调用request.setCharacterEncoding（"GBK"），明确指定请求正文使用的字符编码方式是GBK。在向浏览器发送中文数据之前，调用response.setContentType（"text/html;charset=GBK"），指定输出内容的编码方式是GBK。

对于JSP页面，在获取请求参数值之前，写上下面的代码：

<%request.setCharacterEncoding("GB2312");%>

为了指定输出内容的编码格式，设置page指令contentType属性，如下：

<%@ page contentType="text/html; charset=GBK" %>

在Web容器转换JSP页面后的Servlet类中，会自动添加下面的代码：

response.setContentType("text/html; charset=GBK");

2．以GET方法提交的表单数据中有中文字符

当提交表单采用GET方法时，提交的数据作为查询字符串被附加到URL的末端，发送到服务器，此时在服务器端调用setCharacterEncoding()方法也就没有作用了。我们需要在得到请求参数的值后，自己做正确的编码转换。

String name = request.getParameter("name");

name=new String(name.getBytes("ISO-8859-1"),"GBK");

在第一行，调用getParameter()方法得到的字符串name的Unicode值是以ISO-8859-1编码转换而来，调用name.getBytes（"ISO-8859-1"），将得到原始的GBK编码值，接着，对new String()的调用将以GBK字符集重新构造字符串的Unicode编码。

为了方便从ISO-8859-1编码到GBK的转换，我们可以编写一个工具方法，如下：

public String toGBK(String str)

throws java.io.UnsupportedEncodingException

{

return new String(str.getBytes("ISO-8859-1"),"GBK");

}

3．在数据库中存储和读取中文数据

对于大多数数据库的JDBC驱动程序，在Java程序和数据库之间传递数据都是以ISO-8859-1为默认编码格式，所以，我们在程序中向数据库存储包含中文的数据时，JDBC驱动程序首先把程序内部的Unicode编码格式的数据转化为ISO-8859-1编码，然后传递到数据库中，加上数据库本身也有字符集，这就是为什么我们常常在数据库中读取中文数据时，读到的是乱码。

要解决上述问题，只需要将数据库默认的编码格式改为GBK或GB2312即可，不同的数据库还提供了另外的方式来处理字符编码转换的问题，读者在实际应用过程中，可针对具体情况再做具体处理，只要理解了编码转换的过程，就能找到问题的所在，进而解决问题。4．Servlet/JSP在不同语言系统的平台下运行

有时候，我们在中文系统平台下开发的Web应用程序移植到英文系统平台下，在Servlet和JSP中直接书写的中文字符串在输出时，将显示为乱码。这是因为在编译Servlet类或者JSP文件时，如果没有使用-encoding参数指定Java源程序的编码格式，javac会获取本地操作系统默认采用的字符集，以该字符集将Java源程序转换为Unicode编码保存到内存中，然后将源程序编译为字节码文件（字节码文件采用的是UTF-8编码），保存到硬盘上。