`
wangwengcn
  • 浏览: 175800 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

深入剖析tomcat容器的乱码问题

    博客分类:
  • J2EE
阅读更多

http的本质还是socket,所以底层传输的还是字节流(不要深究到二进制层面),既然是字节流,那么肯定会涉及到编码和解码.

乱码的原因大家肯定都知道,也很简单,那就是编码和解码的格式不一致
既然知道了根源,那么我们是否能从这个角度来解决问题?是的,只要你保证前台编码和后台解码的格式一样的时候,就肯定不会出现乱码了。

 

下面要用到一些例子,这里先给出程序:

 

index.jsp:

<%@ page language="java" contentType="text/html; charset=UTF-8"
    pageEncoding="UTF-8"%>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gbk">
<title>Insert title here</title>
<script type="text/javascript">
	function loadFunction()
	{
		var url = "encodingServlet?name=";
		url += encodeURI("严");
		document.getElementById("name").href = url + "&d=" + new Date();
	}
	
	function escapeCode()
	{
		alert(encodeURI("严"))
	}
</script>
</head>
<body onload="loadFunction()">
<a id="name">name</a>

<form action="encodingServlet" method="get">
	<input type="text" name="name"/>
	<input type="submit" text="submit"/>
</form>

<button onclick="escapeCode()">aaa</button>
<br>
<a href="encodingServlet?name=严">aaaa</a>
</body>
</html>

 首先看前台编码的几种情况:


1.首先最常见的就是你在地址栏直接输入一个地址
比如:https://www.google.com/webhp?hl=en&tab=ww#hl=en&tbo=d&output=search&sclient=psy-ab&q=你好&oq=你好
非常不幸,这种情况下你根本无法控制浏览器如何对你输入的内容进行编码。我使用英文版的IE进行测试,它使用的是ISO-8859-1格式,而英文版的FireFox使用的是UTF-8。
这种情况就不讨论了,google也会因为这种原因而导致乱码,不过我相信大家总是会有办法解决的。(怎么解决请教我一下)

 

 

2.网页里面的一个超链接
比如:上面index.jsp中的<a href="encodingServlet?name=严">aaaa</a>
那么这个时候前台的编码是以

<%@ page language="java" contentType="text/html; charset=UTF-8"
    pageEncoding="UTF-8"%>

里面的pageEncoding决定的

 

3.FORM表单
无论get方式还是post方式都是以

<%@ page language="java" contentType="text/html; charset=UTF-8"
    pageEncoding="UTF-8"%>

里面的charset决定的

 

4.encodeURI函数
该函数将参数中的字符将转换成UTF-8编码方式的byte数组,并使用十六进制转义序列(%xx)生成替换。

过程用Java模拟如下:

 

byte[] data1 = "严".getBytes("UTF-8");
		String result = "";
		for(byte datai : data1)
		{
			result += "%" + Integer.toHexString(datai >= 0 ? datai : datai + 256);
		}
 

再来看看后台是如何解码的:

 

我们都是通过request.getParameter("name");这样的语句来得到参数的,

在我们调用这个方法的时候tomcat容器会自动帮我们做一次解码,请看下面的tomcat部分源码(解析参数):

该方法位于:org.apache.catalina.util.RequestUtil

 

public static void parseParameters(Map map, byte[] data, String encoding)
        throws UnsupportedEncodingException {

        if (data != null && data.length > 0) {
            int    ix = 0;
            int    ox = 0;
            String key = null;
            String value = null;
            while (ix < data.length) {
                byte c = data[ix++];
                switch ((char) c) {
                case '&':
                    value = new String(data, 0, ox, encoding);
                    if (key != null) {
                        putMapEntry(map, key, value);
                        key = null;
                    }
                    ox = 0;
                    break;
                case '=':
                    if (key == null) {
                        key = new String(data, 0, ox, encoding);
                        ox = 0;
                    } else {
                        data[ox++] = c;
                    }                   
                    break;  
                case '+':
                    data[ox++] = (byte)' ';
                    break;
                case '%':
                    data[ox++] = (byte)((convertHexDigit(data[ix++]) << 4)
                                    + convertHexDigit(data[ix++]));
                    break;
                default:
                    data[ox++] = c;
                }
            }
            //The last value does not end in '&'.  So save it now.
            if (key != null) {
                value = new String(data, 0, ox, encoding);
                putMapEntry(map, key, value);
            }
        }

    }
 

可以看到,这个方法会要求输入编码格式encoding,那么这个参数是怎么得到的呢。

它分为两种情况,如果下面两种情况你都没有设置,就会采用ISO-8859-1的格式来解码:

 

1.参数位于URL中,也就是通过GET的方式请求,这个encoding请在tomcat的连接器中配置,也就是server.xml中的
<Connector connectionTimeout="20000" port="9180" protocol="HTTP/1.1" redirectPort="8443" URIEncoding="UTF-8"/>
加入了URIEncoding="UTF-8"

2.参数在请求实体中,也就是POST方式,这个时候你可以直接通过request.setCharacterEncoding("UTF-8");的方式设置,当然你可以运用一个过滤器来统一解决。

 

知道了原因,再去解决乱码一般就不会有什么问题了。

至于有些提出使用前台encodeURI(encodeURI(str))方式去做的,后台手动解码,其实还是由于两端编码和解码不一致造成的,完全不需要这么使用。

分享到:
评论

相关推荐

    《深入剖析 Tomcat》PDF版本下载.txt

    根据提供的文件信息,本文将对《深入剖析 Tomcat》这一资料进行详细的知识点解析。Tomcat作为一款开源的Servlet容器,被广泛应用于Java Web应用程序的部署与运行环境中。本资料旨在帮助读者深入了解Tomcat的工作原理...

    《深入剖析TOMCAT.pdf》(中文版,带目录)

    带目录的《深入剖析TOMCAT》中文版,带目录,便于大家阅读

    深入剖析Tomcat源码

    《深入剖析Tomcat源码》是一本专门为Java开发者和系统管理员设计的专业书籍,它旨在帮助读者深入了解Apache Tomcat服务器的工作原理及其源代码。Tomcat作为一款广泛应用的开源Servlet容器,其内部机制对于优化Web...

    深入剖析Tomcat+源码

    7. **源码阅读**:"深入剖析Tomcat源码.rar"可能包含对Tomcat关键组件源代码的详细解读,帮助开发者理解Tomcat的工作原理,提升解决问题的能力。 8. **版本迭代**:"apache-tomcat-7.0.32-src.zip"提供了Tomcat ...

    深入剖析tomcat (完整目录)

    【深入剖析Tomcat——完整目录】 Tomcat是Apache软件基金会的Jakarta项目中的一个核心项目,是一个开源的、免费的Web应用服务器,主要用于运行Java Servlet和JavaServer Pages(JSP)。Tomcat以其轻量级、易用性...

    深入剖析Tomcat(含源码示例)

    **深入剖析Tomcat** 《深入剖析Tomcat》是一本针对Java开发者的专业书籍,它深入探讨了Tomcat服务器的内部工作原理,旨在帮助读者理解并优化应用程序的性能。这本书以源码分析为核心,提供了丰富的示例,使读者能够...

    深入剖析TOMCAT中文版

    本书深入剖析Tomcat4和Tomcat5中的每个组件,并揭示其内部工作原理。通过学习本书,你将可以自行开发Tomcat组件,或者扩展已有的组件。Tomcat是目前比较流行的Web服务器之一。作为一个开源和小型的轻量级应用服务器...

    深入剖析TOMCAT_高清中文_带完整章节目录多版本

    《深入剖析Tomcat》是一本专门针对Java领域的Web服务器Tomcat进行深度解析的权威书籍。这本书以高清中文的形式呈现,包含完整的章节目录,旨在帮助读者全面理解和掌握Tomcat的内部工作原理及其在实际开发中的应用。...

    深入剖析Tomcat 随书 源码

    《深入剖析Tomcat》这本书是Java开发者们探索Tomcat服务器内部机制的重要参考资料,它带领读者逐步揭开Tomcat的神秘面纱,深入理解其工作原理。Tomcat作为一款轻量级的开源Web应用服务器,广泛应用于各种Java Web...

    深入剖析tomcat,超清版,带标签

    【描述】:“深入剖析Tomcat,超清版,带标签”这一描述暗示了我们将会深入理解Tomcat服务器的内部工作机制,包括其核心原理、配置优化以及问题排查等方面。"超清版"可能指的是资源的清晰度,意味着提供的资料详尽且...

    深入剖析Tomcat 中文版 .pdf

    根据提供的信息,“深入剖析Tomcat 中文版 .pdf”这一标题和描述暗示这是一份关于Apache Tomcat服务器软件深入分析的中文文档。由于提供的部分内容主要包含重复的资源下载链接,并未涉及具体的知识点,因此本解析将...

    深入剖析TomCat(高清版)

    《深入剖析TomCat》是一本专注于Java Web服务器Tomcat的深度学习资料,它为开发者提供了全面、详尽的TomCat内部工作原理和技术细节。这本书的高清扫描版本,旨在帮助学习者在视觉体验上得到提升,使得阅读过程更为...

    《深入剖析Tomcat(中文版+英文版)》.rar

    《深入剖析Tomcat》深入剖析Tomcat 4和Tomcat 5中的每个组件(如果TOMCAT版本有点老,不过现在的Tomcat6和7同样可以借鉴参考),并揭示其内部工作原理。通过学习《深入剖析Tomcat》,你将可以自行开发Tomcat组件,或者...

    深入剖析Tomcat_非扫描版

    《深入剖析Tomcat》这本书是理解Apache Tomcat服务器工作原理的重要参考资料,非扫描版的特点意味着内容清晰、可读性强,方便读者复制和引用。Tomcat作为一款广泛应用的开源Java Servlet容器,它的性能优化、配置...

    Tomcat深入剖析pdf+源码(Tomcat运行原理)

    《Tomcat深入剖析》这本书是理解Apache Tomcat服务器工作原理的宝贵资料,它由美国作者撰写并被翻译成中文,适合各个层次的开发者阅读。通过深入学习,读者能够对Tomcat的内部机制有全面而深入的理解,从而更好地...

    《深入剖析Tomcat》的光盘源码

    通过学习《深入剖析Tomcat》的源码,开发者不仅可以提升对Tomcat工作原理的理解,还能提升解决问题的能力,为解决实际开发中的性能瓶颈和安全问题提供强有力的支持。同时,对Tomcat源码的深入理解也有助于向其他Java...

    《深入剖析TOMCAT》中文版的源码

    通过阅读《深入剖析TOMCAT》的源码,我们可以看到Tomcat设计的优雅之处,学习到如何优化性能,解决实际问题,甚至参与到Tomcat的社区开发中去。书中的每个章节都对应着源码中的关键部分,结合书本理论与源码实践,将...

    解决tomcat中文乱码问题

    解决tomcat中文乱码问题,有详细的解释说明,希望对需要的人有所帮助

    深入剖析Tomcat书本源码

    《深入剖析Tomcat》这本书是Java开发者们探索Web服务器内部工作原理的重要参考资料,它详细解析了Tomcat的源代码,帮助我们理解这个流行的开源Servlet容器的运作机制。Tomcat是Apache软件基金会的一个项目,它是Java...

Global site tag (gtag.js) - Google Analytics