UrlEncoder，UrlDecoder，字符集对Encoder的影响

desert3

浏览: 2171945 次
性别:
来自: 合肥

最近访客更多访客>>

chengdou237

wukong0188

novagx

bijian1013

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Html
Java.Tomcat

字符集对Encoder的影响，其实就是字符在不同字符集下编码不同，即使用的字节数不同，而每个字节都用2个16进制的字母在url中表示(它们之间的关系是，第一个16进制数代表一个字节的前4位，后一个16进制数代表一个字节的后4位！)
相应的我们可以看到，Tomcat中类org.apache.catalina.util.RequestUtil对url进行转码的方法，其中case '%'后面，data[ox++] = (byte)((convertHexDigit(data[ix++]) < < 4) + convertHexDigit(data[ix++]));就是根据这个规则来把%xx，转成字节，然后根据字节以及编码，转成正确的字符串。同时从convertHexDigit方法可以看出，%后面的字母是大小写不敏感的。

 public static  void parseParameters(Map map,
    byte[] data,
    String encoding) throws UnsupportedEncodingException 

{
        if (data != null && data.length  > 0) {
            int    ix = 0;
            int    ox = 0;
            String key = null;
            String value = null;
            while (ix <  data.length) {
                byte c = data[ix++];
                switch ((char) c) {
                case '&':
                    value = new String(data, 0, ox, encoding);
                    if (key != null) {
                        putMapEntry(map, key, value);
                        key = null;
                    }
                    ox = 0;
                    break;
                case '=':
                    if (key == null) {
                        key = new String(data, 0, ox, encoding);
                        ox = 0;
                    } else {
                        data[ox++] = c;
                    }                   
                    break;  
                case '+':
                    data[ox++] = (byte)' ';
                    break;
                case '%':
                    data[ox++] = (byte)((convertHexDigit(data[ix++]) < <  4)
                                    + convertHexDigit(data[ix++]));
                    break;
                default:
                    data[ox++] = c;
                }
            }
            //The last value does not end in '&'.  So save it now.
            if (key != null) {
                value = new String(data, 0, ox, encoding);
                putMapEntry(map, key, value);
            }
        }
}

 private static byte convertHexDigit( byte b ) {
        if ((b >= '0') && (b <= '9')) return (byte)(b - '0');
        if ((b >= 'a') && (b <= 'f')) return (byte)(b - 'a' + 10);
        if ((b >= 'A') && (b <= 'F')) return (byte)(b - 'A' + 10);
        throw new IllegalArgumentException(sm.getString("requestUtil.convertHexDigit.notHex",Character.valueOf((char)b)));
    }

URLEncode，RFC 3986規範了哪些字符是作為保留字（如：!、@、/、?等），如果URL中使用到了這些保留字，就必須將它編碼為「%HEXHEX」的16进制形式[/color]，舉例來說，「空白字元」的 ASCII code 是32，所以會被編碼為 %20，而其它 non-ASCII 字元（如：中文字）則以 UTF-8 字元編碼後的字节数组來編碼成 %HEXHEX 的形式（每个字节8位，取值在-128-127之间，用2个16进制的值来表示）。（这样就是在URL中用US-ASCII字符来表示非US-ASCII或者URL保留字的值）

在 RFC 3986 之前，HTTP 也有為 GET/POST 在傳遞參數時的 url encode 方式作定義，基本上也是 encode 成 %HEXHEX 的形式，保留字跟 RFC 3986 的有部份出入，不過就沒有限定一定是 UTF-8 的文字編碼了，而且還有一個重點－－「空白字元」會被編碼成 + 而不是 %20。

常用語言的函式庫
因為有這樣的差異，所以開發人員在使用函式庫的時候常常會搞混什麼時候該用／不該用什麼函式，以 PHP 來說就分為兩組函式：
    urlencode / urldecode
    簡單地說就是以 HTTP 所使用的 application/x-www-form-urlencoded 的編碼規則，也就是會將空白字元編碼成 + 而不是%20。
    rawurlencode / rawurldecode
    按照 RFC 3986 所定義的方式來作編碼。

Python 版本的話就是：
    urllib.urlencode / urllib.urldecode
    會把空白字元編碼成 +
    目前要使用 Python 3 以後的 urllib.parse.urlencode 才會按照 RFC 3986 的方式來作編碼，若是 2.x 的版本就要另外處理或是找 3rd-party 資料庫來做。

JavaScript 的 encodeURI 或是 encodeURIComponent （兩者僅相差一些保留字是否要作編碼，如 #）目前則是都使用 RFC 3986 的方式來作編碼，所以要作 application/x-www-form-urlencoded 的編碼時（AJAX POST），就要自己把 %20 替換成 + （jQuery 目前的程式碼就是這樣做的）

Java 的 java.net.URLEncoder.encode 這個 method 也是編碼成 application/x-www-form-urlencoded 的方式，如果要遵照 RFC 3986 的定義，則可以自行再把 + 替換成 %20 即可。
参考：混亂的 URLEncode

使用不同的编码，来进行UrlEncoder
汉字“中”，在不同的编码中使用不同长度的字节来表示，而每个字节是8位的，可以用16进制的2个字符来表示，
在UTF-8中用3个字节表示的值：%E4%B8%AD，
而在GB2312编码中用的是2个字节的值：%D6%D0
它们字节的编码没有任何关系，但是可以通过Unicode编码中转后相互转换。

编码后，就把%后跟着2个16进制值的字符传递到服务器上去。

try {

			System.out.println(((byte) 0x01));
			
			// 汉字“中”用UTF-8进行URLEncode的时候，得到%e4%b8%ad(对应的ISO-8859-1的字符是ä¸)
			String item = new String(new byte[] { (byte) 0xe4, (byte) 0xb8, (byte) 0xad }, "UTF-8");
			// 中
			System.out.println(item);

			item = new String(new byte[] { (byte) 0xe4, (byte) 0xb8, (byte) 0xad }, "ISO-8859-1");
			// ä¸
			System.out.println(item);

			System.out.println(new BigInteger("253").toByteArray());
			System.out.println(Integer.toBinaryString(253));

			// 中
			item = new String(item.getBytes("ISO_8859_1"), "UTF-8");
			System.out.println(item);
			// ä¸
			item = new String(item.getBytes("UTF-8"), "ISO_8859_1");
			System.out.println(item);

			// %E4%B8%AD
			System.out.println(URLEncoder.encode("中", "UTF-8"));
			// %3F
			System.out.println(URLEncoder.encode("中", "ISO-8859-1"));
			// %D6%D0
			System.out.println(URLEncoder.encode("中", "GB2312"));

			// 中文
			System.out
					.println(URLDecoder.decode("%E4%B8%AD%E6%96%87", "UTF-8"));
			// 乱码 ？？
			System.out.println(URLDecoder.decode("%3F%3F", "ISO-8859-1"));
			// 中文
			System.out.println(URLDecoder.decode("%D6%D0%CE%C4", "GB2312"));
			// 乱码 涓��
			System.out.println(URLDecoder
					.decode("%E4%B8%AD%E6%96%87", "GB2312"));
		} catch (UnsupportedEncodingException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

分享到：

python 子进程Subprocess & windows cmd当 ... | Tomcat源码分析--ServletRequest.getParame ...

2012-03-02 16:21
浏览 4749
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论