java中乱码问题解决方法

mgoann

浏览: 253974 次
性别:
来自: 南京

最近访客更多访客>>

oppoc

qianchangforever

gierce

wjbyd

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java

Java C C++C#F#

通过TCP码流识别编码

前几天和北京的MM在联调时候出现一个问题，下面就简述下整个问题的定位过程，其中有很多思想还是对定位问题很有帮助的。

问题是这样的，我们是服务器，而MM那边是使用客户端手机进行交互，而双方约定好使用utf-8来编解码。但是在联调过程中，在解析中文时出现了乱码（？）所以经过初步判断可以认定是MM那边上送了GBK编码的中文，而服务端这边使用了UTF-8编码来解码，那自然出现乱码？（注意GBK编码的中文，使用UTF-8来解码时，通常会出现？，通过这个表面现象也可以初步判断一定问题）。而客户端的MM非常肯定的说上送的UTF-8编码的中文。完全有一种不到黄河心不死的感觉！没办法，看来得使用一些手段让MM屈服，让他现出原型。

问题定位过程：我们知道数据是通过二进制流在网络中传输的，所以可以将码流通过抓包的方式抓到，然后tcpdump命令可以帮我们完成这个任务。

使用命令tcpdump -i eth0 tcp port <端口> -Xs 10000 -vv,抓到数据报如下

14:51:21.122716 IP (tos 0x0, ttl 51, id 25274, offset 0, flags [DF], length: 301) 221.130.33.135.23966 > pim2.pim.28080: P [tcp sum ok] 788:1037(249) ack 1 win 33516 <nop,nop,timestamp 1943931360 3385024464>

0x0000 4500 012d 62ba 4000 3306 3b3e dd82 2187 E..-b.@.3.;>..!.

0x0010 c0a8 e920 5d9e 6db0 c90d 5138 eadd b169 ....].m...Q8...i

0x0020 8018 82ec 86a2 0000 0101 080a 73de 09e0 ............s...

0x0030 c9c3 5fd0 789c a551 416a c330 10bc 17fa .._.x..QAj.0....

0x0040 87e0 7b2b ed4a b215 5014 2826 e043 2f76 ..{+.J..P.(&.C/v

0x0050 fa00 9388 6088 e5b6 2ac1 e9eb bb9b 38b8 ....`...*.....8.

0x0060 507a 28bd 6867 6747 338b e4d6 637f 5c9c Pz(.hggG3...c.\.

0x0070 c27b ea86 b8ca e051 668b 1077 c3be 8b87 .{.....Qf..w....

0x0080 55f6 b2dd 3cd8 6ced efef 5c19 cbf6 a3ad U...<.l...\.....

0x0090 c31b 37cf e950 951e 9cb8 0266 da91 70d3 ..7..P.....f..p.

0x00a0 7d06 8f52 5b9a cc04 df0e 27d2 2953 60ae }..R[.....'.)S`.

0x00b0 246a 6509 2d25 3a71 1db0 82dc b7e7 d7e0 $je.-%:q........

0x00c0 539f 88be 7534 791a 462e 9796 226f 74d3 S...u4y.F..."ot.

0x00d0 272e d59e 493a 5942 d920 25a0 82c2 2865 '...I:YB..%...(e

0x00e0 487c 517a 90b9 b100 da89 8689 da83 b245 H|Qz...........E

0x00f0 5e58 ad73 5ab5 664e 4c7e b32d feb0 5d02 ^X.sZ.fNL~.-..].

0x0100 d2f2 38db a241 2931 0765 0c82 253f f853 ..8..A)1.e..%?.S

0x0110 82fa 2541 ff33 a14a 9b2e b647 7f26 ff09 ..%A.3.J...G.&..

0x0120 f274 7a48 f1fd 2bbf 00db f77f 43 .tzH..+.....C

由于tcpdump抓到数据是IP数据报格式，所以必须理解IP数据报和TCP段格式才可以将里边真正的数据截取出来。IP数据报的长度是由第一个字节的低4位表示，也就是报文中的

0x0000 4500 012d 62ba 4000 3306 3b3e dd82 2187 E..-b.@.3.;>..!.，红色部分，由于IP数据报和TCP段格式都是以段为单位一个段是4字节，所以4 * 5表示IP数据报的长度是20字节，所以将IP数据报的数据去掉只剩下如下报文。、

5d9e 6db0 c90d 5138 eadd b169 ....].m...Q8...i