论坛首页 Java企业应用论坛

java字符集编码-1

浏览 2209 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2011-09-23  

源文件(Main.java)保存字符集
/**
* 本类测试字符集编码的转换问题
*/
public class Main
{
public static void main(String[] args)
{
System.out.println("Hello World!,你好!");
}
}

window 2003 简体中文环境

1. 以ANSI编码(实际上用操作系统默认编码-gbk)保存,如下:
00000000h: 2F 2A 2A 0D 0A 20 2A 20 B1 BE C0 E0 B2 E2 CA D4 ; /**.. * 本类测试
00000010h: D7 D6 B7 FB BC AF B1 E0 C2 EB B5 C4 D7 AA BB BB ; 字符集编码的转换
00000020h: CE CA CC E2 0D 0A 20 2A 2F 0D 0A 70 75 62 6C 69 ; 问题.. */..publi
00000030h: 63 20 63 6C 61 73 73 20 4D 61 69 6E 0D 0A 7B 0D ; c class Main..{.
00000040h: 0A 09 70 75 62 6C 69 63 20 73 74 61 74 69 63 20 ; ..public static
00000050h: 76 6F 69 64 20 6D 61 69 6E 28 53 74 72 69 6E 67 ; void main(String
00000060h: 5B 5D 20 61 72 67 73 29 20 0D 0A 09 7B 0D 0A 09 ; [] args) ...{...
00000070h: 09 53 79 73 74 65 6D 2E 6F 75 74 2E 70 72 69 6E ; .System.out.prin
00000080h: 74 6C 6E 28 22 48 65 6C 6C 6F 20 57 6F 72 6C 64 ; tln("Hello World
00000090h: 21 2C C4 E3 BA C3 A3 A1 22 29 3B 0D 0A 09 7D 0D ; !,你好!");...}.
000000a0h: 0A 7D 0D 0A                                     ; .}..

1)在当前环境下,运行javac *。java ,成功。
00000000h: CA FE BA BE 00 00 00 32 00 1D 0A 00 06 00 0F 09 ; 漱壕...2........
00000010h: 00 10 00 11 08 00 12 0A 00 13 00 14 07 00 15 07 ; ................
00000020h: 00 16 01 00 06 3C 69 6E 69 74 3E 01 00 03 28 29 ; .....<init>...()
00000030h: 56 01 00 04 43 6F 64 65 01 00 0F 4C 69 6E 65 4E ; V...Code...LineN
00000040h: 75 6D 62 65 72 54 61 62 6C 65 01 00 04 6D 61 69 ; umberTable...mai
00000050h: 6E 01 00 16 28 5B 4C 6A 61 76 61 2F 6C 61 6E 67 ; n...([Ljava/lang
00000060h: 2F 53 74 72 69 6E 67 3B 29 56 01 00 0A 53 6F 75 ; /String;)V...Sou
00000070h: 72 63 65 46 69 6C 65 01 00 09 4D 61 69 6E 2E 6A ; rceFile...Main.j
00000080h: 61 76 61 0C 00 07 00 08 07 00 17 0C 00 18 00 19 ; ava.............
00000090h: 01 00 16 48 65 6C 6C 6F 20 57 6F 72 6C 64 21 2C ; ...Hello World!,
000000a0h: E4 BD A0 E5 A5 BD EF BC 81 07 00 1A 0C 00 1B 00 ; 浣犲ソ锛?......
000000b0h: 1C 01 00 04 4D 61 69 6E 01 00 10 6A 61 76 61 2F ; ....Main...java/
000000c0h: 6C 61 6E 67 2F 4F 62 6A 65 63 74 01 00 10 6A 61 ; lang/Object...ja
000000d0h: 76 61 2F 6C 61 6E 67 2F 53 79 73 74 65 6D 01 00 ; va/lang/System..
000000e0h: 03 6F 75 74 01 00 15 4C 6A 61 76 61 2F 69 6F 2F ; .out...Ljava/io/
000000f0h: 50 72 69 6E 74 53 74 72 65 61 6D 3B 01 00 13 6A ; PrintStream;...j
00000100h: 61 76 61 2F 69 6F 2F 50 72 69 6E 74 53 74 72 65 ; ava/io/PrintStre
00000110h: 61 6D 01 00 07 70 72 69 6E 74 6C 6E 01 00 15 28 ; am...println...(
00000120h: 4C 6A 61 76 61 2F 6C 61 6E 67 2F 53 74 72 69 6E ; Ljava/lang/Strin
00000130h: 67 3B 29 56 00 21 00 05 00 06 00 00 00 00 00 02 ; g;)V.!..........
00000140h: 00 01 00 07 00 08 00 01 00 09 00 00 00 1D 00 01 ; ................
00000150h: 00 01 00 00 00 05 2A B7 00 01 B1 00 00 00 01 00 ; ......*?.?....
00000160h: 0A 00 00 00 06 00 01 00 00 00 04 00 09 00 0B 00 ; ................
00000170h: 0C 00 01 00 09 00 00 00 25 00 02 00 01 00 00 00 ; ........%.......
00000180h: 09 B2 00 02 12 03 B6 00 04 B1 00 00 00 01 00 0A ; .?...?.?.....
00000190h: 00 00 00 0A 00 02 00 00 00 08 00 08 00 09 00 01 ; ................
000001a0h: 00 0D 00 00 00 02 00 0E                         ; ........


2.以UTF-8编码保存java 源文件,如下:
00000000h: 2F 2A 2A 0D 0A 20 2A 20 E6 9C AC E7 B1 BB E6 B5 ; /**.. * 鏈被娴
00000010h: 8B E8 AF 95 E5 AD 97 E7 AC A6 E9 9B 86 E7 BC 96 ; 嬭瘯瀛楃闆嗙紪
00000020h: E7 A0 81 E7 9A 84 E8 BD AC E6 8D A2 E9 97 AE E9 ; 鐮佺殑杞崲闂
00000030h: A2 98 0D 0A 20 2A 2F 0D 0A 70 75 62 6C 69 63 20 ; .. */..public
00000040h: 63 6C 61 73 73 20 4D 61 69 6E 0D 0A 7B 0D 0A 09 ; class Main..{...
00000050h: 70 75 62 6C 69 63 20 73 74 61 74 69 63 20 76 6F ; public static vo
00000060h: 69 64 20 6D 61 69 6E 28 53 74 72 69 6E 67 5B 5D ; id main(String[]
00000070h: 20 61 72 67 73 29 20 0D 0A 09 7B 0D 0A 09 09 53 ;  args) ...{....S
00000080h: 79 73 74 65 6D 2E 6F 75 74 2E 70 72 69 6E 74 6C ; ystem.out.printl
00000090h: 6E 28 22 48 65 6C 6C 6F 20 57 6F 72 6C 64 21 2C ; n("Hello World!,
000000a0h: E4 BD A0 E5 A5 BD EF BC 81 22 29 3B 0D 0A 09 7D ; 浣犲ソ锛?);...}
000000b0h: 0D 0A 7D 0D  



1)在当前环境下,运行javac *。java 报错,如下:
Main.java:8: 警告:编码 GBK 的不可映射字符
                System.out.println("Hello World!,浣犲ソ锛?);
分析:javac以读取二进制文件后,以GBK格式解析,出错。

2) 指定javac 的字符集,javac encoding utf-8 *.java ,编译成功,class编码如下:
00000000h: CA FE BA BE 00 00 00 32 00 1D 0A 00 06 00 0F 09 ; 漱壕...2........
00000010h: 00 10 00 11 08 00 12 0A 00 13 00 14 07 00 15 07 ; ................
00000020h: 00 16 01 00 06 3C 69 6E 69 74 3E 01 00 03 28 29 ; .....<init>...()
00000030h: 56 01 00 04 43 6F 64 65 01 00 0F 4C 69 6E 65 4E ; V...Code...LineN
00000040h: 75 6D 62 65 72 54 61 62 6C 65 01 00 04 6D 61 69 ; umberTable...mai
00000050h: 6E 01 00 16 28 5B 4C 6A 61 76 61 2F 6C 61 6E 67 ; n...([Ljava/lang
00000060h: 2F 53 74 72 69 6E 67 3B 29 56 01 00 0A 53 6F 75 ; /String;)V...Sou
00000070h: 72 63 65 46 69 6C 65 01 00 09 4D 61 69 6E 2E 6A ; rceFile...Main.j
00000080h: 61 76 61 0C 00 07 00 08 07 00 17 0C 00 18 00 19 ; ava.............
00000090h: 01 00 16 48 65 6C 6C 6F 20 57 6F 72 6C 64 21 2C ; ...Hello World!,
000000a0h: E4 BD A0 E5 A5 BD EF BC 81 07 00 1A 0C 00 1B 00 ; 浣犲ソ锛?......
000000b0h: 1C 01 00 04 4D 61 69 6E 01 00 10 6A 61 76 61 2F ; ....Main...java/
000000c0h: 6C 61 6E 67 2F 4F 62 6A 65 63 74 01 00 10 6A 61 ; lang/Object...ja
000000d0h: 76 61 2F 6C 61 6E 67 2F 53 79 73 74 65 6D 01 00 ; va/lang/System..
000000e0h: 03 6F 75 74 01 00 15 4C 6A 61 76 61 2F 69 6F 2F ; .out...Ljava/io/
000000f0h: 50 72 69 6E 74 53 74 72 65 61 6D 3B 01 00 13 6A ; PrintStream;...j
00000100h: 61 76 61 2F 69 6F 2F 50 72 69 6E 74 53 74 72 65 ; ava/io/PrintStre
00000110h: 61 6D 01 00 07 70 72 69 6E 74 6C 6E 01 00 15 28 ; am...println...(
00000120h: 4C 6A 61 76 61 2F 6C 61 6E 67 2F 53 74 72 69 6E ; Ljava/lang/Strin
00000130h: 67 3B 29 56 00 21 00 05 00 06 00 00 00 00 00 02 ; g;)V.!..........
00000140h: 00 01 00 07 00 08 00 01 00 09 00 00 00 1D 00 01 ; ................
00000150h: 00 01 00 00 00 05 2A B7 00 01 B1 00 00 00 01 00 ; ......*?.?....
00000160h: 0A 00 00 00 06 00 01 00 00 00 04 00 09 00 0B 00 ; ................
00000170h: 0C 00 01 00 09 00 00 00 25 00 02 00 01 00 00 00 ; ........%.......
00000180h: 09 B2 00 02 12 03 B6 00 04 B1 00 00 00 01 00 0A ; .?...?.?.....
00000190h: 00 00 00 0A 00 02 00 00 00 08 00 08 00 09 00 01 ; ................
000001a0h: 00 0D 00 00 00 02 00 0E                         ; ........

3.结论:经比较class文件的二进制文件完全一致,文件的编码,为指定保存到文件系统中
编码格式,用ANSI格式和UTF-8格式,保存文件系统中的二进制文件,不同;javac编译时,
默认使用操作系统编码系统读取该格式,编译为class文件,class文件的编码格式相同,
采用了UTF-8的编码格式,和操作系统格式无关,保证了java的平台无关性。


4.class 文件中“你好!”不同结果:
第一行:源代码是GBK编码时,通过javac编译为Class文件后,对应的二进制编码;
第二行:源代码是UTF-8编码时,通过javac编译为Class文件后,对应的二进制编码;
第三行:将“你好!”,按照UTF-8字符集标准,转换为二进制后,对应的编码。

000000a0h: E4 BD A0 E5 A5 BD EF BC 81 07 00 1A 0C 00 1B 00 ; 浣犲ソ锛?......
000000a0h: E4 BD A0 E5 A5 BD EF BC 81 07 00 1A 0C 00 1B 00 ; 浣犲ソ锛?......
           E4 BD A0 E5 A5 BD EF BC 81

结论:class文件中的字符编码,采用UTF-8编码;class文件格式是jvm自身定义的格式,
即中文用3个字节表示一个字符,英文用一个字节表示。



论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics