Java 编码问题解析

can4you

浏览: 102625 次
性别:
来自: 天朝

最近访客更多访客>>

namezhou

xuyoujia

edisonzhang927

zhiyd

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java

Java Windows JVM Myeclipse IBM

import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.nio.charset.Charset;

/**
 * @author Ian Chan
 * @version 1.0
 */
public class TestEncoding {

	private static final String NEWLINE = "\r\n";

	public static void main(String[] args) throws IOException {
		StringBuilder builder = new StringBuilder();
		builder.append("Java字符串采用UNICODE" + NEWLINE);
		builder.append("系统(JVM)默认编码为：" + Charset.defaultCharset() + NEWLINE);
		builder.append("系统(JVM)支持的字符集：" + Charset.availableCharsets() + NEWLINE);
		InputStream is = new FileInputStream("F:\\data.txt");
		InputStreamReader reader = new InputStreamReader(is);
		builder.append("没有指定读取文件的字符集，采用(JVM)字符集：" + reader.getEncoding() + NEWLINE);
		BufferedReader bReader = new BufferedReader(reader);
		String line;
		while ((line = bReader.readLine()) != null) {
			builder.append(line + NEWLINE);
		}
		is.close();

		builder.append("========================================" + NEWLINE);

		is = new FileInputStream("F:\\data.txt");
		reader = new InputStreamReader(is, "GB18030");//以GB18030进行编码
		builder.append("指定读取文件的字符集：" + reader.getEncoding() + NEWLINE);
		bReader = new BufferedReader(reader);
		while ((line = bReader.readLine()) != null) {
			builder.append(line + NEWLINE);
		}
		is.close();

		builder.append("========================================" + NEWLINE);
		builder.append("通过IDE(myeclipse)创建文件data.dat，UTF-8的编码方式" + NEWLINE);
		is = new FileInputStream("E:\\myencoding\\data.dat");
		reader = new InputStreamReader(is, "UTF8");//指定为UTF-8的才不会乱码
		builder.append("指定读取文件的字符集：" + reader.getEncoding() + NEWLINE);
		bReader = new BufferedReader(reader);
		String string = "";
		while ((line = bReader.readLine()) != null) {
			builder.append(line + NEWLINE);
			string = line;
		}
		//以JVM默认编码（GBK）进行解码UTF8编码的串，并转成UTF8格式，最后转成UNICODE的字符串，会乱码
		//String newString = new String(string.getBytes("utf8"), "utf8");//不会乱码
		String newString = new String(string.getBytes(), "utf8");
		is.close();
		builder.append("用UTF8方式得到的字符串，通过其他编码方式得到新串：" + NEWLINE + newString + NEWLINE);
		builder.append("========================================" + NEWLINE);

		String str = "我的password";
		builder.append("str.getBytes():" + NEWLINE);
		for (byte b : str.getBytes()) {
			builder.append(b + ",");
		}
		builder.append(NEWLINE);
		builder.append("str.getBytes(defaultSet):" + NEWLINE);
		for (byte b : str.getBytes(Charset.defaultCharset())) {
			builder.append(b + ",");
		}
		builder.append(NEWLINE);
		builder.append("========================================" + NEWLINE);

		//"我的password"这个字符串以JVM默认编码(gbk)方式编码，以gbk的编码获得byte数组，
		//以gb2312方式编码并以UNICODE转成新的串不会乱码
		//以utf8的方式会乱码
		String newStr = new String(str.getBytes("gbk"), "gb2312");
		builder.append("利用getBytes创建新的字符串:" + NEWLINE);
		builder.append(newStr + NEWLINE);

		System.out.println(builder.toString());
	}
}

控制台打印结果：

Java字符串采用UNICODE
系统(JVM)默认编码为：GBK
系统(JVM)支持的字符集：{Big5=Big5, Big5-HKSCS=Big5-HKSCS, EUC-JP=EUC-JP, EUC-KR=EUC-KR, GB18030=GB18030, GB2312=GB2312, GBK=GBK, hp-roman8=hp-roman8, IBM-037=IBM-037, IBM-500=IBM-500, IBM-Thai=IBM-Thai, IBM00858=IBM00858, IBM01140=IBM01140, IBM01141=IBM01141, IBM01142=IBM01142, IBM01143=IBM01143, IBM01144=IBM01144, IBM01145=IBM01145, IBM01146=IBM01146, IBM01147=IBM01147, IBM01148=IBM01148, IBM01149=IBM01149, IBM037=IBM037, IBM1026=IBM1026, IBM1047=IBM1047, IBM273=IBM273, IBM277=IBM277, IBM278=IBM278, IBM280=IBM280, IBM284=IBM284, IBM285=IBM285, IBM297=IBM297, IBM420=IBM420, IBM424=IBM424, IBM437=IBM437, IBM500=IBM500, IBM775=IBM775, IBM850=IBM850, IBM852=IBM852, IBM855=IBM855, IBM857=IBM857, IBM860=IBM860, IBM861=IBM861, IBM862=IBM862, IBM863=IBM863, IBM864=IBM864, IBM865=IBM865, IBM866=IBM866, IBM868=IBM868, IBM869=IBM869, IBM870=IBM870, IBM871=IBM871, IBM918=IBM918, ISO-2022-CN=ISO-2022-CN, ISO-2022-JP=ISO-2022-JP, ISO-2022-JP-2=ISO-2022-JP-2, ISO-2022-KR=ISO-2022-KR, ISO-8859-1=ISO-8859-1, ISO-8859-13=ISO-8859-13, ISO-8859-15=ISO-8859-15, ISO-8859-2=ISO-8859-2, ISO-8859-3=ISO-8859-3, ISO-8859-4=ISO-8859-4, ISO-8859-5=ISO-8859-5, ISO-8859-6=ISO-8859-6, ISO-8859-7=ISO-8859-7, ISO-8859-8=ISO-8859-8, ISO-8859-9=ISO-8859-9, JIS_X0201=JIS_X0201, JIS_X0212-1990=JIS_X0212-1990, KOI8-R=KOI8-R, KOI8-U=KOI8-U, Shift_JIS=Shift_JIS, TIS-620=TIS-620, US-ASCII=US-ASCII, UTF-16=UTF-16, UTF-16BE=UTF-16BE, UTF-16LE=UTF-16LE, UTF-32=UTF-32, UTF-32BE=UTF-32BE, UTF-32LE=UTF-32LE, UTF-8=UTF-8, windows-1250=windows-1250, windows-1251=windows-1251, windows-1252=windows-1252, windows-1253=windows-1253, windows-1254=windows-1254, windows-1255=windows-1255, windows-1256=windows-1256, windows-1257=windows-1257, windows-1258=windows-1258, windows-31j=windows-31j, x-Big5-Solaris=x-Big5-Solaris, x-euc-jp-linux=x-euc-jp-linux, x-EUC-TW=x-EUC-TW, x-eucJP-Open=x-eucJP-Open, x-IBM1006=x-IBM1006, x-IBM1025=x-IBM1025, x-IBM1046=x-IBM1046, x-IBM1097=x-IBM1097, x-IBM1098=x-IBM1098, x-IBM1112=x-IBM1112, x-IBM1122=x-IBM1122, x-IBM1123=x-IBM1123, x-IBM1124=x-IBM1124, x-IBM1381=x-IBM1381, x-IBM1383=x-IBM1383, x-IBM33722=x-IBM33722, x-IBM737=x-IBM737, x-IBM834=x-IBM834, x-IBM856=x-IBM856, x-IBM874=x-IBM874, x-IBM875=x-IBM875, x-IBM921=x-IBM921, x-IBM922=x-IBM922, x-IBM930=x-IBM930, x-IBM933=x-IBM933, x-IBM935=x-IBM935, x-IBM937=x-IBM937, x-IBM939=x-IBM939, x-IBM942=x-IBM942, x-IBM942C=x-IBM942C, x-IBM943=x-IBM943, x-IBM943C=x-IBM943C, x-IBM948=x-IBM948, x-IBM949=x-IBM949, x-IBM949C=x-IBM949C, x-IBM950=x-IBM950, x-IBM964=x-IBM964, x-IBM970=x-IBM970, x-ISCII91=x-ISCII91, x-ISO-2022-CN-CNS=x-ISO-2022-CN-CNS, x-ISO-2022-CN-GB=x-ISO-2022-CN-GB, x-iso-8859-11=x-iso-8859-11, x-JIS0208=x-JIS0208, x-JISAutoDetect=x-JISAutoDetect, x-Johab=x-Johab, x-MacArabic=x-MacArabic, x-MacCentralEurope=x-MacCentralEurope, x-MacCroatian=x-MacCroatian, x-MacCyrillic=x-MacCyrillic, x-MacDingbat=x-MacDingbat, x-MacGreek=x-MacGreek, x-MacHebrew=x-MacHebrew, x-MacIceland=x-MacIceland, x-MacRoman=x-MacRoman, x-MacRomania=x-MacRomania, x-MacSymbol=x-MacSymbol, x-MacThai=x-MacThai, x-MacTurkish=x-MacTurkish, x-MacUkraine=x-MacUkraine, x-MS932_0213=x-MS932_0213, x-MS950-HKSCS=x-MS950-HKSCS, x-mswin-936=x-mswin-936, x-PCK=x-PCK, x-SJIS_0213=x-SJIS_0213, x-UTF-16LE-BOM=x-UTF-16LE-BOM, X-UTF-32BE-BOM=X-UTF-32BE-BOM, X-UTF-32LE-BOM=X-UTF-32LE-BOM, x-windows-50220=x-windows-50220, x-windows-50221=x-windows-50221, x-windows-874=x-windows-874, x-windows-949=x-windows-949, x-windows-950=x-windows-950, x-windows-iso2022jp=x-windows-iso2022jp}
没有指定读取文件的字符集，采用(JVM)字符集：GBK
阿斯顿飞aaa
========================================
指定读取文件的字符集：GB18030
阿斯顿飞aaa
========================================
通过IDE(myeclipse)创建文件data.dat，UTF-8的编码方式
指定读取文件的字符集：UTF8
通过myeclipse创建的文件
用UTF8方式得到的字符串，通过其他编码方式得到新串：
通过myeclipse创建的文件
========================================
str.getBytes():
-50,-46,-75,-60,112,97,115,115,119,111,114,100,
str.getBytes(defaultSet):
-50,-46,-75,-60,112,97,115,115,119,111,114,100,
========================================
利用getBytes创建新的字符串:
我的password

参考转载的文章分析如下：

我们经常会遇到编码问题。Java号称国际化的语言，是因为它的class文件采用UTF-8，而JVM运行时使用UTF-16（至于为什么JVM中要采用UTF-16，我没看过相关的资料，但我猜可能是因为JAVA里面一个字符(char)就是16位的，而UTF-16正是双字节编码），都是unicode的编码。

unicode 的目标就是能支持世界上所有的字符集，也就是说几乎所有的字符集包含的字符在unicode中都有对应的编码。在unicode中，字符与代码的映射关系，就是unicode字符集，称为UCS(Unicode Character Set)，每个unicode字符编码称为code point（代码点？）。UTF-8和UTF-16是不同的UCS编码方法，UTF就是UCS Transformation Format。;

在Java 中，String的getBytes()方法就是对特定的字符串(unicode)按照给定的字符集进行编码（encode），new String()则可以按照某个字符集将字节流转换回unicode（decode）。Java里面的每一个String都是unicode编码。

再来看页面，如果不做特殊处理，Form的提交就按照页面的ContentType设置中的字符集进行编码转换，发送到后台，后台必须利用req.setCharacterEncoding来指定参数的编码格式(不同的应用服务器应有不同的指定方式)，才能正确解码。

Java 里面的encode和decode都是相对于unicode而言的，encode的意思是将char[] --> XXX Encoding byte[]，decode就是由XXX Encoding byte[] --> char[]。平常，当我们说“将GBK编码转换为UTF-8编码”的时候，实际的意思就是：GBK Encoding byte[] --> UTF-8 Encoding byte[]，这种转换只有在需要用byte[]传输数据的时候才有意义，否则便是毫无意义的。

首先要说明的一点是：Java中的String对象就是一个unicode编码的字符串。

但是，我们通常会听到有人说：“我们需要将String由ISO-8859-1转换为GBK编码”，这又是怎么回事呢？实际上，我们并不是要“将一个由ISO-8859-1编码的String转换为GBK编码的String”，反复说明的是，JAVA中的String都是unicode编码的，所以不存在“ISO- 8859-1编码的String”或“GBK编码的String”这样的说法。而需要转换的唯一的原因是String进行了错误的编码。我们经常会碰到由ISO-8859- 1转换为诸如GBK/UTF-8等等这样的需求。所谓的转换过程是：String --> byte[] -->String。
也许你非常清楚这个过程的代码：new String(text.getBytes("ISO-8859-1"),"GBK")。但是，要真正理解起来并不是那么简单。表面上看似乎很容易理解，不就是将text String对象按照ISO-8859-1的方式编码为byte[]然后再把它按照GBK的方式转换为String吗？但是这句代码很容易会被误解为： “将text String由ISO-8859-1转换为GBK编码”，这种说法是错误的。难道你见过用这样的代码：new String(text.getBytes("GBK"),"UTF-8")来对String进行编码转换的吗？

之所以你会经常看到new String(text.getBytes("ISO-8859-1"),"GBK")这句代码，是因为一个GBK的字节流被错误地以ISO-8859- 1的方式转换为String（unicode）了！发生这种情况最普遍的地方是一个GBK编码的网页向后台提交数据的时候，就有可能会看到这句代码的出现。GBK的流被错误的当成ISO8859-1的流，所以便得到了一个错误的String。由于ISO8859-1是单字节编码，所以每个字节被按照原样转换为String，也就是说，虽然这是一个错误的转换，但编码没有改变，所以我们仍然有机会把编码转换回来！所以那句经典的new String(text.getBytes("ISO-8859-1"),"GBK")便出现了。

如果系统误以为是其它编码格式，就有可能再也转换不回来了，因为编码转换并不是负负得正那么简单的。

【参考文章】

1.http://hukejia.iteye.com/blog/480526

2.http://www.iteye.com/topic/311583

分享到：

IBM AS400主机档的转档问题 | Spring Quartz 浅析

2010-10-14 10:54
浏览 4480
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论