Java编码浅析（注意区分三个概念）

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 57017 次

锁定老帖子主题：Java编码浅析（注意区分三个概念）精华帖 (0) :: 良好帖 (11) :: 新手帖 (2) :: 隐藏帖 (1)
作者	正文
andyhu1007 等级: 性别: 文章: 67 积分: 780 来自: 北京	发表时间：2009-01-07 相关推荐: java 编码有哪些_[转]Java编码浅析，字符集（注意区分三个概念） Java编码浅析（注意区分三个概念）（转） [转]Java编码浅析（注意区分三个概念） Java编码浅析（注意区分三个概念）-困扰很长时间的问题 java的编码方式_JAVA 编码方式更多相关推荐 Java与Unicode： Java的class文件采用utf8的编码方式，JVM运行时采用utf16。 Java的字符串是unicode编码的。总之，Java采用了unicode字符集，使之易于国际化。 Java支持哪些字符集：即Java能识别哪些字符集并对它进行正确地处理？查看Charset 类，最新的JDK支持160种字符集。可以通过static方法availableCharsets拿到所有Java支持的字符集。 assertEquals(160, Charset.availableCharsets().size()); Set<String> charsetNames = Charset.availableCharsets().keySet(); assertTrue(charsetNames.contains("utf-8")); assertTrue(charsetNames.contains("utf-16")); assertTrue(charsetNames.contains("gb2312")); assertTrue(Charset.isSupported("utf-8")); 需要在哪些时候注意编码问题？ 1. 从外部资源读取数据：这跟外部资源采取的编码方式有关，我们需要使用外部资源采用的字符集来读取外部数据： InputStream is = new FileInputStream("res/input2.data"); InputStreamReader streamReader = new InputStreamReader(is, "GB18030"); 这里可以看到，我们采用了GB18030编码读取外部数据，通过查看streamReader的encoding可以印证： assertEquals("GB18030", streamReader.getEncoding()); 正是由于上面我们为外部资源指定了正确的编码，当它转成char数组时才能正确地进行解码（GB18030 -> unicode）： char[] chars = new char[is.available()]; streamReader.read(chars, 0, is.available()); 但我们经常写的代码就像下面这样： InputStream is = new FileInputStream("res/input2.data"); InputStreamReader streamReader = new InputStreamReader(is); 这时候InputStreamReader采用什么编码方式读取外部资源呢？Unicode？不是，这时候采用的编码方式是JVM的默认字符集，这个默认字符集在虚拟机启动时决定，通常根据语言环境和底层操作系统的 charset 来确定。可以通过以下方式得到JVM的默认字符集： Charset.defaultCharset(); 为什么要这样？因为我们从外部资源读取数据，而外部资源的编码方式通常跟操作系统所使用的字符集一样，所以采用这种默认方式是可以理解的。好吧，那么我通过我的IDE Ideas创建了一个文件，并以JVM默认的编码方式从这个文件读取数据，但读出来的数据竟然是乱码。为何？呵呵，其实是因为通过Ideas创建的文件是以utf-8编码的。要得到一个JVM默认编码的文件，通过手工创建一个txt文件试试吧。 2. 字符串和字节数组的相互转换我们通常通过以下代码把字符串转换成字节数组： "string".getBytes(); 但你是否注意过这个转换采用的编码呢？其实上面这句代码跟下面这句是等价的： "string".getBytes(Charset.defaultCharset()); 也就是说它根据JVM的默认编码（而不是你可能以为的unicode）把字符串转换成一个字节数组。反之，如何从字节数组创建一个字符串呢？ new String("string".getBytes()); 同样，这个方法使用平台的默认字符集解码字节的指定数组（这里的解码指从一种字符集到unicode）。字符串编码迷思： new String(input.getBytes("ISO-8859-1"), "GB18030") 上面这段代码代表什么？有人会说： “把input字符串从ISO-8859-1编码方式转换成GB18030编码方式”。如果这种说法正确，那么又如何解释我们刚提到的java字符串都采用unicode编码呢？这种说法不仅是欠妥的，而且是大错特错的，让我们一一来分析，其实事实是这样的：我们本应该用GB18030的编码来读取数据并解码成字符串，但结果却采用了ISO-8859-1的编码，导致生成一个错误的字符串。要恢复，就要先把字符串恢复成原始字节数组，然后通过正确的编码GB18030再次解码成字符串（即把以GB18030编码的数据转成unicode的字符串）。注意，字符串永远都是unicode编码的。但编码转换并不是负负得正那么简单，这里我们之所以可以正确地转换回来，是因为 ISO8859-1 是单字节编码，所以每个字节被按照原样转换为 String ，也就是说，虽然这是一个错误的转换，但编码没有改变，所以我们仍然有机会把编码转换回来！总结：所以，我们在处理java的编码问题时，要分清楚三个概念：Java采用的编码：unicode，JVM平台默认字符集和外部资源的编码。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

sooo 等级: 初级会员性别: 文章: 7 积分: 30 来自: 上海	发表时间：2009-01-07 String都是unicode编码，以前一直没注意到这点。
返回顶楼	回帖地址 0 0 请登录后投票

weakfi 等级: 性别: 文章: 64 积分: 180 来自: 深圳	发表时间：2009-01-08 unicode和utf8之间是什么关系？
返回顶楼	回帖地址 0 0 请登录后投票

andyhu1007 等级: 性别: 文章: 67 积分: 780 来自: 北京	发表时间：2009-01-09 unicode包含两个概念，一是字符集，而是编码方式。utf-8是unicode的其中一种编码方式。
返回顶楼	回帖地址 0 0 请登录后投票

unsid 等级: 性别: 文章: 232 积分: 100 来自: 北京	发表时间：2009-01-09 Charset.defaultCharset()我这里返回GBK,是不是说明我这String是按GBK编码的??
返回顶楼	回帖地址 0 0 请登录后投票

andyhu1007 等级: 性别: 文章: 67 积分: 780 来自: 北京	发表时间：2009-01-09 unsid 写道 Charset.defaultCharset()我这里返回GBK,是不是说明我这String是按GBK编码的?? 说明你的JVM默认编码是GBK，也就是说你的底层环境是GBK编码。记住，String永远是unicode。
返回顶楼	回帖地址 0 0 请登录后投票

unsid 等级: 性别: 文章: 232 积分: 100 来自: 北京	发表时间：2009-01-10 我猜想jvm环境编码是从配置文件里读的，可能Charset.defaultCharset()底层用的 ResourceBundle用Local.default()通过读取操作系统地区信息来判断用哪种编码。关于你说的“JVM默认编码是GBK”和“String永远是unicode”我混淆了。。。String不随jvm编码么？这个帖子非常好，刚好帮我解答编码问题
返回顶楼	回帖地址 0 0 请登录后投票

unsid 等级: 性别: 文章: 232 积分: 100 来自: 北京	发表时间：2009-01-10 另外 "Java的class文件采用utf8的编码方式" 这句话我有些疑惑，我觉得class文件以哪种方式编码取决于编辑这个文件的编辑器，比如用EditPlus写完了代码，保存成utf-8格式就是utf-8，保存成gbk就是gbk，你的意思是不是jvm在读取String字符串的时候始终以utf-8方式读取，那么如果你将文件保存成其他各式，jvm就不认识了
返回顶楼	回帖地址 0 0 请登录后投票

andyhu1007 等级: 性别: 文章: 67 积分: 780 来自: 北京	发表时间：2009-01-10 unsid 写道我猜想jvm环境编码是从配置文件里读的，可能Charset.defaultCharset()底层用的 ResourceBundle用Local.default()通过读取操作系统地区信息来判断用哪种编码。关于你说的“JVM默认编码是GBK”和“String永远是unicode”我混淆了。。。String不随jvm编码么？这个帖子非常好，刚好帮我解答编码问题 String是unicode的，当它读取外部数据（比如JVM默认编码的数据）时，如果没有指定使用的解码方式，它会根据JVM默认编码来解码外部数据，即从JVM默认编码到unicode的转换。当然，你可以指定你想要的解码方式。
返回顶楼	回帖地址 0 0 请登录后投票

andyhu1007 等级: 性别: 文章: 67 积分: 780 来自: 北京	发表时间：2009-01-10 unsid 写道另外 "Java的class文件采用utf8的编码方式" 这句话我有些疑惑，我觉得class文件以哪种方式编码取决于编辑这个文件的编辑器，比如用EditPlus写完了代码，保存成utf-8格式就是utf-8，保存成gbk就是gbk，你的意思是不是jvm在读取String字符串的时候始终以utf-8方式读取，那么如果你将文件保存成其他各式，jvm就不认识了我说的class文件，而不是java文件。其实你说的是java文件的编码，那么对于这种文件的编码，当然是我们可以选择的。比如现今流行的IDE肯定会帮你创建unicode编码的文件。如果你使用了其它编码的java文件，也能读。我估计是编译器会去猜这个文件的编码，然后转换成unicode的。如果猜错了，那么你的java文件中的内容可能就出错了。
返回顶楼	回帖地址 1 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: