0 0

关于字符编码的问题5

小弟最近在学web相关知识,遇到了字符编码的问题,现在想了解一下java底层源码是如何处理字符转换的,因之前在相关博客上见到有说java.util.properties类里面有,但还是没找着,希望各路大牛帮忙,给点提示

问题补充:
housen1987 写道
Java与Unicode:

Java的class文件采用utf8的编码方式,JVM运行时采用utf16。

Java的字符串是unicode编码的。

总之,Java采用了unicode字符集,使之易于国际化。

Java支持哪些字符集:

即Java能识别哪些字符集并对它进行正确地处理?

查看Charset 类,最新的JDK支持160种字符集。可以通过static方法availableCharsets拿到所有Java支持的字符集。

assertEquals(160, Charset.availableCharsets().size());  
  
Set<String> charsetNames = Charset.availableCharsets().keySet();  
  
assertTrue(charsetNames.contains("utf-8"));  
assertTrue(charsetNames.contains("utf-16"));  
assertTrue(charsetNames.contains("gb2312"));  
  
assertTrue(Charset.isSupported("utf-8"));


需要在哪些时候注意编码问题?

1. 从外部资源读取数据:

这跟外部资源采取的编码方式有关,我们需要使用外部资源采用的字符集来读取外部数据:

InputStream is = new FileInputStream("res/input2.data");  
InputStreamReader streamReader = new InputStreamReader(is, "GB18030");  


这里可以看到,我们采用了GB18030编码读取外部数据,通过查看streamReader的encoding可以印证:

assertEquals("GB18030", streamReader.getEncoding());


正是由于上面我们为外部资源指定了正确的编码,当它转成char数组时才能正确地进行解码(GB18030 -> unicode)

char[] chars = new char[is.available()];  
streamReader.read(chars, 0, is.available());


但我们经常写的代码就像下面这样:

InputStream is = new FileInputStream("res/input2.data");  
InputStreamReader streamReader = new InputStreamReader(is);  


正文
andyhu1007
等级:

性别:
文章: 67
积分: 780
来自: 北京

   发表时间:2009-01-07   收藏
< > 猎头职位: 北京: ITeye网站诚聘产品交互设计 相关文章: 
理解并解决GBK转UTF-8奇数中文乱码
编码简介
深入分析 Java 中的中文编码问题(1)

推荐群组: JSF
Java与Unicode:

Java的class文件采用utf8的编码方式,JVM运行时采用utf16。

Java的字符串是unicode编码的。

总之,Java采用了unicode字符集,使之易于国际化。

Java支持哪些字符集:

即Java能识别哪些字符集并对它进行正确地处理?

查看Charset 类,最新的JDK支持160种字符集。可以通过static方法availableCharsets拿到所有Java支持的字符集。

Java代码 
assertEquals(160, Charset.availableCharsets().size()); 
 
Set<String> charsetNames = Charset.availableCharsets().keySet(); 
 
assertTrue(charsetNames.contains("utf-8")); 
assertTrue(charsetNames.contains("utf-16")); 
assertTrue(charsetNames.contains("gb2312")); 
 
assertTrue(Charset.isSupported("utf-8")); 

需要在哪些时候注意编码问题?

1. 从外部资源读取数据:

这跟外部资源采取的编码方式有关,我们需要使用外部资源采用的字符集来读取外部数据:

Java代码 
InputStream is = new FileInputStream("res/input2.data"); 
InputStreamReader streamReader = new InputStreamReader(is, "GB18030"); 

这里可以看到,我们采用了GB18030编码读取外部数据,通过查看streamReader的encoding可以印证:

Java代码 
assertEquals("GB18030", streamReader.getEncoding()); 

正是由于上面我们为外部资源指定了正确的编码,当它转成char数组时才能正确地进行解码(GB18030 -> unicode):

Java代码 
char[] chars = new char[is.available()]; 
streamReader.read(chars, 0, is.available()); 

但我们经常写的代码就像下面这样:

Java代码 
InputStream is = new FileInputStream("res/input2.data"); 
InputStreamReader streamReader = new InputStreamReader(is); 

这时候InputStreamReader采用什么编码方式读取外部资源呢?Unicode?不是,这时候采用的编码方式是JVM的默认字符集,这个默认字符集在虚拟机启动时决定,通常根据语言环境和底层操作系统的 charset 来确定。可以通过以下方式得到JVM的默认字符集:

Charset.defaultCharset();  


为什么要这样?因为我们从外部资源读取数据,而外部资源的编码方式通常跟操作系统所使用的字符集一样,所以采用这种默认方式是可以理解的。

好吧,那么我通过我的IDE Ideas创建了一个文件,并以JVM默认的编码方式从这个文件读取数据,但读出来的数据竟然是乱码。为何?呵呵,其实是因为通过Ideas创建的文件是以utf-8编码的。要得到一个JVM默认编码的文件,通过手工创建一个txt文件试试吧。

2. 字符串和字节数组的相互转换

我们通常通过以下代码把字符串转换成字节数组:

"string".getBytes();  


但你是否注意过这个转换采用的编码呢?其实上面这句代码跟下面这句是等价的:

"string".getBytes(Charset.defaultCharset()); 


也就是说它根据JVM的默认编码(而不是你可能以为的unicode)把字符串转换成一个字节数组。

反之,如何从字节数组创建一个字符串呢?

new String("string".getBytes()); 


同样,这个方法使用平台的默认字符集解码字节的指定数组(这里的解码指从一种字符集到unicode)。


字符串编码迷思:

new String(input.getBytes("ISO-8859-1"), "GB18030"); 


上面这段代码代表什么?有人会说: “把input字符串从ISO-8859-1编码方式转换成GB18030编码方式”。如果这种说法正确,那么又如何解释我们刚提到的java字符串都采用unicode编码呢?

这种说法不仅是欠妥的,而且是大错特错的,让我们一一来分析,其实事实是这样的:我们本应该用GB18030的编码来读取数据并解码成字符串,但结果却采用了ISO-8859-1的编码,导致生成一个错误的字符串。要恢复,就要先把字符串恢复成原始字节数组,然后通过正确的编码GB18030再次解码成字符串(即把以GB18030编码的数据转成unicode的字符串)。注意,字符串永远都是unicode编码的。

但编码转换并不是负负得正那么简单,这里我们之所以可以正确地转换回来,是因为 ISO8859-1 是单字节编码,所以每个字节被按照原样 转换为 String ,也就是说,虽然这是一个错误的转换,但编码没有改变,所以我们仍然有机会把编码转换回来!

总结:

所以,我们在处理java的编码问题时,要分清楚三个概念:Java采用的编码:unicode,JVM平台默认字符集和外部资源的编码


呃~~~~~~
我是希望有人能帮我指出java内部处理字符编码的类,或者查看java源码的方法,因为我回溯查看那些方法时,遇到了接口就不知道怎么进行下去了……
谢谢

问题补充:
liuqing_2010_07 写道
呵呵 没事 housen1987兄弟 你一天答题够努力的 ! 加油!


呃~~~~~~
我是希望有人能帮我指出java内部处理字符编码的类,或者查看java源码的方法,因为我回溯查看那些方法时,遇到了接口就不知道怎么进行下去了……
谢谢
2012年1月09日 21:07

7个答案 按时间排序 按投票排序

0 0

引用
呵呵 没事 housen1987兄弟 你一天答题够努力的 ! 加油!

惭愧啊,今天点了一天的火车票,这是我今天答的第一个问题,偷懒了。

2012年1月09日 22:22
0 0

呵呵 没事 housen1987兄弟 你一天答题够努力的 ! 加油!

2012年1月09日 22:17
0 0

呵呵,转载!

2012年1月09日 22:13
0 0

你直接拷贝过来的!真行呀!

2012年1月09日 22:06
0 0

引用

正文
andyhu1007
等级:

性别:
文章: 67
积分: 780
来自: 北京

   发表时间:2009-01-07   收藏
< > 猎头职位: 北京: ITeye网站诚聘产品交互设计 相关文章: 
理解并解决GBK转UTF-8奇数中文乱码
编码简介
深入分析 Java 中的中文编码问题(1)

推荐群组: JSF

2012年1月09日 22:05
0 0

Java与Unicode:

Java的class文件采用utf8的编码方式,JVM运行时采用utf16。

Java的字符串是unicode编码的。

总之,Java采用了unicode字符集,使之易于国际化。

Java支持哪些字符集:

即Java能识别哪些字符集并对它进行正确地处理?

查看Charset 类,最新的JDK支持160种字符集。可以通过static方法availableCharsets拿到所有Java支持的字符集。

assertEquals(160, Charset.availableCharsets().size());  
  
Set<String> charsetNames = Charset.availableCharsets().keySet();  
  
assertTrue(charsetNames.contains("utf-8"));  
assertTrue(charsetNames.contains("utf-16"));  
assertTrue(charsetNames.contains("gb2312"));  
  
assertTrue(Charset.isSupported("utf-8"));


需要在哪些时候注意编码问题?

1. 从外部资源读取数据:

这跟外部资源采取的编码方式有关,我们需要使用外部资源采用的字符集来读取外部数据:

InputStream is = new FileInputStream("res/input2.data");  
InputStreamReader streamReader = new InputStreamReader(is, "GB18030");  


这里可以看到,我们采用了GB18030编码读取外部数据,通过查看streamReader的encoding可以印证:

assertEquals("GB18030", streamReader.getEncoding());


正是由于上面我们为外部资源指定了正确的编码,当它转成char数组时才能正确地进行解码(GB18030 -> unicode)

char[] chars = new char[is.available()];  
streamReader.read(chars, 0, is.available());


但我们经常写的代码就像下面这样:

InputStream is = new FileInputStream("res/input2.data");  
InputStreamReader streamReader = new InputStreamReader(is);  


正文
andyhu1007
等级:

性别:
文章: 67
积分: 780
来自: 北京

   发表时间:2009-01-07   收藏
< > 猎头职位: 北京: ITeye网站诚聘产品交互设计 相关文章: 
理解并解决GBK转UTF-8奇数中文乱码
编码简介
深入分析 Java 中的中文编码问题(1)

推荐群组: JSF
Java与Unicode:

Java的class文件采用utf8的编码方式,JVM运行时采用utf16。

Java的字符串是unicode编码的。

总之,Java采用了unicode字符集,使之易于国际化。

Java支持哪些字符集:

即Java能识别哪些字符集并对它进行正确地处理?

查看Charset 类,最新的JDK支持160种字符集。可以通过static方法availableCharsets拿到所有Java支持的字符集。

Java代码 
assertEquals(160, Charset.availableCharsets().size()); 
 
Set<String> charsetNames = Charset.availableCharsets().keySet(); 
 
assertTrue(charsetNames.contains("utf-8")); 
assertTrue(charsetNames.contains("utf-16")); 
assertTrue(charsetNames.contains("gb2312")); 
 
assertTrue(Charset.isSupported("utf-8")); 

需要在哪些时候注意编码问题?

1. 从外部资源读取数据:

这跟外部资源采取的编码方式有关,我们需要使用外部资源采用的字符集来读取外部数据:

Java代码 
InputStream is = new FileInputStream("res/input2.data"); 
InputStreamReader streamReader = new InputStreamReader(is, "GB18030"); 

这里可以看到,我们采用了GB18030编码读取外部数据,通过查看streamReader的encoding可以印证:

Java代码 
assertEquals("GB18030", streamReader.getEncoding()); 

正是由于上面我们为外部资源指定了正确的编码,当它转成char数组时才能正确地进行解码(GB18030 -> unicode):

Java代码 
char[] chars = new char[is.available()]; 
streamReader.read(chars, 0, is.available()); 

但我们经常写的代码就像下面这样:

Java代码 
InputStream is = new FileInputStream("res/input2.data"); 
InputStreamReader streamReader = new InputStreamReader(is); 

这时候InputStreamReader采用什么编码方式读取外部资源呢?Unicode?不是,这时候采用的编码方式是JVM的默认字符集,这个默认字符集在虚拟机启动时决定,通常根据语言环境和底层操作系统的 charset 来确定。可以通过以下方式得到JVM的默认字符集:

Charset.defaultCharset();  


为什么要这样?因为我们从外部资源读取数据,而外部资源的编码方式通常跟操作系统所使用的字符集一样,所以采用这种默认方式是可以理解的。

好吧,那么我通过我的IDE Ideas创建了一个文件,并以JVM默认的编码方式从这个文件读取数据,但读出来的数据竟然是乱码。为何?呵呵,其实是因为通过Ideas创建的文件是以utf-8编码的。要得到一个JVM默认编码的文件,通过手工创建一个txt文件试试吧。

2. 字符串和字节数组的相互转换

我们通常通过以下代码把字符串转换成字节数组:

"string".getBytes();  


但你是否注意过这个转换采用的编码呢?其实上面这句代码跟下面这句是等价的:

"string".getBytes(Charset.defaultCharset()); 


也就是说它根据JVM的默认编码(而不是你可能以为的unicode)把字符串转换成一个字节数组。

反之,如何从字节数组创建一个字符串呢?

new String("string".getBytes()); 


同样,这个方法使用平台的默认字符集解码字节的指定数组(这里的解码指从一种字符集到unicode)。


字符串编码迷思:

new String(input.getBytes("ISO-8859-1"), "GB18030"); 


上面这段代码代表什么?有人会说: “把input字符串从ISO-8859-1编码方式转换成GB18030编码方式”。如果这种说法正确,那么又如何解释我们刚提到的java字符串都采用unicode编码呢?

这种说法不仅是欠妥的,而且是大错特错的,让我们一一来分析,其实事实是这样的:我们本应该用GB18030的编码来读取数据并解码成字符串,但结果却采用了ISO-8859-1的编码,导致生成一个错误的字符串。要恢复,就要先把字符串恢复成原始字节数组,然后通过正确的编码GB18030再次解码成字符串(即把以GB18030编码的数据转成unicode的字符串)。注意,字符串永远都是unicode编码的。

但编码转换并不是负负得正那么简单,这里我们之所以可以正确地转换回来,是因为 ISO8859-1 是单字节编码,所以每个字节被按照原样 转换为 String ,也就是说,虽然这是一个错误的转换,但编码没有改变,所以我们仍然有机会把编码转换回来!

总结:

所以,我们在处理java的编码问题时,要分清楚三个概念:Java采用的编码:unicode,JVM平台默认字符集和外部资源的编码

2012年1月09日 22:02
0 0

http://wenku.baidu.com/view/533870ed102de2bd9605880b.html

先奉上一篇 你看看。

2012年1月09日 21:27

相关推荐

    字符编码

    在描述中提到的“博文链接”是一个关于字符编码问题的讨论,虽然具体内容没有给出,但通常这类问题可能涉及Java编程语言中遇到的字符编码问题。在Java中,字符编码问题往往出现在输入输出流的处理、字符串的转换或者...

    关于 字符编码的 转换 知识

    ### 关于字符编码的转换知识 #### 一、引言 字符编码是在计算机科学领域内一个重要的基础概念,它涉及到如何在计算机系统中存储、处理和传输文本信息。随着信息技术的发展,不同地区和文化背景下的用户对字符的...

    字符编码过滤器 字符编码转换 post字符转换

    "字符编码过滤器"是一种在J2EE应用程序中常见的解决乱码问题的机制。它通常是一个Servlet Filter,会在HTTP请求到达目标Servlet之前对请求进行预处理,将请求中的字符编码转换为应用程序期望的编码格式。例如,当...

    解决HTTP请求中的字符编码问题:技术指南与最佳实践

    字符编码问题在Web开发中非常常见,但通过正确的设置和处理,可以有效地避免这些问题。了解HTTP头部字段的作用,以及如何在客户端和服务器端处理字符编码,对于开发国际化的Web应用至关重要。 通过本文的详细介绍,...

    易语言字符编码转换

    在处理字符串和文本数据时,字符编码转换是一个常见的需求,因为不同的系统和应用可能使用不同的字符编码标准来表示文本。本资源提供了易语言字符编码转换的源码,帮助开发者理解和实现这一功能。 字符编码是用来...

    java_字符编码 Javajava_字符编码问题

    在深入探讨 Java 字符编码的问题之前,我们先来了解一下字符编码的基本概念。字符编码是计算机内部表示字符的一种方式,它涉及到如何将人类可读的文字转换为二进制形式以便计算机处理。 #### 二、Java中的字符串与...

    字符编码查询工具

    总的来说,字符编码查询工具是一款实用的辅助软件,尤其对那些需要处理不同字符编码问题的开发者来说,它提供了直观且便捷的查询方式,能够有效提高工作效率。理解字符编码的重要性,以及掌握如何查询和使用这些编码...

    VB转换字符编码(构造发送字符消息的准备工作)

    在VB中,当你需要在窗体间传递字符消息时,必须确保字符编码的一致性,否则可能会出现乱码问题。这是因为VB默认使用的是ANSI编码,而在某些情况下,如接收到的是Unicode编码的消息,就需要进行相应的转换。 以下是...

    深入理解字符编码(字符集 字符编码 字符显示 乱码问题)

    文档中主要介绍了各类字符集以及相关的字符编码,字符的显示原理,从输入到显现的整个过程,程序中出现的乱码问题以及解决方案

    HTML特殊字符编码

    HTML特殊字符编码HTML特殊字符编码HTML特殊字符编码HTML特殊字符编码HTML特殊字符编码HTML特殊字符编码HTML特殊字符编码HTML特殊字符编码HTML特殊字符编码HTML特殊字符编码HTML特殊字符编码HTML特殊字符编码

    Lucene 字符编码问题

    在使用Lucene时,可能会遇到字符编码问题,这通常是由于不同系统或程序之间处理字符集的方式不一致导致的。下面将详细探讨Lucene中的字符编码问题及其解决方案。 首先,我们要理解什么是字符编码。字符编码是将字符...

    网页字符编码问题总结及解决

    ### 网页字符编码问题总结及解决 在日常的网页开发过程中,经常会遇到字符编码导致的乱码问题。本文将结合实践经验,深入探讨不同情况下乱码产生的原因,并提出相应的解决方案。 #### 一、理解字符编码的基础概念 ...

    字符集和字符编码

    字符集和字符编码 字符集是指计算机系统支持的所有抽象字符的集合,包括文字、符号、图形符号、数字等。字符编码是将字符转换为二进制数据的过程,反之,解码是将存储在计算机中的二进制数据解析显示出来。 1. ...

    java字符编码监听器

    Java字符编码监听器是Java Web开发中的一个重要概念,主要用于处理HTTP请求和响应中的字符编码问题。在Java Servlet规范中,提供了`SetCharacterEncodingFilter`这样的过滤器,用于确保请求参数和响应内容的正确编码...

    中英文字符编码查询

    中英文字符编码查询 软件介绍: 该软件能快速查询中英文字符的ASCII、区位码、GB2312 码、Big5 码、GBK 内码、Unicode 码、UTF-8 码和 UTF-16 码。体积小、效率高、使用方便、批量转换、即输即得和多进制显示等。...

    判断字符编码格式代码

    根据给定文件的信息,我们可以总结出以下关于“判断字符编码格式代码”的相关知识点: ### 一、背景介绍 在计算机科学领域,字符编码是将文本转换为数字表示的方法,以便于计算机存储和处理。常见的字符编码包括...

    字符集和字符编码详解

    了解字符集和字符编码有助于我们解决各种编码问题,如文件编码转换、网页显示异常等。在开发过程中,我们需要确保数据的输入、存储、传输和显示都使用相同的字符编码,以保证数据的一致性和正确性。同时,理解这些...

    工具-字符编码转换

    在实际工作中,字符编码问题可能导致数据丢失、显示异常等问题。因此,理解不同编码之间的差异,以及如何使用工具进行转换至关重要。例如,在开发网页时,必须确保HTML文件的声明与实际使用的字符编码一致,否则...

    字符编码解决方案

    字符编码是计算机处理文本的关键,尤其在多语言环境中,正确的编码解决方案显得尤为重要。本文主要针对C++编程中遇到的...掌握这些原则和技巧,可以帮助开发者在面对复杂多语言环境时,更好地管理和解决字符编码问题。

Global site tag (gtag.js) - Google Analytics