`
lvwenwen
  • 浏览: 960214 次
  • 性别: Icon_minigender_1
  • 来自: 魔都
社区版块
存档分类
最新评论

为什么JAVA会产生乱码

阅读更多
在计算机中,只有二进制的数据,不管数据是在内存中,还是在外部存储设备上。对于我们所看到的字符,也是以二进制数据的形式存在的。不同字符对应二进制数的规则,就是字符的编码。字符编码的集合称为字符集。

常用字符集

在早期的计算机系统中,使用的字符非常少,这些字符包括26个英文字母、数字符号和一些常用符号(包括控制符号),对这些字符进行编码,用1个字节就足够了(1个字节可以表示28=256种字符)。然而实际上,表示这些字符,只使用了1个字节的7位,这就是ASCII编码1.ASCII

ASCII(American Standard Code for Information Interchange,美国信息互换标准代码),是基于常用的英文字符的一套电脑编码系统。每一个ASCII码与一个8位(bit)二进制数对应。其最高位是0,相应的十进制数是0~127。例如,数字字符“0”的编码用十进制数表示就是48。另有128个扩展的ASCII码,最高位都是1,由一些图形和画线符号组成。ASCII是现今最通用的单字节编码系统。

ASCII用一个字节来表示字符,最多能够表示256种字符。随着计算机的普及,许多国家都将本地的语言符号引入到计算机中,扩展了计算机中字符的范围,于是就出现了各种不同的字符集。

2.ISO8859-1

因为ASCII码中缺少£、ü和许多书写其他语言所需的字符,为此,可以通过指定128以后的字符来扩展ASCII码。国际标准组织(ISO)定义了几个不同的字符集,它们是在ASCII码基础上增加了其他语言和地区需要的字符。其中最常用的是ISO8859-1,通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符,其中0~127的字符与ASCII码相同。ISO 8859另外定义了14个适用于不同文字的字符集(8859-2到8859-15)。这些字符集共享0~127的ASCII码,只是每个字符集都包含了128~255的其他字符。

3.GB2312和GBK

GB2312是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集-基本集》,标准号为GB2312-80,是一个由中华人民共和国国家标准总局发布的关于简化汉字的编码,通行于中国大陆和新加坡,简称国标码。

因为中文字符数量较多,所以采用两个字节来表示一个字符,分别称为高位和低位。为了和ASCII码有所区别,中文字符的每一个字节的最高位都用1来表示。GB2312字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集,也是最基本的中文字符集。它包含了大部分常用的一、二级汉字和9区的符号,其编码范围是高位0xa1-0xfe,低位也是0xa1-0xfe,汉字从0xb0a1开始,结束于0xf 7fe。

为了对更多的字符和符号进行编码,由前电子部科技质量司和国家技术监督局标准化司于1995年12月颁布了GBK(K是“扩展”的汉语拼音第一个字母)编码规范,在新的编码系统里,除了完全兼容GB2312外,还对繁体中文、一些不常用的汉字和许多符号进行了编码。它也是现阶段Windows和其他一些中文操作系统的默认字符集,但并不是所有的国际化软件都支持该字符集。不过要注意的是GBK不是国家标准,它只是规范。GBK字符集包含了20 902个汉字,其编码范围是0x8140-0xfefe。

每个国家(或区域)都规定了计算机信息交换用的字符编码集,这就造成了交流上的困难。想像一下,你发送一封中文邮件给一位远在西班牙的朋友,当邮件通过网络发送出去的时候,你所书写的中文字符会按照本地的字符集GBK转换为二进制编码数据,然后发送出去。当你的朋友接收到邮件(二进制数据)后,查看信件时,会按照他所用系统的字符集,将二进制编码数据解码为字符,然而由于两种字符集之间编码的规则不同,导致转换出现乱码。这是因为,在不同的字符集之间,同样的数字可能对应了不同的符号,也可能在另一种字符集中,该数字没有对应符号。

为了解决上述问题,统一全世界的字符编码,由Unicode协会制定并发布了Unicode编码。

4.Unicode

Unicode(统一的字符编码标准集)使用0~65 535的双字节无符号数对每一个字符进行编码。它不仅包含来自英语和其他西欧国家字母表中的常见字母和符号,也包含来自古斯拉夫语、希腊语、希伯来语、阿拉伯语和梵语的字母表。另外还包含汉语和日语的象形汉字和韩国的Hangul音节表。

目前已经定义了40 000多个不同的Unicode字符,剩余25 000个空缺留给将来扩展使用。其中大约20 000个字符用于汉字,另外11 000左右的字符用于韩语音节。Unicode中0~255的字符与ISO8859-1中的一致。

Unicode编码对于英文字符采取前面加“0”字节的策略实现等长兼容。如“a”的ASCII码为0x61,Unicode码就为0x00,0x61。

5.UTF-8

使用Unicode编码,一个英文字符要占用两个字节,在Internet上,大多数的信息都是用英文来表示的,如果都采用Unicode编码,将会使数据量增加一倍。为了减少存储和传输英文字符数据的数据量,可以使用UTF-8编码。

UTF-8全称是Eight-bit UCS Transformation Format(UCS,Universal Character Set,通用字符集,UCS是所有其他字符集标准的一个超集)。对于常用的字符,即0~127的ASCII字符,UTF-8用一个字节来表示,这意味着只包含7位ASCII字符的字符数据在ASCII和UTF-8两种编码方式下是一样的。如果字符对应的Unicode码是0x0000,或在0x0080与0x007f之间,对应的UTF-8编码是两个字节,如果字符对应的Unicode码在0x0800与0xffff之间,对应的UTF-8编码是三个字节。因为中文字符的Unicode编码在0x0800与0xffff之间,所以数据如果是中文,采用UTF-8编码数据量会增加50%。

Unicode与UTF-8转换的规则简述如下:

(1)如果Unicode编码的16位二进制数的前9位是0,则UTF-8编码用1个字节来表示,这个字节的首位是“0”,剩下的7位与原二进制数据的后7位相同。例如:

Unicode编码:\u0061 = 00000000 01100001

UTF-8编码:01100001 = 0x61

(2)如果Unicode编码的16位二进制数的头5位是0,则UTF-8编码用2个字节来表示,首字节以“110”开头,后面的5位与原二进制数据除去前5个零后的最高5位相同;第二个字节以“10”开头,后面的6位与原二进制数据中的低6位相同。例如:

Unicode编码:\u00A9 = 00000000 10101001

UTF-8编码:11000010 10101001 = 0xC2 0xA9

(3)如果不符合上述两个规则,则用三个字节表示。第一个字节以“1110”开头,后四位为原二进制数据的高四位;第二个字节以“10”开头,后六位为原二进制数据中间的六位;第三个字节以“10”开头,后六位为原二进制数据的低六位。例如:

Unicode编码:\u4E2D = 01001110 00101101

UTF-8编码:11100100 10111000 10101101 = 0xE4 0xB8 0xAD

在UTF-8编码的多字节串中,第一个字节开头“1”的数目就是整个字符串中字节的数目。

17.1.2 对乱码产生过程的分析

为了让使用Java语言编写的程序能在各种语言的平台下运行,Java在其内部使用Unicode字符集来表示字符,这样就存在Unicode字符集和本地字符集进行转换的过程。当在Java中读取字符数据的时候,需要将本地字符集编码的数据转换为Unicode编码,而在输出字符数据的时候,则需要将Unicode编码转换为本地字符集编码。

例如,在中文系统下,从控制台读取一个字符“中”,实际上读取的是“中”的GBK编码0xD6D0,在Java语言中要将GBK编码转换为Unicode编码0x4E2D,此时,在内存中,字符“中”对应的数值就是0x4E2D,当我们向控制台输出字符时,Java语言将Unicode编码再转换为GBK编码,输出到控制台,中文系统再根据GBK字符集画出相应的字符。

从上述过程来看,读取和写入的过程是可逆的,那么理应不会出现中文乱码问题。然而,实际应用的情形,比上述过程要复杂得多。在Web应用中,通常都包括了浏览器、Web服务器、Web应用程序和数据库等部分,每一部分都有可能使用不同的字符集,从而导致字符数据在各种不同的字符集之间转换时,出现乱码的问题。

在Java语言中,不同字符集编码的转换,都是通过Unicode编码作为中介来完成的。例如,GBK编码的字符“中”要转换为ISO-8859-1(同ISO8859-1)编码,其过程如下:

(1)因为在Java中的字符,都是用Unicode来表示的,所以GBK编码的字符“中”要转换为Unicode表示:0xD6D0->0x4E2D。

(2)将字符“中”的Unicode编码转换为ISO-8859-1编码,因为Unicode编码0x4E2D在ISO-8859-1中没有对应的编码,于是得到0x3f,也就是字符“?”。

下面的代码演示了这一过程:

//GBK编码的字符“中”转换为Unicode编码表示

String str="中";

//将字符“中”的Unicode编码转换为ISO-8859-1编码

byte[] b=str.getBytes("ISO-8859-1");



for(int i=0;i<b.length;i++)

{

       //输出转换后的二进制代码。

       System.out.print(b[i]);

}

当从Unicode编码向某个字符集转换时,如果在该字符集中没有对应的编码,则得到0x3f(即问号字符?)。这就是为什么有时候我们输入的是中文,在输出时却变成了问号。

从其他字符集向Unicode编码转换时,如果这个二进制数在该字符集中没有标识任何的字符,则得到的结果是0xfffd。例如一个GBK的编码值0x8140,从GB2312向Unicode转换,然而由于0x8140不在GB2312字符集的编码范围(0xa1a1-0xfefe),当然也就没有对应任何的字符,所以转换后会得到0xfffd。下面的代码演示了这一过程。

//构造一个二进制数据。

byte[] buf={(byte)0x81,(byte)0x40,(byte)0xb0,(byte)0xa1};

//将二进制数据按照GB2312向Unicode编码转换。

String str=new String(buf,"GB2312");

      

for(int i=0;i<str.length();i++)

{

    //取出字符串中的每个Unicode编码的字符。

    char ch=str.charAt(i);

    //将该字符对应的Unicode编码以十六进制的形式输出。

    System.out.print(Integer.toHexString((int)ch));

    System.out.print("--");

    //输出该字符。

    System.out.println(ch);

}
分享到:
评论

相关推荐

    java中文乱码解决问题

    下面我们对容易产生乱码问题的场景进行分析,并提出解决方案。 1. 以 POST 方法提交的表单数据中有中文字符 在 Servlet/JSP 程序中,通过请求对象的 getParameter() 方法得到的字符串是以 ISO-8859-1 转换而来,这...

    java中文乱码大全

    4. 跨平台运行问题:Java程序从一种操作系统移植到另一种操作系统时,由于编码格式的不一致性,可能会产生中文乱码问题。 针对上述问题,可以采取以下方法来解决Java中文乱码问题: 1. 统一编码格式:在Java程序中...

    java编程中乱码问题解决

    ### Java编程中乱码问题解决 在Java编程中,乱码问题是开发者经常遇到的一个难题,尤其是在处理中文或者其他非英文字符时。本文将详细介绍如何解决Java编程中常见的乱码问题,并提供具体的实例帮助读者理解。 ####...

    java解析文件乱码解决

    7. **IDE设置**:确保集成开发环境(IDE)的编码设置与项目文件编码一致,避免在IDE内部处理文件时产生乱码。 8. **国际化和本地化**:对于多语言支持的项目,需要考虑不同地区的编码习惯,使用适当的字符集。 9. ...

    java传值中的乱码

    3. **网络传输**:HTTP协议本身并没有指定字符集,因此在传输过程中如果客户端和服务端的字符集不一致,则容易产生乱码。 4. **数据库**:不同的数据库系统可能会有不同的默认字符集设置。 #### 二、解决乱码的方法...

    Java 中文乱码问题

    3. **读写文件乱码**:读写文本文件时,如果没有正确地指定文件的编码格式,也可能产生乱码。使用`BufferedReader`和`BufferedWriter`时,需要通过`InputStreamReader`和`OutputStreamWriter`指定正确的编码。 4. *...

    Java乱码问题解决

    这些差异使得在处理中文数据时很容易产生乱码现象。 #### 二、常见乱码类型与原因分析 1. **JSP页面中文乱码** - **原因**:当JSP页面本身或客户端提交的数据编码与服务器端处理数据的编码不一致时,就会出现...

    解决java所有中文乱码集合

    2. 浏览器与服务器编码不匹配:在JSP应用中,如果浏览器与服务器对请求和响应的编码设置不一致,也会产生乱码。 3. 数据库编码问题:数据库的字符集配置与应用程序的编码不一致,可能导致存入或取出的数据出现乱码...

    Linux中java log输出中文乱码.docx

    Linux 中 Java log 输出中文乱码解决方案 Linux 中 Java log 输出中文乱码问题是 Java 应用程序在 Linux 环境下一个常见的问题。该问题的产生是由于 Linux 系统的 locale 设置不正确导致的。locale 是 Linux 系统中...

    java乱码处理

    1. **Java和JSP文件本身的编译乱码问题**:当Java或JSP源文件中包含中文字符,并且在编译过程中使用的编码与源文件的实际编码不一致时,就会出现乱码。 - **解决方案**:为了避免此类问题,可以在编写Java源文件时...

    java配置过滤器,解决乱码

    例如,如果客户端使用UTF-8编码,而服务器假设为GBK,那么接收到的数据就会乱码。 2. 输出乱码:在响应客户端时,如果JSP页面或Servlet没有明确指定字符集,浏览器可能会使用默认字符集,导致输出乱码。特别是对于...

    java中的中文乱码与汉字革命

    java中的中文乱码(其中介绍了中国近现代的汉字革命) java中为什么会产生中文乱码 如何解决java中的中文乱码

    解析Java中文乱码的处理方法

    理解编码原理,统一编码格式,并在各个可能产生乱码的环节进行相应的设置,是解决这个问题的关键。在实际开发中,应养成良好的编码习惯,确保所有涉及字符编码的操作都得到妥善处理,从而避免不必要的麻烦。

    java中文乱码问题处理方案.docx

    3. 使用正确的文件读写操作:在文件操作中,无论是读取还是写入文件,都应指定使用UTF-8编码,以避免在文件存储和读取过程中产生乱码。 4. 控制台输出编码设置:对于在控制台打印字符的场景,需要设置控制台的编码...

    java web开发解决乱码问题

    在Java Web开发过程中,乱码问题是开发者经常会遇到的问题之一。它通常发生在处理含有中文或其他非ASCII字符的数据时。本篇文章将详细介绍在Java Web开发中解决乱码问题的方法。 #### 二、乱码产生的原因 乱码主要...

    乱码终极解决办法java实现

    首先,我们需要理解乱码产生的根本原因。乱码通常是由于字符集(Charset)不匹配导致的。字符集是一种规定字符如何用二进制表示的标准,如ASCII、GBK、UTF-8等。当一个字符串在一种字符集中编码,然后在另一种字符...

    java Web开发乱码解决方案

    1. **不一致的编码设置**:如果客户端提交的数据编码与服务器端处理数据的编码不一致,就容易产生乱码。 2. **JSP页面、数据库、网络传输等环节编码不统一**:各个环节使用的编码格式不一致,导致数据在转换过程中...

    java语音及web乱码

    3. 数据库编码:数据库中的数据编码也需要与应用程序保持一致,避免在读写时产生乱码。 4. 文件读写时指定编码:处理文本文件时,需要明确指定读写操作的编码,避免因系统默认编码不一致导致问题。 "java语音.txt...

Global site tag (gtag.js) - Google Analytics