Java字符编码

yedehua

浏览: 120443 次
性别:
来自: 东莞

最近访客更多访客>>

wangyy

maoweiwer

qq1716768211

zz123321123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java基础

Java Windows .net MySQL Tomcat

java在线中文API:http://doc.java.sun.com/DocWeb/

两种解决URL传输中文的方法：
1.在tomcat的server.xml文件中加URIEncoding="gb2312"
2.在传输前对中文进行编码，在处理时再反编码
java.net.URLEncoder.encode(name,"UTF-8");
java.net.URLDecoder.decode(name, "UTF-8");
个人推荐使用第二种。
编码转换:new String(name1.toString().getBytes("ISO-8859-1"),"GBK");ISO-8859-1转换为GBK
以下为编码详细说明：
Java标准字符集

    所谓Java标准字符集，就是Java平台支持的字符集：US-ASCII、ISO-8859-1、UTF-8、UTF-16BE、UTF-16LE、UTF-16。你应该比较熟悉前面三种字符集，后面三种字符集你应该了解得比较少，也很难会用到，不过我还是会在后面的文章中提到这些概念。另外，你应该注意到，Java并不支持我们常用的中文字符集GB2312、GBK等，我想是因为中文字符集没有通用性，并且Unicode也能很好的支持中文字符集，所以就没必要将中文字符集作为标准字符集定义。下面，我们就每种自己的概念和关联进行介绍；当然，重点会是中文字符集和Unicode。

US-ASCII

    你还依稀记得C语言支持的字符编码格式吗？使用的就是US-ASCII，这是一个出现得比较早的字符编码规范；因为它出现比较早，在通用型方面也考虑得比较少，所以也比较简单。一个ASCII字符用一个字节存储，也就是说它可以用来表示256个不同的字符。由于英文大小写字母、阿拉伯数字和标点符号等字符是有限的，所以就把前128个字符作为常用字符，而剩下的高位字符作为扩展字符。这128个字符通常用来表示音标、特殊字符等。



ISO-8859-1

    ISO-8859-1也常被称为Latin_1（拉丁1）字符集，像MySQL的默认字符集就是ISO-8859-1，其他它与ASCII编码类似，也是用一个字节表示一个字符，也只用于表示英文字符、数字、符号及特殊字符。它与ASCII唯一的不同在于它是一个国际标准，而ASCII只是一个美国国家标准。对该标准更详细的信息可以参考下面一篇文档：

http://download1.csdn.net/down3/20070617/17001523603.pdf

中文字符集

通过对上面两种字符集的了解，如果想用它们来表示中文字符集，显然有些不太现实，因为常用的中文字符都有上千个之多，所以我们需要能表示更多字符的字符集实现中文字符编码。但又为了兼容ASCII编码，中国在ASCII的基础上制定了自己的字符编码规范，也就是我们比较熟悉的GB2312，它的全称是GB2312-80信息交换用汉字编码字符集（基础集）。它能定义了7000多个常用汉字和符号，GB2312的实现是通过使用两个扩展ASCII字符来定义一个中文字符，根据这一特定，我们就可以判断相邻的两个ASCII字符是否为扩展字符，我们就可以确认这两个字符组成一个中文字符，但是在扩展ASCII字符中，也定义了一些其他字符，所以相邻两个ASCII同为扩展字符时，并不能肯定的说它是一个中文字符，处理起来是相当麻烦的。

除了GB2312这个字符集以外，还有几个中文的字符集：Big5、HKSCS、GBK、GB18030。

Ø         Big5：台湾使用的编码标准，繁体中文字符，字符数也有7000多个。

Ø         HKSCS：香港使用的编码标准，繁体中文字符，但跟Big5不同

Ø         GBK：《汉字内码扩展规范》是GB2312的扩展集，不仅增加了大量简体中文字符和符号，也增加了对繁体中文字符的支持，另外还留有用户自定义字符空间，总共字符数在22000左右。

Ø         GB18030：《信息交换用汉字编码字符集基本集的扩充》将会成为中国字符编码规范新标准，它兼容GB2312和GBK。

GB2312、Big5、HKSCS是同一时期的产物，虽然都是通过扩展ASCII来实现的，但是它们彼此之间并不兼容，GBK作为GB2312的扩展产物，它几乎涵盖了Big5里所有的繁体字，并将一些不常见的中文字符也添加进入标准，windows操作系统支持的中文字符集也就是GBK；GB18030是2000年制定的标准，它为了兼容GB2312和GBK，保留了双字节编码，同时为了扩展，新增了四字节编码，扩展后的GB18030字符集新增了部分少数民族文字，支持的字符数量比GBK多5000多个。关于GB18030的更多信息如下文档：

http://download1.csdn.net/down3/20070617/17001610116.pdf

Unicode

    通过对上面知识的学习，你就会觉得Unicode（Universal Multiple-Octet Coded Character Set）的出现是种必然，如果没有一套统一的字符编码标准，我们将举步维艰。Unicode提供了两套字符编码标准：

Ø         UCS-2（Unicode-16）：2个字节字符编码

Ø         UCS-4（Unicode-32）：4个字节字符编码

    Unicode编码能支持的字符数相当多，Unicode-16就能定义65535个字符，其中包含了大量中文字符（一个中文字符只暂一位）。

    其实Unicode是一种理想化的字符标准，它并没有过多的考虑目前已经存在的字符集标准，它只与ISO-8859-1兼容，但它并不与ASCII兼容，想从ASCII编码转换为Unicode编码相当困难；另外，Unicode里很多字符都有‘0’字节，这将导致C语言会误认为它为字符串结束标志，这是相当可怕的，如果使用了Unicode编码，所有用C语言实现的系统将无法正常工作。这也是为何会出现UTF的原因。

UTF编码

    UTF（UCS Transformation Format）实现了Unicode与计算机所使用的编码之间的映射关系。常用的UTF编码有：UTF-8、UTF-16、UTF-7等。

Ø         UTF-8：是三字节变长字符编码，它能兼容ASCII编码。

Ø         UTF-16：是Unicode的标准实现，与Unicode编码规范相同

Ø         UTF-16BE：UTF-16编码big endian，先存放高字节

Ø         UTF-16LE：UTF-16编码little endian，先存放低字节

其中，big endian和little endian是CPU处理多字节字符的不同方法，因CPU的不同而有所不同。另外，很多人都认为UTF-8和Unicode是一个概念，其实UTF-8只是Unicode标准的一种编码实现，是目前使用得比较多的字符编码格式之一。

字符串在内存中的存放方法：

在 ASCII 阶段，单字节字符串使用一个字节存放一个字符（SBCS）。比如，"Bob123" 在内存中为：

42 6F 62 31 32 33 00

B o b 1 2 3 \0

在使用 ANSI 编码支持多种语言阶段，每个字符使用一个字节或多个字节来表示（MBCS），因此，这种方式存放的字符也被称作多字节字符。比如，"中文123" 在中文 Windows 95 内存中为7个字节，每个汉字占2个字节，每个英文和数字字符占1个字节：

D6 D0 CE C4 31 32 33 00

中文 1 2 3 \0

在 UNICODE 被采用之后，计算机存放字符串时，改为存放每个字符在 UNICODE 字符集中的序号。目前计算机一般使用 2 个字节（16 位）来存放一个序号（DBCS），因此，这种方式存放的字符也被称作宽字节字符。比如，字符串 "中文123" 在 Windows 2000 下，内存中实际存放的是 5 个序号：

2D 4E 87 65 31 00 32 00 33 00 00 00      ← 在 x86 CPU 中，低字节在前

中文 1 2 3 \0 　

一共占 10 个字节。

分享到：

使用Spring Mock测试Action中的方法 | 如何安装配置你的Tomcat5并绑定域名

2010-04-28 15:19
浏览 889
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论