世界上的各地区都有本地的语言。地区差异直接导致了语言环境的差异。在开发一个国际化程序的过程中,处理语言问题就显得很重要了。
这是一个世界范围内都存在的问题,所以,Java提供了世界性的解决方法。本文描述的方法是用于处理中文的,但是,推而广之,对于处理世界上其它国家和地区的语言同样适用。
汉字是双字节的。所谓双字节是指一个双字要占用两个BYTE的位置(即16位),分别称为高位和低位。中国规定的汉字编码为GB2312,这是强制性的,目前几乎所有的能处理中文的应用程序都支持GB2312。GB2312包括了一二级汉字和9区符号,高位从0xa1到0xfe,低位也是从0xa1到0xfe,其中,汉字的编码范围为0xb 0a1到0xf7fe。
另外有一种编码,叫做GBK,但这是一份规范,不是强制的。GBK提供了20902个汉字,它兼容GB2312,编码范围为0x8140到0xfefe。GBK中的所有字符都可以一一映射到Unicode 2.0。
在不久的将来,中国会颁布另一种标准:GB18030-2000(GBK2K)。它收录了藏、蒙等少数民族的字型,从根本上解决了字位不足的问题。注意:它不再是定长的。其二字节部份与GBK兼容,四字节部分是扩充的字符、字形。它的首字节和第三字节从0x81到0xfe,二字节和第四字节从0x30到0x39。
本文不打算介绍Unicode,有兴趣的可以浏览“http://www.unicode.org/”查看更多的信息。Unicode有一个特性:它包括了世界上所有的字符字形。所以,各个地区的语言都可以建立与Unicode的映射关系,而Java正是利用了这一点以达到异种语言之间的转换。
在JDK中,与中文相关的编码有:
表 JDK中与中文相关的编码列表
编码名称
|
说明
|
ASCII
|
7位,与ascii7相同
|
ISO8859-1
|
8-位,与 8859_1,ISO-8859-1,ISO_8859-1,latin1...等相同
|
GB2312-80
|
16位,与gb2312,gb2312-1980,EUC_CN,euccn,1381,Cp1381, 1383, Cp1383, ISO2022CN,ISO2022CN_GB...等相同
|
GBK
|
与MS936相同,注意:区分大小写
|
UTF8
|
与UTF-8相同
|
GB18030
|
与cp1392、1392相同,目前支持的JDK很少
|
在实际编程时,接触得比较多的是GB2312(GBK)和ISO8859-1。
为什么会有“?”号
上文说过,异种语言之间的转换是通过Unicode来完成的。假设有两种不同的语言A和B,转换的步骤为:先把A转化为Unicode,再把Unicode转化为B。
举例说明。有GB2312中有一个汉字“李”,其编码为“C0EE”,欲转化为ISO8859-1编码。步骤为:先把“李”字转化为Unicode,得到“674E”,再把“674E”转化为ISO8859-1字符。当然,这个映射不会成功,因为ISO8859-1中根本就没有与“674E”对应的字符。
当映射不成功时,问题就发生了!当从某语言向Unicode转化时,如果在某语言中没有该字符,得到的将是Unicode的代码“\uffffd”(“\u”表示是Unicode编码,)。而从Unicode向某语言转化时,如果某语言没有对应的字符,则得到的是“0x3f”(“?”)。这就是“?”的由来。
例如:把字符流buf =“0x80 0x40 0xb0 0xa1”进行new String(buf, "gb2312")操作,得到的结果是“\ufffd\u554a”,再println出来,得到的结果将是“?啊”,因为“0x80 0x40”是GBK中的字符,在GB2312中没有。
再如,把字符串String="\u00d6\u00ec\u00e9\u0046\u00bb\u00f9"进行new String (buf.getBytes("GBK"))操作,得到的结果是“3fa8aca8a6463fa8b4”,其中,“\u00d6”在“GBK”中没有对应的字符,得到“3f”,“\u00ec”对应着“a8ac”,“\u00e9”对应着“a8a6”,“0046”对应着“46”(因为这是ASCII字符),“\u00bb”没找到,得到“3f”,最后,“\u00f9”对应着“a8b4”。把这个字符串println一下,得到的结果是“?ìéF?ù”。看到没?这里并不全是问号,因为GBK与Unicode映射的内容中除了汉字外还有字符,本例就是最好的明证。
所以,在汉字转码时,如果发生错乱,得到的不一定都是问号噢!不过,错了终究是错了,50步和100步并没有质的差别。
或者会问:如果源字符集中有,而Unicode中没有,结果会如何?回答是不知道。因为我手头没有能做这个测试的源字符集。但有一点是肯定的,那就是源字符集不够规范。在Java中,如果发生这种情况,是会抛出异常的。
在实际编程时,接触得比较多的是GB2312(GBK)和ISO8859-1。
为什么会有“?”号
上文说过,异种语言之间的转换是通过Unicode来完成的。假设有两种不同的语言A和B,转换的步骤为:先把A转化为Unicode,再把Unicode转化为B。
举例说明。有GB2312中有一个汉字“李”,其编码为“C0EE”,欲转化为ISO8859-1编码。步骤为:先把“李”字转化为Unicode,得到“674E”,再把“674E”转化为ISO8859-1字符。当然,这个映射不会成功,因为ISO8859-1中根本就没有与“674E”对应的字符。
当映射不成功时,问题就发生了!当从某语言向Unicode转化时,如果在某语言中没有该字符,得到的将是Unicode的代码“\uffffd”(“\u”表示是Unicode编码,)。而从Unicode向某语言转化时,如果某语言没有对应的字符,则得到的是“0x3f”(“?”)。这就是“?”的由来。
例如:把字符流buf =“0x80 0x40 0xb0 0xa1”进行new String(buf, "gb2312")操作,得到的结果是“\ufffd\u554a”,再println出来,得到的结果将是“?啊”,因为“0x80 0x40”是GBK中的字符,在GB2312中没有。
再如,把字符串String="\u00d6\u00ec\u00e9\u0046\u00bb\u00f9"进行new String (buf.getBytes("GBK"))操作,得到的结果是“3fa8aca8a6463fa8b4”,其中,“\u00d6”在“GBK”中没有对应的字符,得到“3f”,“\u00ec”对应着“a8ac”,“\u00e9”对应着“a8a6”,“0046”对应着“46”(因为这是ASCII字符),“\u00bb”没找到,得到“3f”,最后,“\u00f9”对应着“a8b4”。把这个字符串println一下,得到的结果是“?ìéF?ù”。看到没?这里并不全是问号,因为GBK与Unicode映射的内容中除了汉字外还有字符,本例就是最好的明证。
所以,在汉字转码时,如果发生错乱,得到的不一定都是问号噢!不过,错了终究是错了,50步和100步并没有质的差别。
相关推荐
本文将深入探讨JSP和Servlet如何处理中文字符,以及可能出现的乱码原因。 首先,中文字符是双字节编码,最常见的编码方式包括GB2312、GBK和GB18030。GB2312是早期的国家标准,包含了大部分常用汉字。GBK是对GB2312...
下面将详细阐述servlet和jsp中文乱码的处理方式。 1. **理解编码基础** - **Unicode**:全球统一的字符编码标准,包含了世界上几乎所有的字符。 - **UTF-8**:最常用的Unicode编码方式,它以字节为单位进行编码,...
根据提供的文件信息,本文将详细解析与JSP和Servlet相关的知识点。主要围绕JSP与Servlet的基本概念、工作原理以及在Web应用开发中的作用等方面展开。 ### JSP与Servlet概述 #### JSP(JavaServer Pages) - **定义...
本文将深入探讨JSP和Servlet中文乱码问题的根源、解决方案以及预防策略。 ### JSP和Servlet中的中文乱码问题根源 中文乱码问题通常源于字符编码不一致或配置错误。在Web应用中,数据流经多个环节,包括客户端...
### 深入剖析JSP和Servlet对中文的处理 #### 一、引言 在全球化的今天,软件系统面临着多语言环境的挑战。特别是在Web应用中,如何正确地处理中文等非英文字符变得尤为重要。Java作为一种广泛使用的编程语言,提供...
本文详细介绍了JSP和Servlet中关于请求与响应的关键知识点,包括JSP内置对象的作用、请求与响应对象的使用方法、中文乱码问题及其解决办法、转发与重定向的区别以及Servlet的基本创建和配置流程。希望这些内容能够...
根据给定的文件信息,以下是对JSP与Servlet技术的关键知识点的详细解析: ### Servlet与JSP技术概述 Servlet和JSP是Java平台用于构建动态Web应用的核心技术。Servlet是一种服务器端的Java应用程序,用于处理来自...
在IT行业中,Web开发是至关重要的领域,而`jsp`(JavaServer Pages)和`servlet`是Java Web开发中的核心技术,常用于构建动态网站。本项目以"jsp+servlet实现增删改查"为主题,旨在利用这两者实现CRUD(Create、Read...
【标题】:“中文版JSP&SERVLET教程” 【内容详解】 JSP(Java Server Pages)和Servlet是Java Web开发中的核心技术,...无论是初学者还是有经验的开发者,都能从中受益,加深对JSP和Servlet的理解,提升开发效率。
### JSP\Servlet中文API文档解析 #### 一、Servlet接口概述 在Java Web开发中,Servlet技术扮演着至关重要的角色,它允许开发者创建可扩展的、基于组件的应用程序,这些应用程序可以处理HTTP请求并生成动态响应。`...
Filter可以在请求到达Servlet之前对请求进行处理和过滤,从而实现中文乱码和非法访问的解决。 9. 在主页中显示访问次数:使用Servlet可以实现访问次数的统计和显示。在Servlet中可以使用Session对象来记录访问次数...
jsp 传参 servlet 接收中文乱码问题的解决方法 jsp 传参 servlet 接收中文乱码问题是一个经常遇到的问题,特别是在使用 Hibernate+Servlet 框架时。当我们在 jsp 页面传参到 servlet 时,中文字符经常会出现乱码...
在本实例中,我们使用 JSP 和 Servlet 来实现登录验证功能。JSP 负责接收用户输入,并将其传递给 Servlet 进行处理。Servlet 负责处理用户的请求,并将结果返回给用户。 知识点五:MySQL 数据库连接 在本实例中,...
利用jsp+servlet实现的一个网上书城web应用,数据库使用的是MySQL,具体的处理涉及到:中文乱码的处理,购物车,订单管理,用户账户管理,商品搜索,高级搜索,登录/注册,各种系统验证。里面包含了系统的一些设计...
通过在JSP页面、Servlet以及表单处理中设置合适的字符集,可以有效地避免中文乱码问题,提高系统的稳定性和用户体验。在实际开发过程中,建议始终采用UTF-8字符集,因为它支持全球几乎所有语言的字符,能够很好地...
在JSP和Servlet开发中,正确处理汉字编码问题是非常重要的。通过上述方法,可以有效地避免乱码问题的发生,确保中文字符在Web应用中正确显示。同时,了解和掌握不同的中文编码标准对于开发高质量的多语言应用也非常...
JSP主要用于生成动态内容和用户界面,而Servlet则负责处理业务逻辑和数据操作。通过这种方式,系统能够高效地响应用户的请求,并提供丰富的功能,如添加、删除、修改学生信息等。同时,合理的架构设计和模块化开发也...
综上所述,通过学习JSP和Servlet,我们可以构建出高效、安全且可扩展性强的Web应用程序。这些技术不仅是Java Web开发的基础,也是现代Web应用的重要组成部分。掌握这些知识点对于开发者来说至关重要。