`
newleague
  • 浏览: 1506942 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类

ISO-8859_1统一编码 java

 
阅读更多

Java中文问题一直困扰着很多初学者,如果了解了Java系统的中文问题原理,我们就可以对中文问题能够采取根本的解决之道。   
   
  最古老的解决方案是使用String的字节码转换,这种方案问题是不方便,我们需要破坏对象封装性,进行字节码转换。

  还有一种方式是对J2EE容器进行编码设置,如果J2EE应用系统脱离该容器,则会发生乱码,而且指定容器配置不符合J2EE应用和容器分离的原则。

  在Java内部运算中,涉及到的所有字符串都会被转化为UTF-8编码来进行运算。那么,在被Java转化之前,字符串是什么样的字符集? Java总是根据操作系统的默认编码字符集来决定字符串的初始编码,而且Java系统的输入和输出的都是采取操作系统的默认编码。

  因此,如果能统一Java系统的输入、输出和操作系统3者的编码字符集合,将能够使Java系统正确处理和显示汉字。这是处理Java系统汉字的一个原则,但是在实际项目中,能够正确抓住和控制住Java系统的输入和输出部分是比较难的。J2EE中,由于涉及到外部浏览器和数据库等,所以中文问题乱码显得非常突出。

  J2EE应用程序是运行在J2EE容器中。在这个系统中,输入途径有很多种:一种是通过页面表单打包成请求(request)发往服务器的;第二种是通过数据库读入;还有第3种输入比较复杂,JSP在第一次运行时总是被编译成Servlet,JSP中常常包含中文字符,那么编译使用javac时,Java将根据默认的操作系统编码作为初始编码。除非特别指定,如在Jbuilder/eclipse中可以指定默认的字符集。


  输出途径也有几种:第一种是JSP页面的输出。由于JSP页面已经被编译成Servlet,那么在输出时,也将根据操作系统的默认编码来选择输出编码,除非指定输出编码方式;还有输出途径是数据库,将字符串输出到数据库。

   

      由此看来,一个J2EE系统的输入输出是非常复杂,而且是动态变化的,而Java是跨平台运行的,在实际编译和运行中,都可能涉及到不同的操作系统,如果任由Java自由根据操作系统来决定输入输出的编码字符集,这将不可控制地出现乱码。


  正是由于Java的跨平台特性,使得字符集问题必须由具体系统来统一解决,所以在一个Java应用系统中,解决中文乱码的根本办法是明确指定整个应用系统统一字符集。
指定统一字符集时,到底是指定ISO8859_1 、GBK还是UTF-8呢?

  (1)如统一指定为ISO8859_1,因为目前大多数软件都是西方人编制的,他们默认的字符集就是ISO8859_1,包括操作系统Linux和数据库MySQL等。这样,如果指定Jive统一编码为ISO8859_1,那么就有下面3个环节必须把握:

  开发和编译代码时指定字符集为ISO8859_1。

  运行操作系统的默认编码必须是ISO8859_1,如Linux。

  在JSP头部声明:<%@ page contentType="text/html;charset=ISO8859_1" %>。

  (2)如果统一指定为GBK中文字符集,上述3个环节同样需要做到,不同的是只能运行在默认编码为GBK的操作系统,如中文Windows。

  统一编码为ISO8859_1和GBK虽然带来编制代码的方便,但是各自只能在相应的操作系统上运行。但是也破坏了Java跨平台运行的优越性,只在一定范围内行得通。例如,为了使得GBK编码在linux上运行,设置Linux编码为GBK。

  那么有没有一种除了应用系统以外不需要进行任何附加设置的中文编码根本解决方案呢?

  将Java/J2EE系统的统一编码定义为UTF-8。UTF-8编码是一种兼容所有语言的编码方式,惟一比较麻烦的就是要找到应用系统的所有出入口,然后使用UTF-8去“结扎”它。


  一个J2EE应用系统需要做下列几步工作:

  开发和编译代码时指定字符集为UTF-8。JBuilder和Eclipse都可以在项目属性中设置。

   
      使用过滤器,如果所有请求都经过一个Servlet控制分配器,那么使用Servlet的filter执行语句,将所有来自浏览器的请求(request)转换为UTF-8,因为浏览器发过来的请求包根据浏览器所在的操作系统编码,可能是各种形式编码。关键一句:

 

request.setCharacterEncoding("UTF-8")


  网上有此filter的源码。
  在JSP头部声明:

<%@ page contentType="text/html;charset= UTF-8" %>


  在Jsp的html代码中,声明UTF-8:

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">


  设定数据库连接方式是UTF-8。例如连接MYSQL时配置URL如下:

jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=UTF-8


  一般数据库都可以通过管理设置设定UTF-8。
其他和外界交互时能够设定编码时就设定UTF-8,例如读取文件,操作XML等。

  笔者以前在Jsp/Servlet时就采取这个原则,后来使用Struts、Tapestry、EJB、Hibernate、Jdon等框架时,从未被乱码困扰过,可以说适合各种架构。希望本方案供更多初学者分享,减少Java/J2EE的第一个拦路虎,也避免因为采取一些临时解决方案,导致中文问题一直出现在新的技术架构中。

 

 



 

 

分享到:
评论

相关推荐

    关于JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    ### 关于JAVA字符编码:Unicode, ISO-8859-1, GBK, UTF-8 编码及相互转换 在Java开发过程中,字符编码是处理文本数据的基础,不同的编码方式会影响数据的存储、传输以及显示。本文将详细介绍几种常见的字符编码...

    GBK GB2312 UTF-8 ISO-8859-1区别

    字符编码标准之GBK、GB2312、UTF-8和ISO-8859-1的比较 字符编码标准是计算机领域中的一项基本技术,用于将文字或符号转换为计算机能够识别的二进制代码。常见的字符编码标准有GBK、GB2312、UTF-8和ISO-8859-1等,...

    乱码 编码方式解决 gbk ISO8859-1 utf8 编码

    2. **ISO 8859-1编码**:ISO 8859-1是一种单字节编码方案,也被称为Latin-1,主要用于西欧语言。它包含128个基本ASCII字符以及128个额外的西欧语言特殊字符,但不支持中文等东亚语言。 3. **UTF-8编码**:UTF-8是...

    各种字符集编码表,包括iso-8859-1,gbk,gb18030, unicode

    本文将深入探讨四种常见的字符集编码:ISO-8859-1、GBK、GB18030以及Unicode,并结合Java国际化的字符集转换进行详细说明。 1. ISO-8859-1:这是一种西欧字符编码,包含拉丁字母、数字、标点符号和一些特殊字符。它...

    java_字符编码 Javajava_字符编码问题

    这里的关键在于:`str.getBytes("iso-8859-1")` 先将字符串转换为 ISO-8859-1 编码的字节数组,然后再使用 `new String(bytes, "gb2312")` 按照 GB2312 编码解码为字符串。 **2. HTTP 请求中的字符编码问题** 在...

    Java Web程序设计-1期 《Java Web程序设计》_经验技巧.doc

    这是因为Java默认使用Unicode编码,而数据库可能使用ISO-8859-1。在存储时,需要将Unicode字符串转换为ISO-8859-1,从数据库读取时再转换回来。例如,`new String(str.getBytes("gbk"), "iso-8859-1")` 和 `new ...

    多种语言(big5\gbk\gb2312\utf8\Shift_JIS\iso8859-1)的网页编码切换解决方案归纳

    不同的语言字符集有着不同的编码标准,常见的编码包括big5、gbk、gb2312、utf8、Shift_JIS、iso8859-1等。为了确保网页能够正确地展示各种语言,就需要一种有效的编码切换解决方案。 首先,Web服务器发送给客户端的...

    中文乱码问题解决.pdf

    这种方法试图通过在后台将ISO-8859-1编码的字符串转换为UTF-8编码。首先,从HTTP请求中获取参数(如`work`),然后使用`getBytes("iso-8859-1")`获取该字符串的字节表示,再使用`new String(bytes, "UTF-8")`将其...

    解决中文乱码问题-java

    在Java中,常用的编码有`ISO-8859-1`(也称为`latin1`)、`GBK`、`UTF-8`等。 ### 具体操作步骤 #### 1. 明确源编码 在处理来自HTTP请求的参数时,`request.getParameter()`方法默认使用`ISO-8859-1`编码读取参数...

    java乱码问题

    这段代码中,首先通过`getBytes("ISO-8859-1")`方法将字符串转换为ISO-8859-1编码的字节数组,然后使用`new String(...)`构造函数,将字节数组按照GBK编码重新解析为字符串。这里的关键在于两次编码的转换,如果原始...

    中文乱码问题处理.docx

    在后台中,尝试将接收到的ISO-8859-1编码的字符串转换为UTF-8,但是由于原始数据已经存在编码错误,这种方法无法正确解码出中文字符,反而导致了更多的乱码。 方法2是利用JavaScript的`encodeURI()`函数对URL中的...

    处理中文字符串的函数

    给定的函数名为`codeToString`,其功能是从ISO-8859-1编码格式转换为适合显示的Unicode(或具体的Java内部使用的UTF-16)格式的字符串。这是一个典型的字符集转换示例,在处理来自不同来源的数据时非常有用。下面...

    java字符串的各种编码转换

    - **定义**:ISO-8859-1是一种8位的字符编码标准,也称为Latin-1,主要用于表示西欧语言。 - **特点**: - 支持更多的字符集(256个字符),包括西欧国家的语言字符。 - 兼容ASCII字符集。 - **示例代码**: ```...

    java编程出现中文乱码解决方法一

    - 如果字符串非空,则使用`getBytes("ISO-8859-1")`将字符串转换为ISO-8859-1编码的字节数组。 - 接着使用`new String(byte[], "utf-8")`将字节数组转换回UTF-8编码的字符串。 - **异常处理**: - 在转换过程中...

    Java字符编码简介_动力节点Java学院整理

    本文主要探讨了Java中与字符编码相关的基础知识,包括ISO8859-1、GB2312、GBK、Unicode以及UTF编码。 首先,ISO8859-1是一种早期的单字节编码,主要用于表示西欧语言,其编码范围从0到255,无法表示中文字符。尽管...

    java_character-set.rar_java Character

    常见的字符集有ASCII、ISO-8859-1、GBK、UTF-8等。在Java中,最基础的字符集是Unicode,它包含了世界上几乎所有的字符,提供了统一的编码方式。 Java的`Character`类是处理字符的核心工具。它提供了许多方法,如...

    java字符编码错误整理大全

    例如,一个使用ISO-8859-1编码的.properties文件,在使用GBK编码进行解析时会出现乱码。解决方法: ```java // 使用指定编码读取文件 String content = new String(readFileToByteArray("path/to/file....

    java中文乱码分析

    - **方法一**:使用`new String(request.getParameter("param").getBytes("ISO-8859-1"), "UTF-8")`来先对获取的值以ISO-8859-1编码,再以UTF-8解码,从而获取正确的数据。 - **方法二**:通过`request.setCharacter...

    Java Web中请求消息和响应消息中文乱码问题的研究与对策.pdf

    解决办法是手动使用ISO-8859-1重新编码接收到的参数,然后用UTF-8解码,例如`new String(name.getBytes("ISO8859-1"), "UTF-8")`。 对于响应消息的中文乱码,主要是响应体的编码设置。在Servlet中,可以使用...

    字符集--Java编码相关.doc

    ISO8859_1适用于西方字符,适合与Linux和MySQL等西方软件配合;GBK是针对中文的编码,适用于Windows环境。然而,这两种方案都要求开发、编译和运行环境的编码与之匹配,限制了Java的跨平台优势。 相比之下,UTF-8...

Global site tag (gtag.js) - Google Analytics