`
wangyanlong0107
  • 浏览: 502708 次
  • 性别: Icon_minigender_1
  • 来自: 沈阳
社区版块
存档分类
最新评论

【转】java 与 iso-8859-1 编码

 
阅读更多

今天又研究了一下字符编码。写了些测试代码,算是比较了解了。 

主要是研究 iso-8859-1 
建议先看这篇:《第二篇:JAVA字符编码系列二:Unicode,ISO-8859-1,GBK,UTF-8编码及...》 
http://my.oschina.net/whp/blog/36846 

然后再看看 iso-8859-1 的定义。 
http://baike.baidu.com/view/2613676.htm 


这一句话非常关键: 
因为ISO-8859-1编码范围使用了单字节内的所有空间,在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之,把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。这是个很重要的特性,MySQL数据库默认编码是Latin1就是利用了这个特性。 

在工作中,从 web 提交的数据,到了 web 容器后,变成了 iso-8859-1 的字符串。 
可以认为,被执行了如下代码: 
byte[] buf_gbk = s.getBytes("gbk"); 
String sIso88591 = new String(buf_gbk, "iso-8859-1"); 

所以,我们获取数据时需要执行: 
byte[] buf_iso88591 = sIso88591.getBytes("iso-8859-1"); 
String sGbk = new String(buf_iso88591, "gbk"); 

将编码转回 gbk。
 

我们本应该用gbk的编码来读取数据并解码成字符串,但结果却采用了ISO-8859-1的编码,导致生成一个错误的字符串。要恢复,就要先把字符串恢复成原始字节数组,然后通过正确的编码gbk再次解码成字 符串(即把以gbk编码的数据转成unicode的字符串)。注意,jvm中的字符串永远都是unicode编码的
但编码转换并不是负负得正那么简单,这里我们之所以可以正确地转换回来,是因为 ISO8859-1 是单字节编码,所以每个字节被按照原样转换为String ,也就是说,虽然这是一个错误的转换,但编码没有改变,所以我们仍然有机会把编码转换回来!


看完这两篇后,写了段测试代码: 

Java代码   收藏代码
  1. package com.fsti.enc;  
  2.   
  3. public class EncUtil {  
  4.       
  5.     public static String getHex(byte b)  
  6.     {  
  7.         String hex = Integer.toHexString(b & 0xff);  
  8.         if(hex.length()==1)  
  9.         {  
  10.             hex = "0" + hex;  
  11.         }  
  12.         return hex;  
  13.     }  
  14.   
  15.     public static void showBytes(byte[] buffer)  
  16.     {  
  17.         for(int i=0; i<buffer.length; i++)  
  18.         {  
  19.             System.out.print( getHex(buffer[i]) + " ");  
  20.         }  
  21.         System.out.println();  
  22.   
  23.     }  
  24.   
  25.     public static void showChar(String s)  
  26.     {  
  27.         for(int i=0; i<s.length(); i++)  
  28.         {  
  29.             System.out.print( getHex((byte)(s.charAt(i))) + " ");  
  30.         }  
  31.         System.out.println();  
  32.   
  33.     }  
  34.   
  35. }  


Java代码   收藏代码
  1. package com.fsti.enc;  
  2.   
  3.   
  4. /** 
  5.  * http://baike.baidu.com/view/2613676.htm 
  6.  * @author zch 
  7.  * @date Apr 20, 2012 
  8.  * 
  9.  */  
  10. public class Test_Iso8859_1 extends EncUtil{  
  11.     public static String s =   
  12.         "http://baike.baidu.com/view/2613676.htm\r\n" +  
  13.         "  ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF," +  
  14.         "0x00-0x7F之间完全和ASCII一致,0x80-0x9F之间是控制字符,0xA0-0xFF之间是文字符号。" +  
  15.         "ISO-8859-1收录的字符除ASCII收录的字符外,还包括西欧语言、希腊语、泰语、阿拉伯语、希伯来语" +  
  16.         "对应的文字符号。欧元符号出现的比较晚,没有被收录在ISO-8859-1当中。\r\n" +  
  17.         "  因为ISO-8859-1编码范围使用了单字节内的所有空间,在支持ISO-8859-1的系统中传输和存储其他任何" +  
  18.         "编码的字节流都不会被抛弃。换言之,把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。这是" +  
  19.         "个很重要的特性,MySQL数据库默认编码是Latin1就是利用了这个特性。ASCII编码是一个7位的容器," +  
  20.         "ISO-8859-1编码是一个8位的容器。\r\n" +  
  21.         "  Latin1是ISO-8859-1的别名,有些环境下写作Latin-1。";  
  22.   
  23.     public static void testChar(char c) throws Exception  
  24.     {  
  25.         //char c = '中';  
  26.         System.out.println( c );  
  27.         System.out.println( (int)c );  
  28.         System.out.println( Integer.toHexString(c) );  
  29.         if(c>255)  
  30.         {  
  31.             byte low = (byte)(c / 256);  
  32.             byte hight = (byte)(c % 256);  
  33.             System.out.println( getHex(low) );  
  34.             System.out.println( getHex(hight) );  
  35.         }  
  36.     }  
  37.       
  38.     public static void testString() throws Exception  
  39.     {  
  40.         for(int i=0; i<s.length(); i++)  
  41.         {  
  42.             testChar(s.charAt(i));  
  43.         }  
  44.     }  
  45.       
  46.   
  47.     public static void testString_02() throws Exception  
  48.     {  
  49.           
  50.         StringBuffer sb = new StringBuffer();  
  51.         for(int i=0; i<s.length(); i++)  
  52.         {  
  53.             char c = s.charAt(i);  
  54.             if(c>255)  
  55.             {  
  56.                 char hight = (char)(c / 256);  
  57.                 char low = (char)(c % 256);  
  58.                 sb.append(hight);  
  59.                 sb.append(low);  
  60.             }  
  61.             else  
  62.             {  
  63.                 sb.append(c);  
  64.             }  
  65.         }  
  66.         String sIso88591 = sb.toString();  
  67.         System.out.println(sIso88591);  
  68.           
  69.         byte[] buf = sIso88591.getBytes("iso-8859-1");  
  70.         showBytes(buf);  
  71.         String sUtf_8 = new String(buf, "gbk");  
  72.         System.out.println(sUtf_8);  
  73.     }  
  74.       
  75.     public static void testString_03() throws Exception  
  76.     {  
  77.         System.out.println("s:" + s);  
  78.           
  79.         byte[] buf_gbk = s.getBytes("gbk");  
  80.         System.out.println("buf_gbk:");  
  81.         showBytes(buf_gbk);  
  82.           
  83.         StringBuffer sb = new StringBuffer();  
  84.         for(int i=0; i<buf_gbk.length; i++)  
  85.         {  
  86.             char c = (char)buf_gbk[i];  
  87.             sb.append( c );  
  88.             System.out.println(c + ":" + getHex((byte)c));  
  89.         }  
  90.           
  91.         String sIso88591 = sb.toString();  
  92.         System.out.println("sIso88591:");  
  93.         System.out.println(sIso88591);  
  94.         System.out.println("showChar(sIso88591):");  
  95.         showChar(sIso88591);  
  96.           
  97.         byte[] buf_iso88591 = sIso88591.getBytes("iso-8859-1");  
  98.         System.out.println("buf_iso88591:");  
  99.         showBytes(buf_iso88591);  
  100.         String sUtf_8 = new String(buf_iso88591, "gbk");  
  101.         System.out.println(sUtf_8);  
  102.   
  103.     }  
  104.       
  105.     public static void testString_04() throws Exception  
  106.     {  
  107.         System.out.println("s:" + s);  
  108.           
  109.         byte[] buf_gbk = s.getBytes("gbk");  
  110.         System.out.println("buf_gbk:");  
  111.         showBytes(buf_gbk);  
  112.           
  113.         String sIso88591 = new String(buf_gbk, "iso-8859-1");  
  114.           
  115.         System.out.println("sIso88591:");  
  116.         System.out.println(sIso88591);  
  117.         System.out.println("showChar(sIso88591):");  
  118.         showChar(sIso88591);  
  119.           
  120.         byte[] buf_iso88591 = sIso88591.getBytes("iso-8859-1");  
  121.         System.out.println("buf_iso88591:");  
  122.         showBytes(buf_iso88591);  
  123.         String sGbk = new String(buf_iso88591, "gbk");  
  124.         System.out.println(sGbk);  
  125.   
  126.     }  
  127.       
  128.     /** 
  129.      * @param args 
  130.      */  
  131.     public static void main(String[] args) throws Exception{  
  132.         //testString();  
  133.         //testString_02();  
  134.         testString_04();  
  135.     }  
  136.   
  137. }  



参考资料: 
http://my.oschina.net/whp/blog/36846 
http://baike.baidu.com/view/2613676.htm

 

分享到:
评论

相关推荐

    java 编码 UTF-8、ISO-8859-1、GBK

    UTF-8、ISO-8859-1 和 GBK 是三种常见的字符编码格式,每种都有其特定的应用场景和优缺点。 首先,UTF-8 是一种广泛使用的多字节编码,能够表示几乎所有的Unicode字符,包括中文。在Java中,UTF-8 支持国际化,是...

    JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    ### JAVA字符编码详解:Unicode, ISO-8859-1, GBK, UTF-8 及其相互转换 #### 一、引言 在Java编程中,字符编码的管理和转换是一项基本而又重要的任务。不同的编码标准适用于不同的场景,而理解和掌握这些编码之间...

    关于JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    ### 关于JAVA字符编码:Unicode, ISO-8859-1, GBK, UTF-8 编码及相互转换 在Java开发过程中,字符编码是处理文本数据的基础,不同的编码方式会影响数据的存储、传输以及显示。本文将详细介绍几种常见的字符编码...

    OC GZIP解压/压缩ISO-8859-1编码格式

    标题提到的"OC GZIP解压/压缩ISO-8859-1编码格式"涉及到的是Objective-C(简称OC)中的GZIP操作以及字符编码ISO-8859-1。这里我们将深入探讨这两个知识点。 首先,让我们来了解一下`GZIP`。GZIP是一种基于DEFLATE...

    GBK GB2312 UTF-8 ISO-8859-1区别

    字符编码标准之GBK、GB2312、UTF-8和ISO-8859-1的比较 字符编码标准是计算机领域中的一项基本技术,用于将文字或符号转换为计算机能够识别的二进制代码。常见的字符编码标准有GBK、GB2312、UTF-8和ISO-8859-1等,...

    乱码 编码方式解决 gbk ISO8859-1 utf8 编码

    2. **ISO 8859-1编码**:ISO 8859-1是一种单字节编码方案,也被称为Latin-1,主要用于西欧语言。它包含128个基本ASCII字符以及128个额外的西欧语言特殊字符,但不支持中文等东亚语言。 3. **UTF-8编码**:UTF-8是...

    各种字符集编码表,包括iso-8859-1,gbk,gb18030, unicode

    本文将深入探讨四种常见的字符集编码:ISO-8859-1、GBK、GB18030以及Unicode,并结合Java国际化的字符集转换进行详细说明。 1. ISO-8859-1:这是一种西欧字符编码,包含拉丁字母、数字、标点符号和一些特殊字符。它...

    ISO-8859.docx

    在Java中,当我们从客户端接收数据时,有时数据可能是按照ISO-8859-1编码的。如果我们要正确处理这些数据,需要将其转换为Java默认或者更通用的UTF-8编码。转换的代码如下所示: ```java public static String ...

    java编码格式转换

    - 这种转换会导致乱码,因为GBK编码的字节流不能直接转换为ISO-8859-1编码。 - 解决方法:先将GBK编码的字节流转换为Unicode,然后再从Unicode转换为ISO-8859-1。 - 示例:`String s = "中文"; byte[] gbks = s....

    java文件字符编码检测和转换

    附件中:FileEncodeDetector.java 此文件可以检测指定文件的编码格式 public static String getFileEncode(File file) {...} 附件中:FileCharsetConverter.java 此文件可以实现两个编码的相互转换 ...

    Java文件编码转换源码

    ISO-8859-1是一种单字节编码,主要用于西欧语言,如果需要支持,只需要将`Charset.forName()`中的编码名替换为"ISO-8859-1"即可。 在实际应用中,确保正确选择编码是至关重要的,否则可能会导致乱码问题。因此,...

    文件代码类型的相互转换,Shift_JIS、EUC-JP、ISO-2022-JP、 Unicode、UTF-8

    实现不同文件代码类型,诸如 Shift_JIS、EUC-JP、ISO-2022-JP、 Unicode、UTF-8 的相互変換,FREE软件

    EncodingDetect.java自动获取文件的编码.rar

    java自动获取文件的编码,智能识别文件编码,支持本地file及指定url的编码识别,支持多达40余种编码的识别,包括最常见的UTF-8,GBK,GB2312,BIG5,UNICODE,ISO8859_1,ASCII等,FileUtil.java里有对...

    java转码代码

    在这个场景下,"java转码代码"指的是用于解决Java程序中遇到的乱码问题的代码段,而"ISOtoGbk.java"可能是一个源代码文件,专门用于将遵循ISO-8859-1编码的字符转换为GBK编码。 GBK是中文环境下广泛使用的字符编码...

    java字符串的各种编码转换

    - **定义**:ISO-8859-1是一种8位的字符编码标准,也称为Latin-1,主要用于表示西欧语言。 - **特点**: - 支持更多的字符集(256个字符),包括西欧国家的语言字符。 - 兼容ASCII字符集。 - **示例代码**: ```...

    java编码转换工具

    java编码转换工具

    java字符串编码转换

    这里 `getString` 方法默认返回的是按照ISO-8859-1编码的字符串。通过 `getBytes("ISO-8859-1")` 和 `new String(..., "GB2312")` 的组合,可以将该字符串转换为GB2312编码。 **3. 浏览器与服务器间的编码一致性** ...

    mail-iso-2022-jp:一个修补程序,为具有“ iso-2022-jp”转换功能的“邮件” gem提供

    使用此修补程序,您可以轻松发送带有ISO-2022-JP编码的邮件(所谓的“ JIS-CODE”)。 (ja) mail-iso-2022-jpは, に対するパッチです。チです利用するとISO-2022-JP (いわゆる「JISコード」)でのメール送信が...

    Java判断文件编码格式 - 明明是悟空 - 博客园1

    然而,这种方法仅适用于UTF-8的检测,且无法识别其他编码格式,如GBK、ISO-8859-1等。当需要处理各种未知编码格式的文件时,可以借助第三方库cpdetector。 cpdetector是一个轻量级的开源项目,它的大小大约为500KB...

    Java Web程序设计-1期 《Java Web程序设计》_经验技巧.doc

    这是因为Java默认使用Unicode编码,而数据库可能使用ISO-8859-1。在存储时,需要将Unicode字符串转换为ISO-8859-1,从数据库读取时再转换回来。例如,`new String(str.getBytes("gbk"), "iso-8859-1")` 和 `new ...

Global site tag (gtag.js) - Google Analytics