`
wangyanlong0107
  • 浏览: 504673 次
  • 性别: Icon_minigender_1
  • 来自: 沈阳
社区版块
存档分类
最新评论

【转】java 与 iso-8859-1 编码

 
阅读更多

今天又研究了一下字符编码。写了些测试代码,算是比较了解了。 

主要是研究 iso-8859-1 
建议先看这篇:《第二篇:JAVA字符编码系列二:Unicode,ISO-8859-1,GBK,UTF-8编码及...》 
http://my.oschina.net/whp/blog/36846 

然后再看看 iso-8859-1 的定义。 
http://baike.baidu.com/view/2613676.htm 


这一句话非常关键: 
因为ISO-8859-1编码范围使用了单字节内的所有空间,在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之,把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。这是个很重要的特性,MySQL数据库默认编码是Latin1就是利用了这个特性。 

在工作中,从 web 提交的数据,到了 web 容器后,变成了 iso-8859-1 的字符串。 
可以认为,被执行了如下代码: 
byte[] buf_gbk = s.getBytes("gbk"); 
String sIso88591 = new String(buf_gbk, "iso-8859-1"); 

所以,我们获取数据时需要执行: 
byte[] buf_iso88591 = sIso88591.getBytes("iso-8859-1"); 
String sGbk = new String(buf_iso88591, "gbk"); 

将编码转回 gbk。
 

我们本应该用gbk的编码来读取数据并解码成字符串,但结果却采用了ISO-8859-1的编码,导致生成一个错误的字符串。要恢复,就要先把字符串恢复成原始字节数组,然后通过正确的编码gbk再次解码成字 符串(即把以gbk编码的数据转成unicode的字符串)。注意,jvm中的字符串永远都是unicode编码的
但编码转换并不是负负得正那么简单,这里我们之所以可以正确地转换回来,是因为 ISO8859-1 是单字节编码,所以每个字节被按照原样转换为String ,也就是说,虽然这是一个错误的转换,但编码没有改变,所以我们仍然有机会把编码转换回来!


看完这两篇后,写了段测试代码: 

Java代码   收藏代码
  1. package com.fsti.enc;  
  2.   
  3. public class EncUtil {  
  4.       
  5.     public static String getHex(byte b)  
  6.     {  
  7.         String hex = Integer.toHexString(b & 0xff);  
  8.         if(hex.length()==1)  
  9.         {  
  10.             hex = "0" + hex;  
  11.         }  
  12.         return hex;  
  13.     }  
  14.   
  15.     public static void showBytes(byte[] buffer)  
  16.     {  
  17.         for(int i=0; i<buffer.length; i++)  
  18.         {  
  19.             System.out.print( getHex(buffer[i]) + " ");  
  20.         }  
  21.         System.out.println();  
  22.   
  23.     }  
  24.   
  25.     public static void showChar(String s)  
  26.     {  
  27.         for(int i=0; i<s.length(); i++)  
  28.         {  
  29.             System.out.print( getHex((byte)(s.charAt(i))) + " ");  
  30.         }  
  31.         System.out.println();  
  32.   
  33.     }  
  34.   
  35. }  


Java代码   收藏代码
  1. package com.fsti.enc;  
  2.   
  3.   
  4. /** 
  5.  * http://baike.baidu.com/view/2613676.htm 
  6.  * @author zch 
  7.  * @date Apr 20, 2012 
  8.  * 
  9.  */  
  10. public class Test_Iso8859_1 extends EncUtil{  
  11.     public static String s =   
  12.         "http://baike.baidu.com/view/2613676.htm\r\n" +  
  13.         "  ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF," +  
  14.         "0x00-0x7F之间完全和ASCII一致,0x80-0x9F之间是控制字符,0xA0-0xFF之间是文字符号。" +  
  15.         "ISO-8859-1收录的字符除ASCII收录的字符外,还包括西欧语言、希腊语、泰语、阿拉伯语、希伯来语" +  
  16.         "对应的文字符号。欧元符号出现的比较晚,没有被收录在ISO-8859-1当中。\r\n" +  
  17.         "  因为ISO-8859-1编码范围使用了单字节内的所有空间,在支持ISO-8859-1的系统中传输和存储其他任何" +  
  18.         "编码的字节流都不会被抛弃。换言之,把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。这是" +  
  19.         "个很重要的特性,MySQL数据库默认编码是Latin1就是利用了这个特性。ASCII编码是一个7位的容器," +  
  20.         "ISO-8859-1编码是一个8位的容器。\r\n" +  
  21.         "  Latin1是ISO-8859-1的别名,有些环境下写作Latin-1。";  
  22.   
  23.     public static void testChar(char c) throws Exception  
  24.     {  
  25.         //char c = '中';  
  26.         System.out.println( c );  
  27.         System.out.println( (int)c );  
  28.         System.out.println( Integer.toHexString(c) );  
  29.         if(c>255)  
  30.         {  
  31.             byte low = (byte)(c / 256);  
  32.             byte hight = (byte)(c % 256);  
  33.             System.out.println( getHex(low) );  
  34.             System.out.println( getHex(hight) );  
  35.         }  
  36.     }  
  37.       
  38.     public static void testString() throws Exception  
  39.     {  
  40.         for(int i=0; i<s.length(); i++)  
  41.         {  
  42.             testChar(s.charAt(i));  
  43.         }  
  44.     }  
  45.       
  46.   
  47.     public static void testString_02() throws Exception  
  48.     {  
  49.           
  50.         StringBuffer sb = new StringBuffer();  
  51.         for(int i=0; i<s.length(); i++)  
  52.         {  
  53.             char c = s.charAt(i);  
  54.             if(c>255)  
  55.             {  
  56.                 char hight = (char)(c / 256);  
  57.                 char low = (char)(c % 256);  
  58.                 sb.append(hight);  
  59.                 sb.append(low);  
  60.             }  
  61.             else  
  62.             {  
  63.                 sb.append(c);  
  64.             }  
  65.         }  
  66.         String sIso88591 = sb.toString();  
  67.         System.out.println(sIso88591);  
  68.           
  69.         byte[] buf = sIso88591.getBytes("iso-8859-1");  
  70.         showBytes(buf);  
  71.         String sUtf_8 = new String(buf, "gbk");  
  72.         System.out.println(sUtf_8);  
  73.     }  
  74.       
  75.     public static void testString_03() throws Exception  
  76.     {  
  77.         System.out.println("s:" + s);  
  78.           
  79.         byte[] buf_gbk = s.getBytes("gbk");  
  80.         System.out.println("buf_gbk:");  
  81.         showBytes(buf_gbk);  
  82.           
  83.         StringBuffer sb = new StringBuffer();  
  84.         for(int i=0; i<buf_gbk.length; i++)  
  85.         {  
  86.             char c = (char)buf_gbk[i];  
  87.             sb.append( c );  
  88.             System.out.println(c + ":" + getHex((byte)c));  
  89.         }  
  90.           
  91.         String sIso88591 = sb.toString();  
  92.         System.out.println("sIso88591:");  
  93.         System.out.println(sIso88591);  
  94.         System.out.println("showChar(sIso88591):");  
  95.         showChar(sIso88591);  
  96.           
  97.         byte[] buf_iso88591 = sIso88591.getBytes("iso-8859-1");  
  98.         System.out.println("buf_iso88591:");  
  99.         showBytes(buf_iso88591);  
  100.         String sUtf_8 = new String(buf_iso88591, "gbk");  
  101.         System.out.println(sUtf_8);  
  102.   
  103.     }  
  104.       
  105.     public static void testString_04() throws Exception  
  106.     {  
  107.         System.out.println("s:" + s);  
  108.           
  109.         byte[] buf_gbk = s.getBytes("gbk");  
  110.         System.out.println("buf_gbk:");  
  111.         showBytes(buf_gbk);  
  112.           
  113.         String sIso88591 = new String(buf_gbk, "iso-8859-1");  
  114.           
  115.         System.out.println("sIso88591:");  
  116.         System.out.println(sIso88591);  
  117.         System.out.println("showChar(sIso88591):");  
  118.         showChar(sIso88591);  
  119.           
  120.         byte[] buf_iso88591 = sIso88591.getBytes("iso-8859-1");  
  121.         System.out.println("buf_iso88591:");  
  122.         showBytes(buf_iso88591);  
  123.         String sGbk = new String(buf_iso88591, "gbk");  
  124.         System.out.println(sGbk);  
  125.   
  126.     }  
  127.       
  128.     /** 
  129.      * @param args 
  130.      */  
  131.     public static void main(String[] args) throws Exception{  
  132.         //testString();  
  133.         //testString_02();  
  134.         testString_04();  
  135.     }  
  136.   
  137. }  



参考资料: 
http://my.oschina.net/whp/blog/36846 
http://baike.baidu.com/view/2613676.htm

 

分享到:
评论

相关推荐

    水泥袋检测系统源码和数据集:改进yolo11-DCNV4.zip

    水泥袋检测系统源码和数据集:改进yolo11-DCNV4

    德克萨斯扑克分析器Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    使用Plotly绘制散点图-柱状图-折线图-三维图-饼状图

    使用Plotly绘制散点图_柱状图_折线图_三维图_饼状图

    金银岛谜题Matlab源代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    光敏电阻接线图

    光敏电阻接线图

    MAX30102心率血样传感器原理图.pdf

    MAX30102心率血样传感器原理图

    测试两个多维分布之间的差异(2-d K-S检验,n-d能量检验)Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    胎儿脑部异常检测系统源码和数据集:改进yolo11-convnextv2.zip

    胎儿脑部异常检测系统源码和数据集:改进yolo11-convnextv2

    MATLAB版本的经典游戏,俄罗斯方块.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    基于Kotlin语言的安卓Camera2拍照录像设计源码

    本项目为基于Kotlin语言的安卓Camera2拍照录像设计源码,总计包含48个文件,涵盖17个XML配置文件、10个WEBP图片文件、5个Kotlin源代码文件、3个Git忽略文件、3个Gradle配置文件、2个Markdown文档、2个属性文件、1个Gradle脚本文件、1个APK安装包以及1个JSON文件。该源码适用于实现安卓设备的拍照和录像功能。

    【C#】设计模式大作业_pgj.zip

    【C#】设计模式大作业_pgj

    基于ruoyi框架的校园后勤Vue前端设计源码

    本项目是一款基于ruoyi框架开发的校园后勤Vue前端设计源码,包含358个文件,涵盖122个Vue组件、93个SVG图标、87个JavaScript脚本、25个PNG图片、10个SCSS样式表、3个批处理脚本、3个JPG图片、2个HTML页面、2个JSON配置文件、2个备份文件。该代码适用于校园后勤管理系统,旨在提升校园后勤服务效率。

    基于Spring Boot框架的校园外卖点餐系统设计源码

    该项目是基于Spring Boot框架的校园外卖点餐系统设计源码,包含162个文件,包括142个Java源文件、16个XML配置文件、2个YML配置文件、1个Git忽略文件和1个XLSX文件。系统采用前后端分离架构,结合Mybatis、Spring Cache、阿里云OSS、Swagger、POI和WebSocket等技术,支持菜品、套餐、订单管理、支付、报表统计及用户催单等功能。系统分为后台管理端和用户端,用户端通过微信小程序实现。我的主要工作包括管理端员工及菜品信息的增删改查功能。

    基于QT框架的OpenCV人脸识别.zip

    基于QT框架的OpenCV人脸识别

    使用赫斯顿模型和条件蒙特卡洛方法计算欧洲看涨期权价格Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    图像处理新思路:微生物菌落图像分割.zip

    图像处理新思路:微生物菌落图像分割

    基于Python核心的跨语言智能补全插件YouCompleteMe设计源码

    该项目是一款基于Python核心的跨语言智能补全插件YouCompleteMe的设计源码,包含131个文件,涵盖57个Python文件、23个Vim配置文件、6个Markdown文件、5个C/C++源文件、3个YAML配置文件、3个文本文件以及少量其他类型的文件。该插件支持Python、C++、Shell、C等多种编程语言,旨在为开发者提供高效的代码补全功能。

    数据集 + 英国MIDNORCO沉积物岩性数据集

    英国MIDNORCO沉积物岩性数据集 内容: Fyfe, RM (2014) 发布的数据集详细记录了位于英国的MIDNORCO沉积物岩心的岩性特征。此数据集共包含12个数据点,提供了关于该地区地质结构的重要信息。通过访问以下链接可获取完整数据集:"" ()。这些数据对于研究古环境变化、地质年代测定以及了解地球历史具有重要意义。

    数据集 + 威德尔海豹潜水时长数据集

    内容: 本数据集记录了来自Filchner Trough的威德尔海豹(标记为FIL2014_wed_a_m_03)的潜水时长信息,由Bornemann H、Oosthuizen WC、Schröder M等人于2014年发布。该数据集包含了2033个数据点,提供了对单只威德尔海豹潜水行为的详细观察。通过访问以下链接可以获取完整的数据集详情:"" ()。这项研究有助于我们更好地理解威德尔海豹在南极海域中的生活习性与行为模式。

    【光学】基于matlab GUI干涉条纹识别(干涉条纹数 条纹间距)【含Matlab源码 12018期】.zip

    Matlab领域上传的视频是由对应的完整代码运行得来的,完整代码皆可运行,亲测可用,适合小白; 1、从视频里可见完整代码的内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

Global site tag (gtag.js) - Google Analytics