`
lwt_cedric
  • 浏览: 116563 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

String.getBytes()方法中的中文编码问题

    博客分类:
  • java
阅读更多
String.getBytes()的问题
String的getBytes()方法是得到一个字串的字节数组,这是众所周知的。但特别要注意的是,本方法将返回该操作系统默认的编码格式的字节数组。如果你在使用这个方法时不考虑到这一点,你会发现在一个平台上运行良好的系统,放到另外一台机器后会产生意想不到的问题。比如下面的程序,

   1. class TestCharset
   2. {
   3.
   4.     public static void main(String[] args)
   5.     {
   6.         new TestCharset().execute();
   7.     }
   8.
   9.     private void execute() {
  10.         String s = "Hello!你好!";
  11.        
  12.         byte[] bytes = s.getBytes();
  13.
  14.         System.out.println("bytes lenght is:" + bytes.length);
  15.
  16.
  17.     }
  18.
  19. }


在一个中文WindowsXP系统下,运行时,结果为:
bytes lenght is:12

但是如果放到了一个英文的UNIX环境下运行:
$ java TestCharset
bytes lenght is:9

如果你的程序依赖于该结果,将在后续操作中引起问题。为什么在一个系统中结果为12,而在另外一个却变成了9了呢?上面已经提到了,该方法是和平台(编码)相关的。在中文操作系统中,getBytes方法返回的是一个GBK或者GB2312的中文编码的字节数组,其中中文字符,各占两个字节。而在英文平台中,一般的默认编码是“ISO-8859-1”,每个字符都只取一个字节(而不管是否非拉丁字符)。
Java中的编码支持

Java是支持多国编码的,在Java中,字符都是以Unicode进行存储的,比如,“你”字的Unicode编码是“4f60”,我们可以通过下面的实验代码来验证:

   1. class TestCharset
   2. {
   3.
   4.     public static void main(String[] args)
   5.     {
   6.         char c = '你';
   7.         int i = c;
   8.         System.out.println(c);
   9.         System.out.println(i);
  10.     }
  11.
  12. }


不管你在任何平台上执行,都会有相同的输出:

----------------- output ------------------

20320

20320就是Unicode “4f60”的整数值。其实,你可以反编译上面的类,可以发现在生成的.class文件中字符“你”(或者其它任何中文字串)本身就是以Unicode编码进行存储的:

   1.         char c = 'u4F60';
   2.         ... ...


即使你知道了编码的编码格式,比如:
javac -encoding GBK TestCharset.java
编译后生成的.class文件中仍然是以Unicode格式存储中文字符或字符串的。
使用String.getBytes(String charset)方法

所以,为了避免这种问题,我建议大家都在编码中使用String.getBytes(String charset)方法。下面我们将从字串分别提取ISO-8859-1和GBK两种编码格式的字节数组,看看会有什么结果:

   1. class TestCharset
   2. {
   3.
   4.     public static void main(String[] args)
   5.     {
   6.         new TestCharset().execute();
   7.     }
   8.
   9.     private void execute() {
  10.         String s = "Hello!你好!";
  11.        
  12.         byte[] bytesISO8859 =null;
  13.         byte[] bytesGBK = null;
  14.
  15.         try
  16.         {
  17.             bytesISO8859 = s.getBytes("iso-8859-1");
  18.             bytesGBK = s.getBytes("GBK");
  19.         }
  20.         catch (java.io.UnsupportedEncodingException e)
  21.         {
  22.             e.printStackTrace();
  23.         }
  24.
  25.         System.out.println("--------------   8859 bytes:");
  26.         System.out.println("bytes is:     " + arrayToString(bytesISO8859));
  27.         System.out.println("hex format is:" + encodeHex(bytesISO8859));
  28.         System.out.println();
  29.
  30.         System.out.println("--------------   GBK bytes:");
  31.         System.out.println("bytes is:     " + arrayToString(bytesGBK));
  32.         System.out.println("hex format is:" + encodeHex(bytesGBK));
  33.
  34.     }
  35.
  36.     public static final String encodeHex (byte[] bytes) {
  37.         StringBuffer buff = new StringBuffer(bytes.length * 2);
  38.         String b;
  39.         for (int i=0; i<bytes.length ; i++)
  40.         {
  41.             b = Integer.toHexString(bytes[i]);
  42.             // byte是两个字节的,而上面的Integer.toHexString会把字节扩展为4个字节
  43.             buff.append(b.length() > 2 ? b.substring(6,8) : b);
  44.             buff.append(" ");
  45.         }
  46.         return buff.toString();
  47.     }
  48.
  49.     public static final String arrayToString (byte[] bytes) {
  50.         StringBuffer buff = new StringBuffer();
  51.         for (int i=0; i<bytes.length ; i++)
  52.         {
  53.             buff.append(bytes[i] + " ");
  54.         }
  55.         return buff.toString();
  56.     }
  57.
  58. }

执行上面程序将打印出:

   1. --------------
   2.  8859 bytes:
   3. bytes is:     72 101 108 108 111 33 63 63 63
   4. hex format is:48 65 6c 6c 6f 21 3f 3f 3f
   5.
   6. --------------
   7.  GBK bytes:
   8. bytes is:     72 101 108 108 111 33 -60 -29 -70 -61 -93 -95
   9. hex format is:48 65 6c 6c 6f 21 c4 e3 ba c3 a3 a1


可见,在s中提取的8859-1格式的字节数组长度为9,中文字符都变成了“63”,ASCII码为63的是“?”,一些国外的程序在国内中文环境下运行时, 经常出现乱码,上面布满了“?”,就是因为编码没有进行正确处理的结果。而提取的GBK编码的字节数组中正确得到了中文字符的GBK编码。字符 “你”“好”“!”的GBK编码分别是:“c4e3”“bac3”“a3a1”。得到了正确的以GBK编码的字节数组,以后需要还原为中文字串时,可以使用下面方法:
new String(byte[] bytes, String charset)

例如:
str = new String(str.getBytes("iso-8859-1"), "GBK");
分享到:
评论

相关推荐

    Java初学小作业,文件操作

    Java初学小作业,文件操作

    一键创建WiFi无线热点工具

    本工具用于在支持无线网络的电脑上输入SSID和密码后一键创建WIFI热点

    4.3 信息检索与问题解决 openmv+STM32串口通信 openmv串口通信openmv识别物体 openmv神经网络训练 openmv openmv+STM32串口通信 op.md

    4.3 信息检索与问题解决 openmv+STM32串口通信 openmv串口通信openmv识别物体 openmv神经网络训练 openmv openmv+STM32串口通信 op

    机器人轨迹定位中EKF算法与里程计算法的精度对比及应用

    内容概要:本文详细探讨了EKF(扩展卡尔曼滤波)算法与传统里程计算法在机器人轨迹定位和跟踪中的性能差异。文中通过具体代码实例展示了两种方法的工作原理,并通过实验数据对比了两者的定位精度。里程计算法由于误差累积问题,定位精度较低,平均误差达到1.0283米;而EKF算法通过融合多种传感器数据并不断修正,显著提高了定位精度,平均误差仅为0.0716米。此外,文章还讨论了EKF算法的局限性和应用场景。 适合人群:从事机器人研究、开发的技术人员,尤其是关注机器人定位和导航系统的工程师。 使用场景及目标:适用于需要高精度机器人定位和跟踪的应用场景,如自动驾驶、仓储物流自动化等。目标是帮助技术人员选择合适的定位算法,优化机器人系统的性能。 其他说明:尽管EKF算法在大多数情况下表现出色,但在某些极端条件下(如急转弯)仍可能存在误差,此时可以考虑使用更高级的滤波算法,如UKF(无迹卡尔曼滤波)。

    基于微信小程序的一款模拟面试软件源码(使用微信Web开发者工具来实现用在线答题,支持在线面试,观看面试视频,投简历,刷新招聘信息、发布招聘信息等功能).zip

    1、该资源内项目代码经过严格调试,下载即用确保可以运行! 2、该资源适合计算机相关专业(如计科、人工智能、大数据、数学、电子信息等)正在做课程设计、期末大作业和毕设项目的学生、或者相关技术学习者作为学习资料参考使用。 3、该资源包括全部源码,需要具备一定基础才能看懂并调试代码。 大学生创新创业项目-基于微信小程序的一款模拟面试软件源码(使用微信Web开发者工具来实现用在线答题,支持在线面试(视频面试),可以观看面试视频,可以投简历,随时刷新招聘的信息、发布招聘信息、收藏文章等功能).zip 大学生创新创业项目-基于微信小程序的一款模拟面试软件源码(使用微信Web开发者工具来实现用在线答题,支持在线面试(视频面试),可以观看面试视频,可以投简历,随时刷新招聘的信息、发布招聘信息、收藏文章等功能).zip 大学生创新创业项目-基于微信小程序的一款模拟面试软件源码(使用微信Web开发者工具来实现用在线答题,支持在线面试(视频面试),可以观看面试视频,可以投简历,随时刷新招聘的信息、发布招聘信息、收藏文章等功能).zip 大学生创新创业项目-基于微信小程序的一款模拟面试软件源码(使用微信Web开发者工具来实现用在线答题,支持在线面试(视频面试),可以观看面试视频,可以投简历,随时刷新招聘的信息、发布招聘信息、收藏文章等功能).zip 大学生创新创业项目-基于微信小程序的一款模拟面试软件源码(使用微信Web开发者工具来实现用在线答题,支持在线面试(视频面试),可以观看面试视频,可以投简历,随时刷新招聘的信息、发布招聘信息、收藏文章等功能).zip

    (源码)基于Go语言的数据库智能迁移工具.zip

    # 基于Go语言的数据库智能迁移工具 ## 项目简介 本项目是一个基于Go语言的数据库智能迁移工具,旨在帮助开发者方便、高效地进行数据库版本管理和迁移。通过简单的配置和SQL脚本,用户可以轻松地进行数据库结构的更新和数据的迁移。 ## 项目的主要特性和功能 1. 支持多种数据库涵盖MySQL、PostgreSQL,可按需选择。 2. 配置文件解析解析YAML格式配置文件,获取数据库连接、迁移目录、日志路径等参数。 3. 迁移文件过滤忽略以"ignore"开头的SQL文件,避免误执行。 4. 版本管理按文件名判断版本,依版本号顺序执行迁移脚本,保证迁移连续性。 5. 自动执行SQL脚本自动执行迁移目录下SQL文件,完成数据库结构更新和数据迁移。 6. 通知功能可通过企业微信等方式发送通知,告知迁移结果或提醒异常。 7. 日志记录详细记录迁移过程日志,便于追踪排查问题。 ## 安装使用步骤 1. 已下载项目的源码文件。

    数据迁移工具.exe

    本工具用于将一台电脑上的个人数据快速备份到移动介质上,然后再将备份的数据从移动介质上还原到另一台电脑中,实现用户数据的快速迁移。

    【操作系统安装】Ubuntu 20.04详细安装与配置教程:从下载到系统优化全流程指导

    内容概要:本文档详细介绍了 Ubuntu 20.04 的安装步骤,包括从下载镜像到安装后的配置。首先,用户需要访问 Ubuntu 官网下载 ISO 文件,并通过工具如 Rufus 或命令行工具 `dd` 制作启动 U 盘。接着,设置 BIOS 使 U 盘成为第一启动项,进入 Ubuntu 安装界面。在安装过程中,用户可以选择安装语言、连接网络、选择安装类型(普通或最小安装)、进行磁盘分区(可选),以及设置用户信息

    由Landsat 08卫星拍摄的7176张地形识别图像数据集

    数据说明: 由Landsat 08卫星拍摄的山区、森林覆盖和沙漠图像组成的数据集,为遥感分析的各种应用提供了宝贵的资源。每幅图像的分辨率为256x256像素,比例尺范围为2公里至50公里每厘米,该数据集提供了高细节水平和覆盖范围,可用于分类和分割任务。 对于这个数据集,一个潜在的开发想法是实施机器学习模型,用于自动分类图像中的土地覆盖类型。通过在这个数据集上训练深度学习网络,可以创建一个能够准确识别和分类不同土地覆盖类别的模型,例如山脉、森林和沙漠。这将对环境监测、土地利用规划和保护工作产生重大影响。 该数据集的另一个可能应用是在变化检测分析领域。通过比较在不同时间点拍摄的图像,可以识别和分析土地覆盖模式的变化,如森林砍伐、城市化或自然灾害。这些信息可用干评估人类活动对环境的影响,监测植被健康状况的变化或预测土地覆盖动态的未来趋势。 此外,该数据集可用于开发图像分割算法,这涉及将图像划分为多个区域或感兴趣的对象。通过对这一数据集应用先进的图像处理技术,将有可能在图像中准确划定不同土地覆被类型的界限,从而能够对数据进行更详细的分析和解释。

    增材制造中选区激光熔化与电子束选区熔化的ANSYS Fluent高斯热源模拟及应用

    内容概要:本文详细介绍了选区激光熔化(SLM)和电子束选区熔化(EBM)这两种增材制造技术的热源模拟方法。文中首先解释了这两种技术的基本原理及其面临的挑战,即如何精确控制热源分布和热影响区。随后,文章重点讨论了高斯热源模型的应用,包括其数学表达式以及在ANSYS Fluent中的具体实现方式。此外,还探讨了模拟过程中需要注意的关键点,如网格划分、边界条件和材料属性的设定。最后,通过一个具体的SLM模拟案例展示了整个模拟流程,并给出了实用的操作建议和技术细节。 适合人群:从事增材制造领域的研究人员、工程师以及相关专业的学生。 使用场景及目标:适用于希望通过数值模拟优化SLM和EBM工艺参数的研究人员和工程师,旨在提高成形件质量并降低成本。同时,也为初学者提供了一套完整的模拟指南。 其他说明:文章不仅提供了理论知识,还包括了大量的实践经验和代码示例,有助于读者更好地理解和掌握热源模拟的技术要点。

    永磁同步电机(PMSM)负载转矩估计与预测的MATLAB/Simulink仿真及卡尔曼滤波、Luenberger观测器的应用

    内容概要:本文详细介绍了永磁同步电机(PMSM)负载转矩估计的研究背景及其重要性,重点讨论了几种经典负载估计方法,包括卡尔曼滤波、离散卡尔曼滤波和Luenberger龙博格观测器。文中不仅提供了理论解释,还展示了具体的MATLAB/Simulink仿真模型,涵盖负载转矩测量、预测及转矩预测等功能。此外,文章深入探讨了负载自适应、转矩估计、电机转速闭环控制等关键技术的融合,强调了这些技术在实现PMSM高性能控制中的协同作用。通过实际案例和实验数据,验证了不同方法的有效性和优劣。 适合人群:从事电机控制、自动化工程及相关领域的研究人员和技术人员,尤其是对永磁同步电机负载转矩估计感兴趣的读者。 使用场景及目标:适用于希望深入了解PMSM负载转矩估计方法及其仿真的科研工作者和工程师。目标是掌握卡尔曼滤波、Luenberger观测器等技术的具体实现,提升电机控制系统的性能和稳定性。 其他说明:文章提供了详细的仿真模型和代码片段,便于读者理解和复现实验结果。同时,针对实际应用中的常见问题给出了优化建议,帮助读者避免常见的错误和陷阱。

    (源码)基于TensorFlow.js和Angular的表情分类应用.zip

    # 基于TensorFlow.js和Angular的表情分类应用 ## 项目简介 本项目是一个使用TensorFlow.js和Angular构建的表情分类应用。它通过机器学习和图像识别技术,帮助用户理解和预测他人的情绪表达。这是一个有趣且实用的工具,特别是在人际交往过程中,可以帮助你更好地理解他人的情绪和意图。 ## 项目的主要特性和功能 1. 表情识别: 通过摄像头实时捕捉图像,应用机器学习模型进行表情识别。 2. 简单的用户界面: 用户界面设计简洁明了,易于操作。 3. 训练模型: 用户可以通过点击不同的类别来录入图像,训练模型以识别不同的表情。 4. 实时反馈: 训练完毕后,应用会实时分析摄像头的图像,并给出最可能的表情类别。 ## 安装使用步骤

    QxEntityEditor-1.2.8-macosx

    QxEntityEditor 1.2.8 64位 MacOS程序安装包,QxOrm图形化编辑工具。官网无法访问,加速下载。

    前后端分离的图书管理系统新版源码+说明+数据库.zip

    《前后端分离的图书管理系统源码资源简介》 本资源包含前后端分离的图书管理系统新版源码、详细说明以及数据库文件,是一份极具学习价值的优质资源。 在前端方面,采用现代化的前端技术框架构建用户界面,具备简洁美观、交互友好的特点,能为用户提供流畅的操作体验,如便捷的图书查询、借阅操作等。后端则运用成熟的技术栈,实现系统的核心业务逻辑,包括对图书信息、用户信息的管理,以及借阅流程的处理等,确保系统的高效稳定运行。 详细说明文档对系统的各个功能模块、代码结构、关键技术点进行了详细解读,有助于学习者快速理解系统的设计思路和实现原理。数据库文件则为系统提供了数据存储支持,其设计合理,能满足图书管理系统的数据需求。 本资源为学习者提供了一个实际的项目案例,通过学习和研究该资源,可深入了解前后端分离的开发模式、相关技术的应用,提升编程能力和项目实践水平,但请注意,本资源仅用于学习交流,严禁用于商业用途。

    3.4.6-识别形状+颜色+增加最小变化阈值+增加最大变化阈值 STM32串口通信

    3.4.6-识别形状+颜色+增加最小变化阈值+增加最大变化阈值 STM32串口通信 openmv+STM32串口通信 openmv串口通信openmv识别物体 openmv神经网络训练 openmv数

    MATLAB 神经网络30个案例分析程序和数据.zip

    matlab

    汇川H5U转盘机程序框架详解:适用于自动化初学者的高效编程模板

    内容概要:本文详细介绍了一款基于汇川H5U的转盘机程序框架,该框架集成了多个实用功能,如上下料、CCD模拟、伺服运动控制等。框架采用模块化设计,分为HMI交互层、工位调度引擎、运动控制集群和仿真沙盒四大模块。每个工位作为一个独立的状态机,便于扩展和维护。文中提供了具体的代码示例,帮助读者理解各功能的具体实现方法。此外,框架支持仿真模式,可以在没有真实硬件的情况下进行测试。 适合人群:主要针对自动化领域的初学者和希望优化编程习惯的开发者。对于新手而言,这是一个非常好的学习模板,能够帮助他们快速掌握汇川PLC编程的基本技巧和最佳实践。 使用场景及目标:①学习汇川PLC编程的基础知识和最佳实践;②通过具体案例理解状态机的概念及其在工业自动化中的应用;③利用仿真功能进行无硬件测试,提高开发效率;④掌握工位管理和伺服控制的技术细节,为复杂项目打好基础。 其他说明:该框架不仅适用于小型项目,还可以扩展到更大规模的应用,如多工位生产线。通过深入研究该框架,开发者可以提升编程技能,避免常见的编程陷阱。

    飞轮储能系统建模与MATLAB仿真:永磁同步电机驱动详解及其应用场景

    内容概要:本文详细介绍了飞轮储能系统的建模方法及其在MATLAB中的仿真实现,主要针对永磁同步电机驱动的飞轮系统。文章首先解释了飞轮储能的基本概念,随后深入探讨了两种不同的运行模式:机侧网侧分家运作的结构(模型一)和机网侧协同运行(模型二)。模型一侧重于双闭环控制,强调了PI控制器的参数设置和坐标变换的正确实现;模型二则关注协同控制,特别是在能量双向流动控制和锁相环的应用方面。文中提供了多个具体的MATLAB代码片段,帮助读者理解和实现各个控制环节的关键技术。此外,文章还分享了许多实用的经验和注意事项,如求解器的选择、参数整定以及常见的调试陷阱。 适合人群:电气工程专业学生、从事电力系统研究的技术人员、对飞轮储能系统感兴趣的科研工作者。 使用场景及目标:适用于飞轮储能系统的教学、科研和工程项目预研。通过学习本文,读者可以掌握飞轮储能系统的建模方法,理解永磁同步电机驱动的具体实现方式,并能够在MATLAB/Simulink环境中进行有效的仿真。 其他说明:文章不仅提供了详细的理论讲解和技术指导,还附带了大量的代码实例和实践经验,有助于读者更好地理解和应用相关知识。

    电子洁净厂房温湿度精准控制:基于200SMART PLC的串级PID与露点焓值计算

    内容概要:本文详细介绍了针对电子洁净厂房温湿度控制难题而开发的一套基于西门子200SMART PLC的串级PID控制系统。该系统采用主副环结构,主环通过焓差控制,副环进行温湿度PID调节,实现了温度±1℃、湿度±5%的精确控制。文中展示了具体的控制架构、核心算法(如双向PID调节、露点计算)、以及调试过程中遇到的问题及其解决方案。此外,还提供了实测数据验证系统的有效性。 适合人群:从事工业自动化控制领域的工程师和技术人员,尤其是有电子厂房环境控制需求的专业人士。 使用场景及目标:适用于需要高精度温湿度控制的电子洁净厂房,旨在提高生产环境稳定性和产品质量。具体目标包括但不限于:确保温度波动范围在±1℃以内,湿度控制精度达到±5%,并减少能源消耗。 其他说明:文中提到的技术细节对于理解和优化现有控制系统非常有价值,同时也强调了硬件选型(如选用200SMART PLC)和软件编程技巧的重要性。

    (源码)基于CC++的传感器管理项目.zip

    # 基于CC++的传感器管理项目 ## 项目简介 本项目是一个基于CC++的传感器管理项目,主要目标是管理并处理与传感器相关的操作。项目涵盖了多种传感器类型,包括加速度计、磁力计、陀螺仪、光传感器、接近传感器等,支持虚拟传感器和依赖传感器,并提供获取传感器列表、激活传感器、设置传感器延迟、轮询传感器事件、校准传感器等功能。 ## 项目的主要特性和功能 1. 传感器管理提供一套完整的传感器管理框架,支持多种传感器类型的操作,包括开启、关闭、设置延迟、读取事件等。 2. 校准功能支持传感器的校准操作,包括读取和写入传感器的校准参数,确保传感器数据的准确性和可靠性。 3. 虚拟传感器支持通过虚拟传感器类,可以处理或注入虚拟传感器数据,为无法直接访问实际传感器的情况提供解决方案。 4. 事件处理和数据读取实现读取传感器数据事件和处理相关事件的功能,确保数据的实时性和准确性。 5. XML配置文件处理支持读取和写入传感器的XML配置文件,便于用户自定义传感器的配置参数。

Global site tag (gtag.js) - Google Analytics