[转载] String getBytes()

shift8

浏览: 151376 次
性别:
来自: 武汉

最近访客更多访客>>

kindherated

baiyso

itfafa

ticky998

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

每天的收获点点滴滴

XP C C++C#Unix

public byte[] getBytes()
使用平台默认的字符集将此 String 解码为字节序列，并将结果存储到一个新的字节数组中。
当此字符串不能在默认的字符集中解码时，该方法无指定的行为。当需要进一步控制解码过程时，应使用 CharsetEncoder 类。

返回：
结果字节数组

String的getBytes()方法是得到一个字串的字节数组，这是众所周知的。但特别要注意的是，本方法将返回该操作系统默认的编码格式的字节数组。如果你在使用这个方法时不考虑到这一点，你会发目前一个平台上运行良好的系统，放到另外一台机器后会产生意想不到的问题。比如下面的程式，

class TestCharset
{
public static void main(String[] args)
{
new TestCharset().execute();
}
private void execute() {
String s = "Hello!你好！";
byte[] bytes = s.getBytes();
System.out.println("bytes lenght is:" + bytes.length);
}
}

在一个中文视窗系统XP系统下，运行时，结果为：
bytes lenght is:12

不过如果放到了一个英文的UNIX环境下运行：
$ java TestCharset
bytes lenght is:9

如果你的程式依赖于该结果，将在后续操作中引起问题。为什么在一个系统中结果为12，而在另外一个却变成了9了呢？上面已提到了，该方法是和平台（编码）相关的。在中文操作系统中，getBytes方法返回的是个GBK或GB2312的中文编码的字节数组，其中中文字符，各占两个字节。而在英文平台中，一般的默认编码是“ISO-8859-1”，每个字符都只取一个字节（而不管是否非拉丁字符）。

Java中的编码支持

Java是支持多国编码的，在Java中，字符都是以Unicode进行存储的，比如，“你”字的Unicode编码是“4f60”，我们能通过下面的实验代码来验证：

class TestCharset
{
public static void main(String[] args)
{
char c = ’你’;
int i = c;
System.out.println(c);
System.out.println(i);
}
}

不管你在所有平台上执行，都会有相同的输出：

----------------- output ------------------
你
20320

20320就是Unicode “4f60”的整数值。其实，你能反编译上面的类，能发目前生成的.class文件中字符“你”（或其他所有中文字串）本身就是以Unicode编码进行存储的：

char c = ’u4F60’;
... ...

即使你知道了编码的编码格式，比如：
javac -encoding GBK TestCharset.java
编译后生成的.class文件中仍然是以Unicode格式存储中文字符或字符串的。

使用String.getBytes(String charset)方法

所以，为了避免这种问题，我建议大家都在编码中使用String.getBytes(String charset)方法。下面我们将从字串分别提取ISO-8859-1和GBK两种编码格式的字节数组，看看会有什么结果：

class TestCharset
{
public static void main(String[] args)
{
new TestCharset().execute();
}
private void execute() {
String s = "Hello!你好！";
byte[] bytesISO8859 =null;
byte[] bytesGBK = null;
try
{
bytesISO8859 = s.getBytes("iso-8859-1");
bytesGBK = s.getBytes("GBK");
}
catch (java.io.UnsupportedEncodingException e)
{
e.printStackTrace();
}
System.out.println("-------------- 8859 bytes:");
System.out.println("bytes is: " + arrayToString(bytesISO8859));
System.out.println("hex format is:" + encodeHex(bytesISO8859));
System.out.println();
System.out.println("-------------- GBK bytes:");
System.out.println("bytes is: " + arrayToString(bytesGBK));
System.out.println("hex format is:" + encodeHex(bytesGBK));
}
public static final String encodeHex (byte[] bytes) {
StringBuffer buff = new StringBuffer(bytes.length * 2);
String b;
for (int i=0; i<bytes.length ; i++)
{
b = Integer.toHexString(bytes[i]);
// byte是两个字节的，而上面的Integer.toHexString会把字节扩展为4个字节
buff.append(b.length() > 2 ? b.substring(6,8) : b);
buff.append(" ");
}
return buff.toString();
}
public static final String arrayToString (byte[] bytes) {
StringBuffer buff = new StringBuffer();
for (int i=0; i<bytes.length ; i++)
{
buff.append(bytes[i] + " ");
}
return buff.toString();
}
}

执行上面程式将打印出：

--------------
8859 bytes:
bytes is: 72 101 108 108 111 33 63 63 63
hex format is:48 65 6c 6c 6f 21 3f 3f 3f
--------------
GBK bytes:
bytes is: 72 101 108 108 111 33 -60 -29 -70 -61 -93 -95
hex format is:48 65 6c 6c 6f 21 c4 e3 ba c3 a3 a1

可见，在s中提取的8859-1格式的字节数组长度为9，中文字符都变成了“63”，ASCII码为63的是“?”，一些国外的程式在国内中文环境下运行时，经常出现乱码，上面布满了“?”，就是因为编码没有进行正确处理的结果。而提取的GBK编码的字节数组中正确得到了中文字符的GBK编码。字符“你”“好”“！”的GBK编码分别是：“c4e3”“bac3”“a3a1”。得到了正确的以GBK编码的字节数组，以后需要还原为中文字串时，能使用下面方法：
new String(byte[] bytes, String charset)

分享到：

java中获取MAC地址＆了解Mac地址 | 正则表达式 java

2010-08-02 14:35
浏览 1405
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

（转载网上）C# 语言编写的MD5 源代码 VS2010: byte[] inputBytes = System.Text.Encoding.ASCII.GetBytes(inputString); using (MD5 md5Hash = MD5.Create()) { byte[] hashBytes = md5Hash.ComputeHash(inputBytes); // 将字节转换为16进制字符串 ...

打败所有黑客的加密算法: 【欢迎转载或翻译该文】现在上网，难免会涉及一些需要保密的内容，比如密码，账号，卡号，证件号等。但是黑客无处不在，他们常常窃听你的信息，给你放置陷阱，让你的防不胜防。比如我现在要将信息“账号：123456...

CDMA 猫用AT命令发中文短信（C#）: 转载请注明来源代码如下: void SendCHNSms(string content,string phone) { //中文CDMA发送，UNICODE编码字节 byte[] b = Encoding.BigEndianUnicode.GetBytes(content); //CDMA的AT命令手机号码前面不能加86，...

seata1.3.0.zip: 错误原因：序列化问题，由于使用seata自带的zk-config.sh脚本向zk写入配置信息的时候，采用的序列化方式相当于String.getBytes()，而框架读取配置的时候使用的是org.101tec包中的Zkclient客户端，反序列化使用的是该...

中国人工智能产业发展联盟金融大模型落地路线图研究报告2024年56页.pdf: 中国人工智能产业发展联盟金融大模型落地路线图研究报告2024年56页.pdf

USB运动控制开源系统揭秘：五轴雕刻机核心技术全开源，支持RTCP算法，PCB生产便捷，C++源码可复制,USB运动控制五轴雕刻机系统完全开源资料，含PCB生产支持及多版本C++源码,USB运动控制: USB运动控制开源系统揭秘：五轴雕刻机核心技术全开源，支持RTCP算法，PCB生产便捷，C++源码可复制,USB运动控制五轴雕刻机系统完全开源资料，含PCB生产支持及多版本C++源码,USB运动控制 (五轴雕刻机系统)全部开源不保留任何关键技术，PCB可直接生产，C++6.0源码，从13.7-18.2所有版本，本产品为可复制资料，支持五轴联动，支持RTCP算法，全部开源。 1、为电子资料 2、PCB底板+原理图+源码 ,核心关键词：USB运动控制; 五轴雕刻机系统; 开源技术; 不保留关键技术; C++6.0源码; 版本范围(13.7-18.2); 可复制资料; 五轴联动; RTCP算法; PCB底板; 原理图。,开源五轴雕刻机系统：USB运动控制全解析

Java-springboot+vue高校党务学习信息系统毕业设计源码.zip: 系统选用B/S模式，后端应用springboot框架，前端应用vue框架， MySQL为后台数据库。本系统基于java设计的各项功能，数据库服务器端采用了Mysql作为后台数据库，使Web与数据库紧密联系起来。在设计过程中，充分保证了系统代码的良好可读性、实用性、易扩展性、通用性、便于后期维护、操作方便以及页面简洁等特点。

基于16QAM的SIMULINK与MATLAB联合仿真系统：调制解调波形分析与应用拓展,基于MATLAB和SIMULINK平台的16QAM调制与解调仿真研究及波形分析,16QAM SIMULINK 基: 基于16QAM的SIMULINK与MATLAB联合仿真系统：调制解调波形分析与应用拓展,基于MATLAB和SIMULINK平台的16QAM调制与解调仿真研究及波形分析,16QAM SIMULINK 基于SIMULINK和MATLAB的16QAM调制和解调。采用SIMULINK搭建框图，MATLAB调用模型得出波形图。（可自行简单修改在SIMULINK中加scope，无须MATLAB调用） ,核心关键词： 16QAM; SIMULINK; MATLAB; 调制; 解调; 波形图; 框图; Scope,基于SIMULINK的16QAM调制解调系统研究

基于PMSM模型的四种控制策略对比研究：传统滑膜控制与扰动观测器的优化与应用,基于滑膜控制扰动观测器的PMSM模型：四控制策略对比分析与实践应用研究 [附带视频与出图程序],基于滑膜控制扰动观测器的永: 基于PMSM模型的四种控制策略对比研究：传统滑膜控制与扰动观测器的优化与应用,基于滑膜控制扰动观测器的PMSM模型：四控制策略对比分析与实践应用研究 [附带视频与出图程序],基于滑膜控制扰动观测器的永磁同步电机PMSM模型四个控制对比： 1、PID控制器 2、传统滑模控制器 3、最优滑模控制器 4、改进补偿滑膜控制器 [1]附带简单讲解视频如下图 [2]附带出图程序，四个控制对比的说明文档（2篇，非次品） ,核心关键词：滑膜控制; 扰动观测器; 永磁同步电机PMSM模型; PID控制器; 传统滑模控制器; 最优滑模控制器; 改进补偿滑膜控制器; 简单讲解视频; 出图程序; 对比说明文档。,PMSM模型下的滑膜控制：四法比拼，解析与可视化

Abaqus USDFLD子程序：实现积分点间材料弹性连续变化仿真的高效方法,Abaqus USDFLD子程序：实现积分点间材料弹性连续变化仿真的高效方法,Abaqus USDFLD子程序实现积分点间: Abaqus USDFLD子程序：实现积分点间材料弹性连续变化仿真的高效方法,Abaqus USDFLD子程序：实现积分点间材料弹性连续变化仿真的高效方法,Abaqus USDFLD子程序实现积分点间材料弹性连续变化仿真 ,Abaqus; USDFLD子程序; 积分点; 材料弹性; 连续变化仿真;,Abaqus USDFLD实现材料弹性连续变化仿真

早中期数字信号处理复习指南：概念、分析与应用: 内容概要：本文档为《早中期复习—数字信号处理》的学习指南，详细介绍了数字信号处理的相关概念和方法，旨在梳理并巩固相关领域的知识点。文档内容涵盖数字信号处理基本概念及时域离散信号和系统的分析方法；重点探讨时域离散信号、离散傅里叶变换及其快速算法（FFT）；详细介绍了基于离散信号变换方法的不同类型滤波器的设计；此外还列举了部分经典的面试题目及其解答方向，以辅助备考者准备面试。文档有助于深入理解和掌握这一学科，提高对信号分析技能的认知和应用。适合人群：本指南主要面向正在备战考试或从事相关工作的初学者，尤其是需要系统性复习并加强理论理解和实际操作技巧的学生和工程师。使用场景及目标：可用于准备研究生入学面试或者作为工程师日常工作中处理复杂工程问题时的参考手册。目标是帮助使用者加深对数字信号处理的认识，掌握关键技术和应用场景，以便更好地应对学术和工业挑战。其他说明：文档结构清晰、条理性强，配合大量例题和图示，有利于读者理解和记忆。同时，提供了实用的小贴士和思考题，引导读者积极思考，拓展视野，培养独立解决问题的能力。

模拟浏览器操作程序-总文件压缩包（代码+所有磁盘文件）: 题目2.5（模拟浏览器操作程序）：标准Web浏览器具有在最近访问的网页间后退和前进的功能。实现这些功能的个方法是：使用两个栈，追踪可以后退和前进而能够到达的网页。

SensorTower2024年AI应用市场洞察报告31页.pdf: SensorTower2024年AI应用市场洞察报告31页.pdf

chromedriver-win32-136.0.7055.0.zip: chromedriver-win32-136.0.7055.0.zip

COMSOL热流耦合拓扑优化：最大化放热量与功率耗散策略解析,Comsol热流耦合拓扑优化技术：以最大化放热量与功率耗散为目标函数的优化策略,Comsol热流耦合拓扑优化目标函数采用最大化放热量和: COMSOL热流耦合拓扑优化：最大化放热量与功率耗散策略解析,Comsol热流耦合拓扑优化技术：以最大化放热量与功率耗散为目标函数的优化策略,Comsol热流耦合拓扑优化。目标函数采用最大化放热量和功率耗散。 ,Comsol;热流耦合;拓扑优化;目标函数;最大化放热量;功率耗散,Comsol热流耦合优化：最大化放热与功率耗散

机器人辅助假肢测试中的实时混合子结构仿真：机械臂选型与集成: 内容概要：本文介绍了将假肢测试与实时混合子结构（RTHS）方法相结合的技术背景。RTHS方法用于将完整的动态系统分解为数值部分（numerical part）和实验部分（experimental part），并在Simulink中进行建模。数值部分包括模拟截肢者的模型，而实验部分则涉及真实的机械臂和假肢。两者通过传输系统耦合，实现了步行阶段的动态交互。文章具体描述了不同步态阶段的动力学模拟流程，包括飞行阶段（抬脚离地）和接触阶段（脚触地）。为了实现有效的仿线，提出了对机械臂的四个关键要求：能够执行接口运动、承受界面力、低延迟高精度以及实现实时通信。适合人群：从事生物力学、医疗器械和机器人技术研究的专业人士及科研人员。使用场景及目标：适用于需要对假肢进行动态性能测试的研发机构或企业，目标是选择合适的机械臂并构建完整的假肢测试平台，提高仿线的准确性和可靠性。阅读建议：重点理解和掌握RTHS方法的工作原理以及机械臂在仿真实验中的角色，在实践中注意验证机械臂是否符合所列出的各项要求。

FLUENT与MATLAB协同：基于UDP的复杂数据联合仿真计算与交互处理方案,FLUENT与MATLAB协同：基于UDP的复杂数据联合仿真处理系统,FLUENT与MATLAB联合仿真计算，基于UDP: FLUENT与MATLAB协同：基于UDP的复杂数据联合仿真计算与交互处理方案,FLUENT与MATLAB协同：基于UDP的复杂数据联合仿真处理系统,FLUENT与MATLAB联合仿真计算，基于UDP，可在MATLAB实现复杂数据计算处理。提供两个软件数据交互方法和接口，FLUENT数据传递给MATLAB后，可以用任意方法处理，最后再回传给FLUENT处理后的数据。本案例只是简单演示效果，可以实现复杂功能。 ,联合仿真计算; UDP接口通信; 数据处理; 交互方法; 回传数据; 复杂功能演示。,FLUENT与MATLAB协同：UDP接口数据交互与复杂处理

postgresql安装教程.md: postgresql安装教程.md

IPMSM数学模型深度解析：双环模拟技术，预测电机对多样输入的响应，精准输出电流、转速与转矩,IPMSM模型分析电机响应,IPMSM数学模型，模拟电机对不同输入的响应，包含速度环和电流环，输出电流转速: IPMSM数学模型深度解析：双环模拟技术，预测电机对多样输入的响应，精准输出电流、转速与转矩,IPMSM模型分析电机响应,IPMSM数学模型，模拟电机对不同输入的响应，包含速度环和电流环，输出电流转速和转矩。 ,IPMSM数学模型; 电机响应模拟; 速度环和电流环; 输出电流转速和转矩; 电机控制,IPMSM模型模拟电机响应：双环控制下电流转速与转矩输出

基于CNN-RBF神经网络的优化数据分类预测模型-以交叉验证防止过拟合的Matlab代码实现,Matlab结合CNN-RBF进行数据分类优化,基于卷积神经网络结合径向基函数神经网络(CNN-RBF): 基于CNN-RBF神经网络的优化数据分类预测模型——以交叉验证防止过拟合的Matlab代码实现,Matlab结合CNN-RBF进行数据分类优化,基于卷积神经网络结合径向基函数神经网络(CNN-RBF)的数据分类预测 CNN-RBF数据分类优化参数为扩散速度，采用交叉验证防止过拟合 matlab代码注：要求 Matlab 2019A 及以上版本 ,核心关键词：卷积神经网络（CNN）; 径向基函数神经网络（RBF）; 数据分类预测; 优化参数; 扩散速度; 交叉验证; 过拟合; MATLAB代码 2019A以上版本,基于CNN-RBF的优化参数数据分类预测Matlab代码实现

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论