`
lgh1992314
  • 浏览: 315698 次
文章分类
社区版块
存档分类
最新评论

关于java String类的getBytes(String charsetName)和String(byte[] bytes, String charsetName)

 
阅读更多

public byte[] getBytes(Charset charset)
Encodes this String into a sequence of bytes using the given charset, storing the result into a new byte array.
This method always replaces malformed-input and unmappable-character sequences with this charset's default replacement byte array. The CharsetEncoder class should be used when more control over the encoding process is required.

使用指定的字符集将此 String 编码为 byte 序列,并将结果存储到一个新的 byte 数组中。

当此字符串不能使用给定的字符集编码时,此方法的行为没有指定。如果需要对编码过程进行更多控制,则应该使用 CharsetEncoder 类。

在Java中,String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示,如

byte[] b_gbk = "".getBytes("GBK");
byte[] b_utf8 = "".getBytes("UTF-8");
byte[] b_iso88591 = "".getBytes("ISO8859-1");

将分别返回“中”这个汉字在GBK、UTF-8和ISO8859-1编码下的byte数组表示。

此时b_gbk的长度为2,b_utf8的长度为3,b_iso88591的长度为1。

public String(byte[] bytes, Charset charset)

Constructs a new String by decoding the specified array of bytes using the specified charset. The length of the new String is a function of the charset, and hence may not be equal to the length of the byte array.

This method always replaces malformed-input and unmappable-character sequences with this charset's default replacement string. The CharsetDecoder class should be used when more control over the decoding process is required.

通过使用指定的 charset 解码指定的 byte 数组,构造一个新的 String。新 String 的长度是字符集的函数,因此可能不等于 byte 数组的长度。
此方法总是使用此字符集的默认替代字符串替代错误输入和不可映射字符序列。如果需要对解码过程进行更多控制,则应该使用 CharsetDecoder 类。

而与getBytes相对的,可以通过new String(byte[], decode)的方式来还原这个“中”字。

这个new String(byte[], decode)实际是使用decode指定的编码来将byte[]解析成UNICODE字符串。(按照什么存就得按照什么解)

String s_gbk = new String(b_gbk,"GBK");
String s_utf8 = new String(b_utf8,"UTF-8");
String s_iso88591 = new String(b_iso88591,"ISO8859-1");

通过打印s_gbk、s_utf8和s_iso88591,会发现,s_gbk和s_utf8都是“中”,而只有s_iso88591是?,为什么使用ISO8859-1编码再组合之后,无法还原“中”字呢,其实原因很简单,因为ISO8859-1编码的编码表中,根本就没有包含汉字字符,当然也就无法通过"中".getBytes("ISO8859-1");来得到正确的“中”字在ISO8859-1中的编码值了,所以再通过new String()来还原就无从谈起了。

因此,通过String.getBytes(String decode)方法来得到byte[]时,一定要确定decode的编码表中确实存在String表示的码值,这样得到的byte[]数组才能正确被还原。

有时候,为了让中文字符适应某些特殊要求(如http header头要求其内容必须为iso8859-1编码),可能会通过将中文字符按照字节方式来编码的情况,如
String s_iso88591 = new String("中".getBytes("UTF-8"),"ISO8859-1"),
这样得到的s_iso8859-1字符串实际是三个在 ISO8859-1中的字符,在将这些字符传递到目的地后,
目的地程序再通过相反的方式String s_utf8 = new String(s_iso88591.getBytes("ISO8859-1"),"UTF-8")来得到正确的中文汉字“中”。这样就既保证了遵守协 议规定、也支持中文。

String str = "中国";
String iso88591 = new String(str.getBytes("UTF-8"), "ISO-8859-1");
str = new String(iso88591.getBytes("ISO-8859-1"), "UTF-8");
System.out.println(str);

import java.io.UnsupportedEncodingException;

/**
 * Created by N3verL4nd on 2017/1/2.
 */


public class HelloWorld
{
    public static void main(String[] args) throws UnsupportedEncodingException {
        String str=new String("我爱");
        byte by_gbk[]=str.getBytes("GBK");
        String str_gbk=new String(by_gbk,"GBK");
        System.out.println("str_gbk:"+str_gbk);
        String str_utf8=new String(by_gbk,"UTF-8");
        System.out.println("str_utf8:"+str_utf8);
        System.out.println("----------------------");
        byte by_utf8[]=str.getBytes("UTF-8");
        String str2_gbk=new String(by_utf8,"GBK");
        System.out.println("str2_gbk:"+str2_gbk);
        String str2_utf8=new String(by_utf8,"UTF-8");
        System.out.println("str2_utf8:"+str2_utf8);
    }
}


http://www.cnblogs.com/caowei/p/2013-12-11_request-response.html

http://blog.csdn.net/tianjf0514/article/details/7854624

分享到:
评论

相关推荐

    简单说说JAVA的String和byte[]的关系

    - **Java I/O操作**: 在Java中进行I/O操作时,通常涉及到`InputStream`和`OutputStream`等类,这些类通常操作的是`byte[]`。因此,在处理文本数据时,需要特别注意字符集的选择。 - **网络通信**: 在Web开发中,处理...

    Java中的String类getBytes()方法详解与实例

    ### Java中的String类getBytes()方法详解与实例 #### 简介 在Java编程语言中,`String`类是处理文本数据的核心类之一。它表示一个不可变的字符序列,这意味着一旦创建了一个`String`对象,其内容就不能被更改。在...

    Java常用类与基础API-String的构造器与常用方法

    - `public String(byte[] bytes, String charsetName)`: - 通过使用指定的字符集解码当前参数中的字节数组来构造新的 `String`。这种方式更为灵活,因为它允许用户指定特定的字符集进行解码。 2. **举例** - `...

    关于JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    在Java中,可以通过`String`类和`byte[]`数组的转换方法来进行不同字符编码之间的转换: - **从`String`到`byte[]`**: - `public byte[] getBytes(String charsetName) throws UnsupportedEncodingException` - ...

    java编码格式转换

    - 使用`public String(byte[] bytes, String charsetName)`方法可以将字节数组从指定编码转换回字符串。 - 示例:将GBK编码的字节数组转换回Unicode编码的字符串。 2. **从其他编码到Unicode**: - 使用同样的...

    String_raw-源码.rar

    9. **编码与解码**:`String`类提供了与各种字符编码相关的函数,如`getBytes()`用于将字符串转换为字节数组,`new String(byte[] bytes, String charsetName)`用于从字节数组构建字符串。 10. **字符串的哈希值**...

    java 基础知识总结

    - `String(byte[] bytes, int offset, int length, String charsetName)`:基于指定范围内的字节数组及编码创建字符串。 ```java String str = new String(bytes, 0, 5, "UTF-8"); // 从字节数组的前五个字节创建...

    字符串122000.txt

    根据给定的信息,我们可以梳理出以下与Java编程语言相关的知识...以上就是从给定的信息中整理出的关于Java字符串操作的主要知识点,这些方法和技巧在日常开发中非常实用,可以帮助我们更加高效地处理字符串相关的任务。

    如何用java实现不同编码方式字符串的转换(包含异常处理、重复不终止输入、缓冲区bufferedreader的使用)

    例如,我们可以使用`new String(byte[], charsetName)`构造函数将字节数组转换为字符串,或者使用`String.getBytes(charsetName)`将字符串转换为字节数组。这里的`charsetName`就是编码名称,如"UTF-8"。 在进行...

    Java基本类型与byte数组之间相互转换方法

    5. `getBytes(String data, String charsetName)` 和 `getBytes(String data)` - 这些方法将字符串转换为字节数组,使用指定的字符集(charset)。默认情况下,如果未指定字符集,将使用GBK编码。字符串到字节的...

    java中final类型等的应用

    使用`new String(byte[] bytes, String charsetName)`方法将字节数组解码为字符串。 #### 2.2 字节序标记(BOM)的作用 - **作用**:字节序标记(BOM)用于标识文件的字节顺序,以便正确地解析文件内容。 - **示例**...

    Java中的字符编码问题处理心得总结

    - `String(byte[] bytes, String charsetName)`:通过字符集名称指定解码方式。 2. `String`类的`getBytes()`方法: - `byte[] getBytes()`:默认使用平台默认字符集。 - `byte[] getBytes(Charset charset)`:...

    String-Exercises-in-Java:只是玩弄字符串

    - `getBytes(String charsetName) / new String(byte[] bytes, String charsetName)`: 字符串与字节数组之间的转换,需要指定字符集。 这些知识点涵盖了Java字符串的基本操作和常见用法。通过"String Exercises in...

    Java字符编码原理(动力节点Java学院整理)

    对于从文本文件、数据库或字节数组构建的字符串,同样需要了解它们的原始编码,并使用`getBytes(String charsetName)`和`String(byte[] bytes, String charsetName)`这样的方法,指定正确的字符集进行解码和编码操作...

    day019-io笔记和代码.rar

    * 4.String(byte[] bytes, String charsetName) * 根据默认字符集将字节数组转换为字符串 * * 这里会有乱码问题: * 产生的原因: * 1、因为字符集不统一,即编码和解码new String...

    老生常谈Java字符串进阶(必看篇)

    例如,`new String(byte[] bytes, String charsetName)`用于从字节数组构造字符串,指定字符集进行解码。与`getBytes(Charset charset)`配合使用,可以在不同字符集之间转换字符串。例如,将UTF-8编码的字符串转换为...

    java 中文字转为英文 (2).zip

    1. **字符串与字节数组**:在Java中,`String`类代表不可变的字符序列,而`byte[]`用于存储字节数据。中文字符在不同的编码下会转换成不同的字节序列。 2. **Charset类**:Java的`java.nio.charset`包提供了`...

    下载网站图片代码并且解析乱码

    除了URLEncoder以外,常用的还有URLDecoder、String类的getBytes和new String(byte[] bytes, String charsetName)等方法用于编码转换。 最后,在下载文件的过程中,文件数据需要从服务器端传输到客户端,通常涉及到...

Global site tag (gtag.js) - Google Analytics