`

java中字符与字节的编码关系

 
阅读更多

原文地址:http://www.cnblogs.com/o-andy-o/archive/2012/04/11/2441940.html

 

一个英文字母字符存储需要1个字节。在 GB 2312 编码或 GBK 编码中,一个汉字字符存储需要2个字节。 在UTF-8编码中,一个英文字母字符存储需要1个字节,一个汉字字符储存需要3到4个字节。在UTF-16编码中,一个英文字母字符或一个汉字字符存储 都需要2个字节(Unicode扩展区的一些汉字存储需要4个字节)。在UTF-32编码中,世界上任何字符的存储都需要4个字节。

 

其次还要知道一点常识,就是我们在记事本等一些文本工具中 写的都是字符,没有谁会去写字节(可以写字节,但是要用具特殊的编辑器),但是其实,我们的写的是字符,但磁盘上真实存储的是字节。

这里就出现了转换的问题,当然,这些问题记事本本身会帮助我们解决。我们打开一个记事本,然后文件--另存为,你会发现有几种存储格式供您选择,
ANSI格式:就是ascii的格式
Unicode格式:采用国际通用的编码存储
Unicode big endian格式:这个和unicode有点区别,但我也不明太具体的不同
UTF-8:采用utf-8存储,看过上面的两篇文章,你会十分的了解这里介绍的编码。Utf-8,是unicode的一种实现方式。

例如我们在记事本里面输入“连通”两个字。

1.我们另存记事本的时候,采用unicode存储,那么虽然我们看到的字符还是“连通”,但是其实存储在磁盘上的字节 确实
8FDE(连) 901A (通),这个是规定的,unicode是国际上规定的,给世界上的每个字符分配的唯一编码。获取某个字符的unicode的方法,可以去网上查找,最简单 的方法,就是打开word文档,输入字符,把光标移动到字符后面,按alt+x,word会自动把字符转换成unicode编码,这里呢我们也可以看到, 用unicode存储汉字啊,每个汉字占用两个字节。

2.我们另存记事本的时候,采用utf-8存储,虽然我们看到的字符还是“连通”,但是其实存储在磁盘上的字节 确实已经变化了,这时候存储的是
E8 BF 9E (连)E9 80 9A(通)。这就是utf-8的存储的编码,至于utf-8为什么这样存储,你可以阅读上面的两篇文章来了解,可以看到,utf-8使用3个字节存储一个汉字。

另外我们还要知道的就是:电脑怎么区分一个记事本是用什么存储的呢?
换句话说,为什么我用unicode存储的8FDE(连) 901A (通),电脑就知道这是unicode编码,从而使用unicode解码,还原为“连通”呢?电脑又怎么知道E8 BF 9E (连)E9 80 9A(通)这是按照utf-8的存储方式存储的呢?

这里有一点标记,就是在存储字节的时候,记事本首先在最前面 标明,这个记事本下面的存储格式 是utf-8,还是unicode。

例如,

1.unicode存储“连通”。磁盘字节真实存储的其实是:

FF FE 8FDE 901A

前两个FF FE是标记,告诉电脑,这个文档的存储方式是unicode

2.utf-8存储“连通”。磁盘字节真实存储的其实是:

EF BB BF E8 BF 9E E9 80 9A

前三个EF BB BF 告诉电脑 这个文档是utf-8存储的

一步一个脚印,方便自己复习,该出手时就出手,有错误,一定要指正,非常感谢,共同进步!
分享到:
评论

相关推荐

    Java字符流与字节流区别

    Java 内用 Unicode 编码存储字符,字符流处理类负责将外部的其他编码的字符流和 java 内 Unicode 字符流之间的转换。而类 InputStreamReader 和 OutputStreamWriter 处理字符流和字节流的转换。字符流(一次可以处理...

    JAVA 字符流与字节流

    在Java编程语言中,输入/输出(I/O)操作是处理数据流的关键部分,而字符流与字节流则是实现这些操作的两种基本方式。理解它们的区别和应用场景对于任何Java开发者来说都是至关重要的。 ### 字节流 字节流是最基本...

    Java中的字符集编码入门(五)Java代码中的字符编码转换Part1.pdf

    UTF-16是一种变长的Unicode编码,它可以表示Unicode字符集中所有的字符,每个字符通常由1至4个字节组成,但在Java中,每个`char`类型变量占用两个字节。 在Java中,无论是声明的`char`变量,还是`String`对象,它们...

    java字符串的各种编码转换

    ### Java字符串的编码转换 在Java中,处理不同字符集之间的字符串转换是一项常见任务。尤其是在处理国际化应用时,理解并掌握各种字符编码格式变得尤为重要。下面将介绍几种常见的字符编码格式以及如何在Java中实现...

    JAVA二进制字节数组字符十六进制BCD编码转换.doc

    在Java编程中,二进制、字节数组、字符、十六进制和BCD(Binary-Coded Decimal,二进制编码的十进制)编码转换是常见的数据处理任务。以下将详细介绍这些概念以及如何在Java中进行相关操作。 1. **二进制与十六进制...

    Java字符集和编码

    在探讨Java字符集和编码之前,我们先了解一下为什么在Java编程中需要关注字符集和编码。Java作为一种广泛应用的编程语言,其内部采用的是Unicode编码,这使得Java能够很好地支持全球化的应用开发。然而,在实际的...

    字符,字节和编码 字符,字节和编码

    说明字符编码在java,c中的转换 说明字符编码在java,c中的转换 说明字符编码在java,c中的转换

    JAVA 转换字符编码工具

    本篇将围绕"JAVA 转换字符编码工具"这个主题,深入探讨字符编码的概念、Java中的字符编码API以及`ReadFile.java`这个可能的源码文件如何处理字符编码。 首先,我们需要理解字符编码的基本概念。常见的字符编码有...

    java_字符编码 Javajava_字符编码问题

    #### 二、Java中的字符串与字符编码 在 Java 中,`String` 类型是一种特殊的类型,它用来表示一系列字符的序列。Java 的 `String` 类内部是以 Unicode 编码存储的,这意味着每个字符都对应一个特定的 Unicode 码点...

    Java字符流和字节流

    ### Java字符流和字节流详解 #### 一、引言 在Java中,I/O流主要用于处理输入输出操作,包括文件读写等。根据处理数据类型的不同,Java I/O流主要分为字节流和字符流两大类。字节流处理的是8位的字节数据,而字符流...

    JAVA_字符编码

    此外,Java的`String`类提供了许多与字符编码相关的功能,如`getBytes()`方法可以将字符串转换为字节数组,使用默认的平台字符集,或者指定的`Charset`。而`new String(bytes, charset)`则可以根据给定的字节数组和...

    java获取字符串编码类型代码(导入直接查看结果)

    在Java编程语言中,处理字符串时,了解字符串的编码类型是非常重要的。编码类型决定了字符集,它定义了如何将字符转换为数字(字节)以及如何将数字转换回字符。常见的编码类型有ASCII、ISO-8859-1、UTF-8、GBK等。...

    JAVA及相关字符集编码问题

    在深入探讨JAVA与字符集编码问题之前,我们首先需要理解不同字符集编码的基本概念以及它们在JAVA环境中的应用。字符集编码是计算机系统中表示文字的一种方式,它决定了如何将字符转换为二进制数据,以便于存储和传输...

    JAVA中文字符编码问题详解.doc

    在 JAVA 中,中文字符编码问题一直是让人头疼的问题,特别是在 WEB 应用中。网上的分析文章和解决方案都很多,但总是针对某些特定情况的。本文将详细解释 JAVA 中文字符编码问题的根源,并提供解决方案。 一、JAVA ...

    Java中文字符编码探究.pdf

    ISO8859-1是一种单字节编码,表示的字符范围很窄,只能应用于英文字符,无法表示中文字符。例如,字母‘a’的码值为Ox61。但是,由于是单字节编码,并且和计算机最基本的表示单元一致,所以很多情况下仍旧使用ISO...

    java字符集编码问题

    ### Java字符集编码问题详解 #### 一、引言 在Java编程中,字符集编码问题是一个常见且重要的议题。由于不同的系统、平台以及网络环境中可能存在多种字符编码格式,这导致了在处理文本数据时可能会遇到编码不一致...

    java字符串编码转换

    本文介绍了Java字符串编码转换的基础知识,并结合Web环境中的具体应用场景进行了详细的说明。在处理不同编码格式的数据时,正确地使用编码转换方法对于确保数据的一致性和准确性非常重要。开发者应当熟悉各种编码...

    Java中的字符集编码入门(五)Java代码中的字符编码转换Part1.doc

    ### Java中的字符集编码入门(五):Java代码中的字符编码转换Part1 #### 核心知识点概述: 本文档深入探讨了Java编程语言中字符集编码的基础知识,并着重讲解了字符编码转换的基本原理及其在Java代码中的应用。...

    JAVA中汉字字符转化为英文字符

    ### JAVA中汉字字符转化为英文字符 #### 知识点概览 本文将详细介绍如何在Java中实现汉字到英文字符的转换。此技术主要用于提取汉字的首字母或进行其他基于字符编码的操作。通过以下两个核心方法:`toTureAsciiStr`...

    关于java按字节截取带有汉字的字符串的解法

    为了解决这个问题,我们需要理解Unicode编码以及如何在Java中正确处理多字节字符。下面我们将详细探讨这个问题,并提供一种有效的解决方案。 首先,我们需要知道汉字在计算机中通常是使用Unicode编码表示的,每个...

Global site tag (gtag.js) - Google Analytics