英文字母和中文汉字在不同字符集编码下的字节数
英文字母:
字节数 : 1;编码:GB2312
字节数 : 1;编码:GBK
字节数 : 1;编码:GB18030
字节数 : 1;编码:ISO-8859-1
字节数 : 1;编码:UTF-8
字节数 : 4;编码:UTF-16
字节数 : 2;编码:UTF-16BE
字节数 : 2;编码:UTF-16LE
中文汉字:
字节数 : 2;编码:GB2312
字节数 : 2;编码:GBK
字节数 : 2;编码:GB18030
字节数 : 1;编码:ISO-8859-1
字节数 : 3;编码:UTF-8
字节数 : 4;编码:UTF-16
字节数 : 2;编码:UTF-16BE
字节数 : 2;编码:UTF-16LE
可以通过代码看出以上结果:
import java.io.UnsupportedEncodingException;
public class EncodingTest {
/**
* @param args
*/
public static void main(String[] args) {
String en = "A";
String ch = "人";
System.out.println("英文字母:" + en);
printByteLength(en, "GB2312");
printByteLength(en, "GBK");
printByteLength(en, "GB18030");
printByteLength(en, "ISO-8859-1");
printByteLength(en, "UTF-8");
printByteLength(en, "UTF-16");
printByteLength(en, "UTF-16BE");
printByteLength(en, "UTF-16LE");
System.out.println();
System.out.println("中文汉字:" + ch);
printByteLength(ch, "GB2312");
printByteLength(ch, "GBK");
printByteLength(ch, "GB18030");
printByteLength(ch, "ISO-8859-1");
printByteLength(ch, "UTF-8");
printByteLength(ch, "UTF-16");
printByteLength(ch, "UTF-16BE");
printByteLength(ch, "UTF-16LE");
}
/**
* 打印不同字符集下Java字符串所占的字节数
*
* @param str
* 待操作的字符串
* @param encodingName
* 字符集名称
* */
public static void printByteLength(String str, String encodingName) {
System.out.print("字节数 : ");
try {
System.out.print(str.getBytes(encodingName).length);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
System.out.println(";编码:" + encodingName);
}
}
from http://www.cnblogs.com/lancidie/archive/2013/04/12/3017241.html
分享到:
相关推荐
例如,英文字符集包含了所有的英文字母和符号,而汉字字符集则包含了所有汉字。字符集可以是某个语言的文字,如简体中文的GB2312或GBK,也可以是包含多种语言字符的Unicode。 字符编码则是字符集与二进制数字之间的...
而GB2312是中国大陆的简体中文字符集,GBK是对GB2312的扩展,增加了更多的汉字。 接下来,我们来讨论字符编码。字符编码是将字符集中的字符与特定的二进制数值对应起来的方式。比如ASCII编码中,大写字母"A"的编码...
在实际应用中,理解不同字符集和编码间的差异对于开发多语言软件、构建国际化网站或处理多国语言的数据非常重要。比如,开发人员在设计数据库时需要选择合适的字符集,以确保能正确存储和检索各种语言的信息。在网页...
GB2312是中国国家标准的简体中文字符集,它解决了汉字在计算机中的表示问题。GB2312规定了127号以下的字符与原来ASCII相同,而两个大于127的字符组合可以表示一个汉字,通过高低字节的编码规则组合出大约7000多个...
因此,理解字符集编码的基本原理及如何在实际开发中正确配置和使用它们至关重要。 #### 二、编码基本知识 ##### 2.1 ISO 8859-1 - **定义**:ISO 8859-1 是一种单字节编码标准,主要用于西欧语言,如英语、法语等...
BIG5是台湾地区广泛使用的繁体中文字符集,采用了双字节编码方式,主要针对繁体汉字,同时也包含了一些其他符号和非汉字字符。 7. UCS(Universal Character Set)字符集: UCS是国际标准ISO 10646定义的字符集,它...
### Java字符集编码问题详解 #### 一、引言 在Java编程中,字符集编码问题是一个常见且重要的议题。由于不同的系统、平台以及网络环境中可能存在多种字符编码格式,这导致了在处理文本数据时可能会遇到编码不一致...
Linux 字符集编码转换是一个非常重要的概念,在 Linux 操作系统中,字符集编码转换是必备的知识。本文将从基础概念开始,逐步引导读者了解字符集编码转换的相关知识。 首先,让我们了解什么是 ASCII 编码。ASCII ...
在实际开发中,应根据具体需求选择合适的字符集编码,并注意在不同环节保持字符集编码的一致性,以避免乱码和其他潜在问题。通过上述对JAVA及相关字符集编码问题的深入探讨,希望能帮助开发者们更好地理解和应对这一...
在探讨Java字符集和编码之前,我们先了解一下为什么在Java编程中需要关注字符集和编码。Java作为一种广泛应用的编程语言,其内部采用的是Unicode编码,这使得Java能够很好地支持全球化的应用开发。然而,在实际的...
此外,GB2312编码还广泛应用于中文字符集的转换过程中,例如在将GB2312编码转换为Unicode编码时,了解GB2312的原理是十分必要的。 回顾GB2312汉字编码字符集,我们不禁感叹科技力量的神奇。它从本质上改变了信息...
在IT领域,字符集编码是数据处理和文本存储的核心部分,尤其在多语言环境中显得尤为重要。"CodeView 字符集编码对比"这个标题暗示我们这是一个工具,可能用于查看和比较不同字符集之间的编码差异,例如ASCII、GBK、...
Unicode 是一种通用的字符集编码标准,提供了一个 universal 和 unique 的字符集编码方式。UTF-8 是 Unicode 的一种变长编码方式,使用 1 到 4 个字节表示一个 Unicode 字符。UTF-8 编码的优点是可以与 ASCII 编码...
在ASCII编码中,一个字符对应一个字节,可以表示128个不同的字符,包括英文字母、数字、标点符号等。 汉字的编码则复杂得多。最初的中文字符编码标准是GB2312,后来发展为GBK,再进一步演变为GB18030,这些都属于双...
5. GB2312编码:GB2312是中国大陆的简体中文字符集,主要针对中文,包括6763个常用汉字。它是GBK和GB18030的前身,对于处理简体中文文本很有用,但在处理其他语言或繁体中文时会遇到问题。 6. Big5编码:大五码,又...
这篇文档将深入探讨这两个编码系统,以及它们在处理中文字符,包括简体和繁体中文时的角色。 首先,ASCII码(American Standard Code for Information Interchange,美国信息交换标准代码)是1963年由美国国家标准...
总之,汉字和数字转换成英文字母是编程中常见的需求,涉及到字符编码、数据类型转换、字符串操作等多种技术。掌握这些知识有助于我们更好地理解和处理与字符编码相关的各种问题,提升我们的编程技能。在实践中,我们...
在这个场景下,它可能提供了如何使用“中英文字符编码查询工具”的指导,例如如何查询特定字符的编码,或者如何查看和转换不同编码之间的字符。 总的来说,这个工具提供了对字符编码深入理解和操作的机会。无论是...
这个方法接受一个字符集名称作为参数,返回一个字节数组,其长度即为字符串在指定编码下的字节数。例如,上述代码示例展示了如何通过这个方法计算"测试"在不同编码下的字节数。 需要注意的是,如果不指定编码方式,...
在信息技术领域,字符集编码是数据存储与传输的基础之一,它关乎如何将人类可读的文字转换为计算机可以处理的二进制格式。本文旨在介绍几种常见的字符集编码方式,从最初的ASCII编码到后来发展起来的各种扩展编码...