java采用UNICODE来表示字符,究竟是怎么表示的呢?其实就是int类型与char的对应关系。char强制转化为int的数值,再转换为16进制,就是UNICODE中的代码点,如下代码:
char c = '一';
System.out.println((int)c);
System.out.println(Integer.toHexString(c));
输出结果为:
19968
4e00
以上2个数值,就是这个字符在UNICODE码表中的位置,也就是代码点(code point),是一个抽象的概念,和具体的字符集无关。在java中,char是用2个字节表示的,所以,最多只能支持65536个字符。事实上,UNICODE支持的字符数要大于65536,为此,java中采用了拼2个char的方式,来表示超出65536范围的字符(就是java中提到的增补字符)。具体,可以参考Character相关的javadoc文档。
同样,可以根据一个UNICODE代码点(int数值),来输出对应的UNICODE字符,如下代码:
for (int i=0;i<256;i++) {
System.out.println((char)i);
}
输出的不可打印字符,用表示了。
ASCII码表及ISO-8859-1中,字符的HTML Entity Code数值都是采用代码点的10进制表示的。
UNICODE官方网址:http://www.unicode.org
待完善...
分享到:
相关推荐
随着Unicode字符集的不断扩大,UCS-2已经不足以覆盖所有字符,因此引入了更高级的编码方式——UTF-16。UTF-16仍然使用16位的基本单位,但对于超出基本多文种平面(Basic Multilingual Plane,BMP)的字符,则使用更...
在Java编程语言中,Unicode编码是一种广泛使用的字符集,它包含了世界上几乎所有的文字,包括中文。Unicode使得在程序中处理不同语言的文本变得更加方便。本文将深入探讨如何在Java中进行中文字符到Unicode编码的...
而UTF-16始终使用两个字节表示每个码点,因此对于大多数Unicode字符集来说,UTF-16更紧凑,但在处理包含大量ASCII字符的文本时,UTF-8则更节省空间。 总结,这个示例展示了如何在Java中处理Unicode和十六进制字符串...
### 关于GBK和Unicode字符集转换乱码问题 在计算机科学与互联网技术中,字符集是一种用于表示文本的标准集合,不同的字符集适用于不同的语言环境。本文将深入探讨GBK与Unicode这两种字符集之间的转换问题,特别是在...
总之,《Java语言程序设计-统一代码(Unicode)字符集》不仅介绍了Unicode字符集的基本概念和结构,还深入讲解了如何在Java环境中有效利用这一强大工具。对于任何希望在软件开发中处理复杂文本的程序员而言,掌握...
在Java开发中,连接Oracle数据库是一项常见的任务,尤其是在处理特定字符集如American ASCII7时,开发者需要对字符编码有深入的理解。Oracle数据库支持多种字符集,包括ASCII,它是最基础的7位字符集,包含32个控制...
在深入探讨JAVA与字符集编码问题之前,我们首先需要理解不同字符集编码的基本概念以及它们在JAVA环境中的应用。字符集编码是计算机系统中表示文字的一种方式,它决定了如何将字符转换为二进制数据,以便于存储和传输...
在给定的文件中,虽然部分内容难以直接解析为明确的IT知识,但通过其标题“常用的java汉字unicode编码”以及描述“该文档有常用的java汉字unicode编码”,我们可以深入探讨与之相关的知识点。 ### Unicode编码的...
Unicode字符集,全称为“统一码”或“万国码”,是计算机领域中广泛采用的一种字符编码标准。它的设计目标是为全球各种语言的每一个字符提供一个唯一且统一的二进制表示,以便于跨语言、跨平台的文本处理。Unicode自...
基本字符集主要包含在Java运行时库`rt.jar`中,涵盖了常见的国际标准和一些特定编码方式。具体包括以下几种: - **ASCII**:即美国信息交换标准代码(American Standard Code for Information Interchange),这是...
- 字符集:字符集是多个字符的集合,常见的字符集有ASCII字符集、GB2312字符集、GBK字符集、BIG5字符集、GB18030字符集和Unicode字符集。 2. 字符集和编码 - 字符:计算机中用于表示信息的字母、汉字、符号等。 - ...
在 Java 环境中,编译器和 JVM 默认使用 Unicode 字符集。这意味着 Java 源文件会被编译器按照系统默认编码读取,然后转换为 Unicode 编码保存。例如,使用 javac 命令编译时,会将所有的字符转化为 Unicode 格式...
### Java中的字符集编码入门(六):Java中的增补字符 #### 一、引言 随着全球化进程的加速和技术的发展,字符集编码已经成为软件开发不可或缺的一部分。Java 作为一种广泛使用的编程语言,对于字符集的支持至关...
在探讨Java字符集和编码之前,我们先了解一下为什么在Java编程中需要关注字符集和编码。Java作为一种广泛应用的编程语言,其内部采用的是Unicode编码,这使得Java能够很好地支持全球化的应用开发。然而,在实际的...
Java中的字符集是一个重要的概念,尤其对于处理多语言文本或者跨平台的数据交换至关重要。Java语言内部使用Unicode编码,具体来说是UTF-16格式,这意味着每个`char`类型变量能够表示一个Unicode字符,通常占据两个...
本文旨在深入探讨与Java相关的字符集编码知识,包括但不限于编码的基本概念、几种常见的字符集编码类型及其特点,以及Java如何处理这些字符集编码问题。 #### 二、编码基本知识 1. **ISO 8859-1** ISO 8859-1是...
UTF-16是一种变长的Unicode编码,它可以表示Unicode字符集中所有的字符,每个字符通常由1至4个字节组成,但在Java中,每个`char`类型变量占用两个字节。 在Java中,无论是声明的`char`变量,还是`String`对象,它们...
字符集是表示字符的规则集合,Java使用Unicode字符集。常见的字符集有ASCII、GBK、UTF-8等。在Java中,字符流处理涉及字符集转换: 1. InputStreamReader和OutputStreamWriter 这两个类在字节流和字符流之间起桥梁...
由于Unicode字符可能占用多个字节,因此,基于字节的长度计算可能与基于字符的长度不一致。例如,一个英文单词的长度和一个汉字的长度在字节上可能相同,但在字符数上却不同。 在汉化过程中,Unicode的作用尤为重要...
UTF-16编码则使用2个或4个字节来表示Unicode字符,前65536个字符(U+0000至U+FFFF)保持不变,适合处理包含大量Unicode字符的文本,尤其在Java中,字符串默认采用UTF-16编码。UTF-32则是最直观的编码,每个字符都用...