Utf-8编码是如何工作的

peterwillcn

浏览: 3290 次
性别:
来自: 北京

最近访客更多访客>>

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (2)

社区版块

存档分类

工作 XP JVM C C++

Utf-8编码是如何工作的讲起。

（JVM规范第4.4.7提了一些，O'Reilly出的Java I/O里讲的比较详细,我手里的是第一版,在第14章,Mutillingual Character Sets and Unicode)

Java用的Unicode用两个字节表示一个charater,字母A用Hex表示是00 41， B是00 42，在一个纯英文的环境里面，直接存成Unicode的文件一半都是由零组成的，浪费资源。Utf-8的主要目的是对ASCII表格头128个字母优化，牺牲的是对中文字符的存储。

头128个字节(0到127），可以用七个bit来表示，x6 x5 x4 x3 x2 x1 x0.第八个bit永远是0

例子，A, 用Hex表示是00 41，去掉开头的零字节是Hex 41，转成二进制是 0100 0001。XP带的计算器可以在Hex和Binary
之间转换，自己试试。

第128到2047个字节，要用10个bit来表示

代码

0 0 0 0 0 x10 x9 x8
7 x6 x5 x4 x3 x2 x1 x0

Utf-8就把这些字节编成下面这样的两个byte

代码

1 1 0 x10 x9 x8 x7 x6
1 0 x5 x4 x3 x2 x1 x0

第2048到65535个字节，要用16个bit来表示，Utf-8把这些字节编成下面这样的三个byte

代码

1 1 1 0 x15 x14 x13 x12
1 0 x11 x10 x9 x8 x7 x6
1 0 x5 x4 x3 x2 x1 x0

读一个Utf-8编码的array，如果第一个byte的高位是1110，那么要连读下面两个以 10 开头的byte。如果一个byte的高位是110，那么要连读下面一个以 10 开头的byte。
如果一个byte的高位是0，那么这个byte就是一个字符了。

可以做个练习，中文字"哈"的Unicode编码是Hex 54 C8,转成Utf-8是什么？

Hex 54 C8 转成十进制是21704，转成Utf-8后要用三个byte，找张纸，画三行，每行8个格子，第一行头四个格子填上1110，第二行头两个格子填上10，第三行头两个格子填上10。剩下的自己算算。然后和这个程序的结果比较一下。

http://www.ingrid.org/java/i18n/utf-16/

代码

public class Test {
public static void main(String[] args) {
char c[] = { '\u54c8' };
String ha = new String(c);
byte b[] = null;
try {
b = ha.getBytes("utf-8");
} catch (Exception e) { System.exit(-1);}
for(int i=0; i
System.out.print(Integer.toHexString(b[i]).substring(6) + " ");
}
System.out.println();
}
}

分享到：

对Java程序多态性支持的改进

2007-05-25 11:32
浏览 1619
评论(1)
查看更多

1 楼 peterwillcn 2007-09-06

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论