UTF-8 编码问题

leidiqiu

浏览: 136114 次
性别:
来自: 北京

最近访客更多访客>>

czl026

ljlowkey

熊佳佳

china123123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

笔试面试题

面试编程

今天太囧了，面试被问到一个编码的问题，原因是在简历里列了一个曾经写的 Unicode 转换的小程序，不过也是不知道多少年前的事情，全忘了，唉，不爽。

Unicode 编码，所有字符一律 2 个字节（有些特殊 4 个字节），它可以表示世界上任何一种符号，具有通用性，但是由于 ASCII 字符占 1 个字节，这就造成了 ASCII 字符的第一个字节总是 0 ，浪费了空间。在实际操作中，就对 Unicode 码进行编码，常用的方式就是 UTF-8。UTF-8 采用变长方式存储，长度 1-6 字节，一般情况下是 1，3 字节。这种做法是，英文字符占 1 个字节，汉字等占 3 个字节，由于英文作为世界语言，用的最广最多，所以就牺牲其他国家语言的表示方式了，没办法，谁叫它牛呢。

例子如下：

字符 'z'

ASCII 为 0x7f ，二进制 0111 1111

Unicode big endian 为 0x00 0x7f ，二进制为 0000 0000 0111 1111

UTF-8 为 0x7f ，二进制 0111 1111

字符 '我'

Unicode big endian 为 0x62 0x11，二进制为 0110 0010 0001 0001

UTF-8 为 0xe6 0x88 0x91 ，二进制 1110 0110 1000 1000 1001 0001

注意：红色的部分为 UTF-8 的固定部分，剩下的就是 Unicode big endian 的代码

可以做个试验：

打开记事本，输入汉字：“我”

以 ANSI 保存为 ansi.txt

以 Unicode 保存为 unicode.txt

以 Unicode big endian 保存为 unicode_b.txt

以 UTF-8 保存为 utf-8.txt

分别用WinHex或UltraEdit等工具以二进制文件打开，发现：

ansi.txt

CE D2 - 1100 1110 1101 0010

Unicode.txt

FF FE 11 62 - 1111 1111 1111 1110 0001 0001 0110 0010

unicode_b.txt

FE FF 62 11 - 1111 1110 1111 1111 0110 0010 0001 0001

utf-8.txt

EF BB BF E6 88 91 - 1110 1111 1011 1011 1011 1111 1110 0110 1000 1000 1001 0001

相信大家看出其中的玄机了：

对汉字而言，ANSI 其实就是 GBK。

在VC6中，

char *p="我";

循着 p 查看其内容为 CE D2

在Java中，

	String s = new String("我");
	try {
		byte[] b = s.getBytes();
		System.out.println(b[0] + 0);
		System.out.println(b[1] + 0);
	} catch (Exception e) {
		e.printStackTrace();
	}

结果输出
-50
-46
其实就是 CE D2

Unicode 和 Unicode big endian 区别在于顺序问题。（简直就是废话）

以 Unicode 保存，会在前面加上 FF FE 或者 FE FF 。

Unicode big endian 和 UTF-8 差别在于加上了固定的字符，样式如下：

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

x为Unicode的编码。1 的个数表示这个编码的字节数。搞得有点像 ABCDE 类 IP 地址似的。

对于 1 个字节的，就是 ASCII 码，占 1 个字节。

对于 2 个字节的，00 80 - 07 ff ，占 2 个字节，08 00 - ff ff，占 3 个字节。

对于 4 个字节的，以此类推。4 个字节一般都是些特殊字符或是备用空间。

一个有意思的现象就是，"联通"这个词的 ANSI/GBK：C1 AA CD A8。

二进制：1100 0001 1010 1010 1100 1101 1010 1000

标注一下看得更清楚：1100 0001 1010 1010 1100 1101 1010 1000

正好符合 UTF-8 的规则，但是 0001 1010 1011 0110 1000 确无对应的显示字符。

因此，打开记事本，输入"联通" 两个字，以 ANSI 保存，再打开就是乱码。（一个黑框）

倒霉遇上了一个搞编码的面试官，还说到 MD5 ，晕，最后让写代码，实现字符数组编程字符串：

给出：a[]={0xFE,0x8E,0x7F}

返回：FE8E7F

乱写一通，交差了事，基本宣告面试的终结，又打一次酱油！

分享到：

去除源文件中的注释 | VM + Ubuntu 的简单配置

2010-12-09 20:23
浏览 1164
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论