今天太囧了,面试被问到一个编码的问题,原因是在简历里列了一个曾经写的 Unicode 转换的小程序,不过也是不知道多少年前的事情,全忘了,唉,不爽。
Unicode 编码,所有字符一律 2 个字节(有些特殊 4 个字节),它可以表示世界上任何一种符号,具有通用性,但是由于 ASCII 字符占 1 个字节,这就造成了 ASCII 字符的第一个字节总是 0 ,浪费了空间。在实际操作中,就对 Unicode 码进行编码,常用的方式就是 UTF-8。UTF-8 采用变长方式存储,长度 1-6 字节,一般情况下是 1,3 字节。这种做法是,英文字符占 1 个字节,汉字等占 3 个字节,由于英文作为世界语言,用的最广最多,所以就牺牲其他国家语言的表示方式了,没办法,谁叫它牛呢。
例子如下:
字符 'z'
ASCII 为 0x7f ,二进制 0111 1111
Unicode big endian 为 0x00 0x7f ,二进制为 0000 0000 0111 1111
UTF-8 为 0x7f ,二进制 0111 1111
字符 '我'
Unicode big endian 为 0x62 0x11,二进制为 0110 0010 0001 0001
UTF-8 为 0xe6 0x88 0x91 ,二进制 1110 0110 1000 1000 1001 0001
注意:红色的部分为 UTF-8 的固定部分,剩下的就是 Unicode big endian 的代码
可以做个试验:
打开记事本,输入汉字:“我”
以 ANSI 保存为 ansi.txt
以 Unicode 保存为 unicode.txt
以 Unicode big endian 保存为 unicode_b.txt
以 UTF-8 保存为 utf-8.txt
分别用WinHex或UltraEdit等工具以二进制文件打开,发现:
ansi.txt
CE D2 - 1100 1110 1101 0010
Unicode.txt
FF FE 11 62 - 1111 1111 1111 1110 0001 0001 0110 0010
unicode_b.txt
FE FF 62 11 - 1111 1110 1111 1111 0110 0010 0001 0001
utf-8.txt
EF BB BF E6 88 91 - 1110 1111 1011 1011 1011 1111 1110 0110 1000 1000 1001 0001
相信大家看出其中的玄机了:
在VC6中,
char *p="我";
循着 p 查看其内容为 CE D2
在Java中,
String s = new String("我");
try {
byte[] b = s.getBytes();
System.out.println(b[0] + 0);
System.out.println(b[1] + 0);
} catch (Exception e) {
e.printStackTrace();
}
结果输出
-50
-46
其实就是 CE D2
- Unicode 和 Unicode big endian 区别在于顺序问题。(简直就是废话)
以 Unicode 保存,会在前面加上 FF FE 或者 FE FF 。
- Unicode big endian 和 UTF-8 差别在于加上了固定的字符,样式如下:
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
x为Unicode的编码。1 的个数表示这个编码的字节数。搞得有点像 ABCDE 类 IP 地址似的。
对于 1 个字节的,就是 ASCII 码,占 1 个字节。
对于 2 个字节的,00 80 - 07 ff ,占 2 个字节,08 00 - ff ff,占 3 个字节。
对于 4 个字节的,以此类推。4 个字节一般都是些特殊字符或是备用空间。
一个有意思的现象就是,"联通"这个词的 ANSI/GBK:C1 AA CD A8。
二进制:1100 0001 1010 1010 1100 1101 1010 1000
标注一下看得更清楚:1100 0001 1010 1010 1100 1101 1010 1000
正好符合 UTF-8 的规则,但是 0001 1010 1011 0110 1000 确无对应的显示字符。
因此,打开记事本,输入"联通" 两个字,以 ANSI 保存,再打开就是乱码。(一个黑框)
倒霉遇上了一个搞编码的面试官,还说到 MD5 ,晕,最后让写代码,实现字符数组编程字符串:
给出:a[]={0xFE,0x8E,0x7F}
返回:FE8E7F
乱写一通,交差了事,基本宣告面试的终结,又打一次酱油!
分享到:
相关推荐
如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节,而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了,但很少会遇到那样的UNICODE...
标签“pb9 utf-8”明确了讨论的是与PowerBuilder 9相关的UTF-8编码问题。UTF-8是一种广泛使用的Unicode字符编码,能够表示Unicode字符集中几乎所有的字符,包括世界各地的多种语言文字。 在压缩包的文件列表中,有...
netbeans文件并不是用utf-8编码的,所以若果jsp见中文用utf--8编码的话,就会出现乱码,该图片就是解决这个问题的
在C++编程中,UTF-8编码是一种广泛使用的字符编码标准,它能够表示Unicode字符集中的所有字符。本文将深入探讨如何在C++中处理UTF-8字符串,并介绍相关的关键概念和技术。 首先,C++标准库并没有直接支持UTF-8编码...
标题中的“中文-UTF-8编码转换器”指的是一个软件工具,它的主要功能是帮助处理中文和其他特殊字符在UTF-8编码环境下可能出现的乱码问题。UTF-8是一种广泛使用的Unicode字符编码方案,它可以表示Unicode标准中的所有...
GBK、UTF-8批量文件3秒快速转码工具(支持GBK,UTF-8免费转换),UTF-8/GBK编码在线转换工具,压缩包可以有多目录与文件,如目录中有图片不会转码,但是会随转码好的文件一起打包下载。 使用帮助 . 上传压缩包(仅支持zip...
在LabVIEW编程环境中,"UTF-8toGBK.vi"这个程序可能是一个用户自定义的VI(Virtual Instrument),用于将UTF-8编码的字符串转换为GBK编码。LabVIEW作为一个图形化编程语言,提供了丰富的字符串处理函数,其中包括了...
为大家提供Python的UTF-8编码查询表,大家可以对照左列的编码查询右列的汉字。 例:\u4e00对应汉字“一”
使用 UTF-8 编码可以确保生成的 XML 文件能够正确地表达 Unicode 字符,从而避免字符乱码的问题。此外,UTF-8 编码也是 XML 文件的默认编码格式,使用它可以与其他系统和应用程序进行良好的集成。 需要注意的是,在...
UTF-8编码是一种广泛使用的字符编码标准,它在信息技术领域起着至关重要的作用。这个“UTF-8编码转换器”工具旨在帮助用户方便地将文本数据从其他编码格式转换为UTF-8,确保数据在不同系统和平台之间的兼容性。 在...
UTF-8编码和GBK编码互转,一个头文件搞定!跨平台不使用第三方库。只需要添加一些C语言标准的头文件即可实现俩种编码互相转换。摆脱第三方库移植问题。原理是将UTF-8编码的汉字、字母、符号、数字等转换成unicode...
描述中的“通过本人亲自己测试修改”表明这个版本的百度编辑器ASP版UTF-8编码可能已经过作者的个人优化,解决了原版可能存在的问题或者增加了特定功能,以适应特定的开发需求或环境。这可能包括修复了一些已知的bug...
在IT领域,文本文件的编码方式对于正确地读取和处理文本至关重要。UTF-8是一种广泛使用的字符编码标准,能够表示...在实际开发中,我们应该养成良好的编码习惯,尽量使用标准的UTF-8编码,以减少潜在的兼容性问题。
最近的项目(Delphi开发),需要经常和java语言开发的系统进行数据交互(Socket通信方式),数据编码约定采用UTF-8编码。 令我无语的是:JAVA系统那边反映说,Delphi发的数据他们收到是乱码,而我这边(Delphi7,...
### UTF-8编码详解与汉字码表解析 #### UTF-8编码原理 UTF-8(Unicode Transformation Format - 8 bits)是一种变长字符编码,由Ken Thompson于1992年设计,旨在解决多语言环境下字符编码兼容性问题。其核心优势...
总之,UTF-8编码转换工具是一个实用的工具,可以帮助用户在处理各种编码问题时进行转换。了解UTF-8编码的工作原理和应用场景,对于从事IT工作的人来说是必不可少的基础知识。在实际工作中,无论是开发网页、编写代码...
解决SAS EG导入UTF-8编码文本数据文件的乱码问题,通常需要在导入文件之前明确指定文件的编码类型。SAS EG提供了编码识别和转换的选项,但正确识别UTF-8编码的中文字符可能需要一些额外的步骤。为了解决乱码问题,...
UTF-8编码是一种广泛使用的字符编码标准,它能够表示Unicode字符集中的所有字符。在Visual Basic编程环境中,处理UTF-8编码的文件或数据时,你需要理解如何读取、写入以及转换UTF-8格式的数据。以下是一些关键的知识...
### UTF-8编码详解 #### 一、简介 在计算机科学领域中,字符编码是将字符映射到二进制数字的一种方式。其中,UTF-8(8位通用转换格式)是一种可变长度的字符编码,它兼容ASCII,并且能够表示Unicode标准中的所有...
本话题主要关注IDEA对带有Byte Order Mark(BOM)的UTF-8编码文件的支持。 UTF-8是一种广泛使用的Unicode字符编码方案,它可以表示Unicode字符集中的所有字符。BOM,即字节顺序标记,是UTF-8编码中可选的一部分,...