本文转自 http://tech.idv2.com/2008/02/21/unicode-intro/
个人觉得是一篇很不错的,深度控制得很好的 介绍Unicode的文章,之所以列在“String 研究”分类下,因为unicode是Character的基础,当然也是String的基础。
基本知识
介绍Unicode之前,首先要讲解一些基础知识。虽然跟Unicode没有直接的关系,
但想弄明白Unicode,没这些还真不行。
字节和字符的区别
咦,字节和字符能有什么区别啊?不都是一样的吗?完全正确,但只是在古老的DOS时代。
当Unicode出现后,字节和字符就不一样了。
字节(octet)是一个八位的存储单元,取值范围一定是0~255。而字符(character,或者word)
为语言意义上的符号,范围就不一定了。例如在UCS-2中定义的字符范围为0~65535,
它的一个字符占用两个字节。
Big Endian和Little Endian
上面提到了一个字符可能占用多个字节,那么这多个字节在计算机中如何存储呢?
比如字符0xabcd,它的存储格式到底是 AB CD,还是 CD AB 呢?
实际上两者都有可能,并分别有不同的名字。如果存储为 AB CD,则称为Big Endian
;
如果存储为 CD AB,则称为Little Endian
。
具体来说,以下这种存储格式为Big Endian,因为值(0xabcd)的高位(0xab)存储在前面:
地址 |
值 |
0×00000000 |
AB |
0×00000001 |
CD |
相反,以下这种存储格式为Little Endian:
地址 |
值 |
0×00000000 |
CD |
0×00000001 |
AB |
UCS-2和UCS-4
Unicode是为整合全世界的所有语言文字而诞生的。任何文字在Unicode中都对应一个值,
这个值称为代码点
(code point)。代码点的值通常写成 U+ABCD 的格式。
而文字和代码点之间的对应关系就是UCS-2
(Universal Character Set coded in 2 octets)。
顾名思义,UCS-2是用两个字节来表示代码点,其取值范围为 U+0000~U+FFFF。
为了能表示更多的文字,人们又提出了UCS-4,即用四个字节表示代码点。
它的范围为 U+00000000~U+7FFFFFFF,其中 U+00000000~U+0000FFFF和UCS-2是一样的。
要注意,UCS-2和UCS-4只规定了代码点和文字之间的对应关系,并没有规定代码点在计算机中如何存储。
规定存储方式的称为UTF
(Unicode Transformation Format),其中应用较多的就是UTF-16和UTF-8了。
UTF-16和UTF-32
UTF-16
UTF-16由RFC2781
规定,它使用两个字节来表示一个代码点。
不难猜到,UTF-16是完全对应于UCS-2的,即把UCS-2规定的代码点通过Big Endian或Little Endian方式
直接保存下来。UTF-16包括三种:UTF-16,UTF-16BE(Big Endian),UTF-16LE(Little Endian)。
UTF-16BE和UTF-16LE不难理解,而UTF-16就需要通过在文件开头以名为BOM(Byte Order Mark)的字符
来表明文件是Big Endian还是Little Endian。BOM为U+FEFF这个字符。
其实BOM是个小聪明的想法。由于UCS-2没有定义U+FFFE,
因此只要出现 FF FE 或者 FE FF 这样的字节序列,就可以认为它是U+FEFF,
并且可以判断出是Big Endian还是Little Endian。
举个例子。“ABC”这三个字符用各种方式编码后的结果如下:
UTF-16BE |
00 41 00 42 00 43 |
UTF-16LE |
41 00 42 00 43 00 |
UTF-16(Big Endian) |
FE FF 00 41 00 42 00 43 |
UTF-16(Little Endian) |
FF FE 41 00 42 00 43 00 |
UTF-16(不带BOM) |
00 41 00 42 00 43 |
Windows平台下默认的Unicode编码为Little Endian的UTF-16(即上述的 FF FE 41 00 42 00 43 00)。
你可以打开记事本,写上ABC,然后保存,再用二进制编辑器看看它的编码结果。

另外,UTF-16还能表示一部分的UCS-4代码点——U+10000~U+10FFFF。
表示算法比较复杂,简单说明如下:
1. 从代码点U中减去0×10000,得到U’。这样U+10000~U+10FFFF就变成了 0×00000~0xFFFFF。
2. 用20位二进制数表示U’。 U’=yyyyyyyyyyxxxxxxxxxx
3. 将前10位和后10位用W1和W2表示,W1=110110yyyyyyyyyy,W2=110111xxxxxxxxxx,则 W1 = D800~DBFF,W2 = DC00~DFFF。
例如,U+12345表示为 D8 08 DF 45(UTF-16BE),或者08 D8 45 DF(UTF-16LE)。
但是由于这种算法的存在,造成UCS-2中的 U+D800~U+DFFF 变成了无定义的字符。
UTF-32
UTF-32用四个字节表示代码点,这样就可以完全表示UCS-4的所有代码点,而无需像UTF-16那样使用复杂的算法。
与UTF-16类似,UTF-32也包括UTF-32、UTF-32BE、UTF-32LE三种编码,UTF-32也同样需要BOM字符。
仅用’ABC’举例:
UTF-32BE |
00 00 00 41 00 00 00 42 00 00 00 43 |
UTF-32LE |
41 00 00 00 42 00 00 00 43 00 00 00 |
UTF-32(Big Endian) |
00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43 |
UTF-32(Little Endian) |
FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00 |
UTF-32(不带BOM) |
00 00 00 41 00 00 00 42 00 00 00 43 |
UTF-8
UTF-16和UTF-32的一个缺点就是它们固定使用两个或四个字节,
这样在表示纯ASCII文件时会有很多00字节,造成浪费。
而RFC3629
定义的UTF-8则解决了这个问题。
UTF-8用1~4个字节来表示代码点。表示方式如下:
UCS-2 (UCS-4) |
位序列 |
第一字节 |
第二字节 |
第三字节 |
第四字节 |
U+0000 .. U+007F |
00000000-0xxxxxxx |
0xxxxxxx |
|
|
|
U+0080 .. U+07FF |
00000xxx-xxyyyyyy |
110xxxxx |
10yyyyyy |
|
|
U+0800 .. U+FFFF |
xxxxyyyy-yyzzzzzz |
1110xxxx |
10yyyyyy |
10zzzzzz |
|
U+10000..U+10FFFF |
00000000-000wwwxx-&br;xxxxyyyy-yyzzzzzzz |
11110www |
10xxxxxx |
10yyyyyy |
10zzzzzz |
可见,ASCII字符(U+0000~U+007F)部分完全使用一个字节,避免了存储空间的浪费。
而且UTF-8不再需要BOM字节。
另外,从上表中可以看出,单字节编码的第一字节为[00-7F],双字节编码的第一字节为[C2-DF],
三字节编码的第一字节为[E0-EF]。这样只要看到第一个字节的范围就可以知道编码的字节数。
这样也可以大大简化算法。

- 大小: 3.4 KB
分享到:
相关推荐
其中,`[\u4e00-\u9fa5]` 是一个表示中文字符范围的正则表达式,它匹配所有在Unicode码表中位于 `\u4e00` 和 `\u9fa5` 之间的字符,即覆盖了大部分常用汉字。`"zz"` 用于替换匹配到的所有中文字符,而 `RegexOptions...
#### 二、安装步骤详解 1. **配置安全更新**: - 在安装向导的初始页面,您可以选择是否接收安全更新的通知。根据个人需求选择是否填写电子邮件地址。 - 勾选或取消勾选“我希望通过 MyOracleSupport 接受安全...
### Oracle 11g 操作详解 #### 一、Oracle 11g 安装与配置 ##### 1.1 安装准备 - **安装文件**:获取 Oracle 11g 的安装文件,通常包括数据库服务器端和客户端工具。 - **系统检测**:在安装前确保计算机满足 ...
内容概要:本文档详细介绍了 DeepSeek 这一高效、经济的人工智能解决方案,旨在为企业端、产品端以及开发者提供深度技术支持。对于企业而言,DeepSeek 带来了显著的成本效益和生产效率提升;而对于具体的产品和服务,它增强了用户体验的质量。特别是针对开发者,文档深入浅出地讲解了如何利用 DeepSeek 实现自动化代码生成、改写等辅助开发功能,并且提供了具体的步骤指导以满足不同环境下的部署需求,包括直接通过官方API接入、本地私有化部署或借助云平台进行托管的方式。 适合人群:希望降低开发门槛,提高工作效率的软件工程师和技术团队。 使用场景及目标:开发者可以根据自身条件选择最适合自己的部署方案来整合 DeepSeek 技术,进而达到优化编码过程、减少人为错误的目的。 其他说明:文中还包括了许多实际操作的例子,如通过代码改写的实例来展示如何改进现有程序段落,还有详细的API使用指南帮助初学者快速上手DeepSeek。此外,还提供了大量外部参考资料链接以便进一步扩展知识和技能范围。
lusted_3cd_01_0318
Cherry Studio是一款支持多模型服务的 Windows/macOS GPT 客户端。通过与Ollama搭配,搭建个人本地AI大模型
chromedriver-win64-136.0.7058.0.zip
matlab程序代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!
mellitz_3cd_01_1116
基于MATLAB的牛顿迭代法实现
steenman_01_0908
AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!
stone_3ck_01a_0518
AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!
lusted_3cd_01_1117
管理层情感语调,或称为管理层语调,是一个在财务与会计领域中常用的概念,特别是在分析上市公司信息披露质量时。它主要指的是管理层在上市公司文字信息披露过程中,用词所体现出的情感倾向和可理解性。 本数据复刻了《财经研究》《中南财经政法大学学报》等顶级期刊的核心解释变量的做法。情感语调对企业未来盈余和未来绩效具有较强解释力、降低会计信息误定价、为分析师预测提供增量信息,而投资者也会对管理层情感语调做出积极反应。 情感语调1=(正面词汇数量-负面词汇数量)/词汇总量;数值越大,情感倾向越偏向正面积极。 情感语调2=(正面词汇数量-负面词汇数量)/(正面词汇数量+负面词汇数量);数值越大,情感倾向越偏向正面积极。 指标 证券代码、企业代码、年份、证券简称、行业代码、行业名称、正面词汇数量、负面词汇数量、词汇总量、句子数量、文字数量、情感语调1、情感语调2。
mellitz_3cd_02_0318
moore_01_0909
lusted_3ck_02a_0119
pimpinella_3cd_01_0916