`
changshan
  • 浏览: 5885 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

Unicode 的编码和实现

阅读更多

大概来说,Unicode 编码系统可分为编码方式和实现方式两个层次。

编码方式

Unicode 的编码方式与 ISO 10646通用字符集(Universal Character Set,UCS)概念相对应,目前实际应用的 Unicode 版本对应于 UCS-2,使用16的编码空间。也就是每个字符占用2个字节。这样理论上一共最多可以表示 216 个字符。基本满足各种语言的使用。实际上目前版本的 Unicode 尚未填充满这16位编码,保留了大量空间作为特殊使用或将来扩展。

上述16位 Unicode 字符构成基本多文种平面(Basic Multilingual Plane, 简称 BMP)。最新(但未实际广泛使用)的 Unicode 版本定义了16个辅助平面,两者合起来至少需要占据21位的编码空间,比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间,与 UCS-4 保持一致。未来版本会扩充到 ISO 10646-1 实现级别3,即涵盖 UCS-4 的所有字符。UCS-4 是一个更大的尚未填充完全的31位字符集,加上恒为0的首位,共需占据32位,即4字节。理论上最多能表示 231 个字符,完全可以涵盖一切语言所用的符号。

BMP 字符的 Unicode 编码表示为 U+hhhh,其中每个 h 代表一个十六进制数位。与 UCS-2 编码完全相同。对应的4字节 UCS-4 编码后两个字节一致,前两个字节的所有位均为0。

关于 Unicode 和 ISO 10646 及 UCS 的详细关系 ,请参看通用字符集

实现方式

Unicode 的实现方式不同于编码方式。一个字符的 Unicode 编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对 Unicode 编码的实现方式有所不同。Unicode 的实现方式称为Unicode转换格式(Unicode Translation Format,简称为 UTF)。

例如,如果一个仅包含基本7位ASCII字符的 Unicode 文件,如果每个字符都使用2字节的原 Unicode 编码传输,其第一字节的8位始终为0。这就造成了比较大的浪费。对于这种情况,可以使用 UTF-8 编码,这是一种变长编码,它将基本7位ASCII字符仍用7位编码表示,占用一个字节(首位补0)。而遇到与其他 Unicode 字符混合的情况,将按一定算法转换,每个字符使用1-3个字节编码,并利用首位为0或1进行识别。这样对以7位ASCII字符为主的西文文档就大大节省了 编码长度(具体方案参见UTF-8)。类似的,对未来会出现的需要4个字节的辅助平面字符和其他 UCS-4 扩充字符,2字节编码的 UTF-16 也需要通过一定的算法进行转换。

再如,如果直接使用与 Unicode 编码一致(仅限于 BMP 字符)的 UTF-16 编码,由于每个字符占用了两个字节,在Macintosh机和PC机上对字节顺序的理解是不一致的。这时同一字节流可能会被解释为不同内容,如编码为 U+594E 的字符“奎”同编码为 U+4E59 的“乙”就可能发生混淆。于是在 UTF-16 编码实现方式中使用了大尾序(big-endian)、小尾序(little-endian)的概念,以及BOM(Byte Order Mark)解决方案。(具体方案参见UTF-16

此外 Unicode 的实现方式还包括 UTF-7PunycodeCESU-8SCSUUTF-32等,这些实现方式有些仅在一定的国家和地区使用,有些则属于未来的规划方式。目前通用的实现方式是 UTF-16小尾序(BOM)、UTF-16大尾序(BOM)和 UTF-8。在微软公司Windows XP操作系统附带的记事本中,“另存为”对话框可以选择的四种编码方式除去非 Unicode 编码的 ANSI 外,其余三种“Unicode”、“Unicode big endian”和“UTF-8”即分别对应这三种实现方式。

目前辅助平面的工作主要集中在第二和第三平面的中日韩统一表意文字中,因此包括GBKGB18030Big5简体中文正体中文日文韩文以及越南字喃的各种编码与 Unicode 的协调性被重点关注。考虑到 Unicode 最终要涵盖所有的字符,从某种意义而言,这些编码方式也可视作 Unicode 的出现于其之前的既成事实的实现方式,如同ASCII及其扩展Latin-1一样,后两者的字符在16位 Unicode 编码空间中的编码第一字节各位全为0,第二字节编码与原编码完全一致。但上述东亚语言编码与 Unicode 编码的对应关系要复杂得多。

非 Unicode 环境

在非 Unicode 环境下,由于不同国家和地区采用的字符集不一致,很可能出现无法正常显示所有字符的情况。微软公司使用了代码页(Codepage) 转换表的技术来过渡性的部分解决这一问题,即通过指定的转换表将非 Unicode 的字符编码转换为同一字符对应的系统内部使用的 Unicode 编码。可以在“语言与区域设置”中选择一个代码页作为非 Unicode 编码所采用的默认编码方式,如936为简体中文GBK,950为正体中文Big5(皆指PC上使用的)。在这种情况下,一些非英语的欧洲语言编写的软件和 文档很可能出现乱码。而将代码页设置为相应语言中文处理又会出现问题,这一情况无法避免。从根本上说,完全采用统一编码才是解决之道,但目前尚无法做到这 一点。

代码页技术现在广泛为各种平台所采用。UTF-7 的代码页是65000,UTF-8 的代码页是65001。

XML 和 Unicode

XML及其子集HTML采用UTF-8作为标准字集,理论上我们可以在各种支持XML标准的浏览器上显示任何地区文字的网页,只要电脑本身安装有合适的字体即可。可以利用&#nnn;的格式显示特定的字符。nnn代表该字符的十进制 Unicode 代码。如果采用十六进制代码,在编码之前加上x字符即可。但部分旧版本的浏览器可能无法识别十六进制代码。


然而部分由于 Unicode 版本发展原因,很多浏览器只能显示 UCS-2 完整字符集也即现在使用的 Unicode 版本中的一个小子集。下表可以检验您的浏览器怎样显示各种各样的 Unicode 代码:

代码字符标准名称 (英语)在浏览器上的显示
A 大写拉丁字母"A" A
ß 小写拉丁字母"Sharp S" ß
þ 小写拉丁字母"Thorn" þ
Δ 大写希腊字母"Delta" Δ
Й 大写斯拉夫字母"Short I" Й
ק 希伯来字母"Qof" ק
م 阿拉伯字母 "Meem" م
๗ 泰文数字 7
ቐ 埃塞俄比亚音节文字"Qha"
あ 日语平假名 "A"
ア 日语片假名 "A"
叶 简体汉字 "叶"
葉 正体汉字 "葉"
엽 韩国音节文字 " Yeob"


输入Unicode

除了输入法外,操作系统会提供几种方法输入Unicode。像是Windows 2000之后的Windows系统就提供一个可点击的表。例如在Microsoft Word之下,按下 Alt 键不放,输入 0 和某个字符的 Unicode 编码(十进制),再松开 Alt 键即可得到该字符,如Alt + 033865会得到Unicode字符。另外按Alt + X 组合键,MS Word 也会将光标前面的字符同其十六进制的四位 Unicode 编码进行互相转换。

汉字问题

Unicode的汉字处理方法一直备受抨击。有指这种把数万汉字逐一编码的方式,非常浪费资源,要把汉字加到Unicode标准中也不容易。也有批评处理Unicode中汉字编码的专家,并不是真正研究汉字的学者。[1]从早期的中文电脑时期开始,已有研究以部件产生汉字,取代汉字逐一编码方法,其中以朱邦复汉字基因工程成效最丰。

分享到:
评论

相关推荐

    Unicode编码和双向算法(bidi)详解.pdf

    "Unicode编码和双向算法(bidi)详解" 本文对 Unicode 编码和双向算法(bidi)进行了详细的讲解,涵盖了 Unicode 编码的基本概念、UTF-8 和 UTF-16 编码方式、双向算法的基本规则和实现细节等内容。 Unicode 编码是...

    完整Unicode编码表

    对于想要深入了解Unicode编码表及其变化,以及正确实现和支持Unicode标准的用户,Unicode官方网站提供了丰富的资源,包括但不限于Unicode标准的各个章节(如Annexes #9, #11, #14等),其他技术报告、标准以及...

    最全 Unicode 编码表 5.0,带索引

    Unicode编码表不仅为计算机系统提供字符的编码,还涉及了字体设计、版权保护、以及对字符正确使用和实现的指导。在实际应用中,为了正确地使用Unicode编码表,开发者和设计者需要充分理解其内容,并遵守相关的使用...

    汉字与unicode编码(十六进制)对照表

    在这个“汉字与unicode编码(十六进制)对照表”中,我们可以找到汉字与其对应的Unicode编码,这对于编程、文本处理以及国际化和本地化工作来说具有重要的参考价值。 Unicode编码系统包括多个平面,其中基本多文种...

    Unicode中文编码对照表

    标签“源码”暗示了这个话题可能涉及到编程和代码实现,可能讲解了如何在编程语言中使用Unicode编码来处理中文字符,例如Java、Python或C++。而“工具”标签则可能意味着存在某种工具或库,可以帮助开发者进行...

    得到字符或汉字的Unicode编码

    Unicode编码有多种实现方式,如UTF-8、UTF-16和UTF-32等。其中,UTF-8是最常用的一种,因为它具有良好的向后兼容性,并且在处理英文字符时效率较高。 在C语言中,处理Unicode编码通常需要使用宽字符(wchar_t)和宽...

    Unicode编码转换源码

    Unicode编码是一种国际标准,旨在解决不同语言和字符集之间的兼容性问题。Unicode编码转换源码主要关注如何在不同的编码格式之间进行转换,如从普通字符到Unicode,以及从Unicode到UTF-8编码。 首先,我们来了解...

    Unicode编码表.zip

    Unicode编码有多种实现方式,最常见的有UTF-8、UTF-16和UTF-32。UTF-8是最广泛使用的,因为它在处理英文和其他主要使用拉丁字母的语言时效率很高,且与ASCII兼容。UTF-16则使用两个或四个字节来表示一个字符,对于...

    c语言利用编码转换表实现gbk与unicode互转

    要在C语言中进行GBK和Unicode之间的转换,我们需要一个转换表,这个表中记录了每个字符在GBK和Unicode编码中的对应关系。这个表可以通过查阅相关资料或网上搜索获取。例如,你可以找到GBK到Unicode的转换表,以及...

    ios Unicode编码日志处理

    在iOS开发过程中,Unicode编码是一个重要的概念,它用于表示世界上几乎所有的文字系统,包括中文、英文、日文等。...对于任何iOS开发者来说,理解和掌握Unicode编码以及如何在日志中正确处理它是至关重要的。

    IconfontTool.7z 阿里巴巴iconfont 字体库,显示图标及相应的unicode 编码。 .NET 5平台

    IconfontTool可能是专门为.NET 5平台设计的一个实用工具,它允许用户查看和管理Iconfont中的图标及其Unicode编码。这个工具可能具有以下功能: 1. **图标浏览**:提供一个图形界面,用户可以预览和搜索Iconfont库中...

    unicode编码与汉字的对应关系

    例如,在Java编程语言中,可以利用内置的字符类和字符串类来处理Unicode编码的汉字。上述代码示例虽然没有直接涉及汉字处理,但它展示了如何在程序中使用循环和算术运算,这是编程基础的一部分,与深入理解Unicode...

    易语言unicode编码到GBK

    5. 源码实现:在提供的“易语言unicode编码到GBK源码”文件中,我们可以看到具体的转换逻辑。源码可能包含读取Unicode字符串,使用特定函数转换,然后保存为GBK编码的步骤。分析这段代码有助于深入理解易语言的编码...

    最全的unicode 汉字编码表

    ### 最全的Unicode汉字编码表知识点解析 #### Unicode与汉字编码概述 - **Unicode简介**:Unicode是一种国际标准...了解和掌握Unicode编码的基本原理和使用方法,有助于更好地在全球化环境下进行信息交流和技术开发。

    生成Unicode编码的文本文件示例

    当我们需要处理跨语言或多语言的文本时,Unicode编码,特别是UTF-16(Unicode Transformation Format - 16位)就显得非常有用,因为它可以支持各种语言的字符,而不会出现乱码问题。在VB(Visual Basic)中,生成...

    Unicode字符编码表

    Unicode编码还定义了多个平面(planes),平面是Unicode编码空间的子集。到目前为止,Unicode定义了17个平面,其中最常用的是基本多语言平面(BasicMultilingualPlane,BMP),它包含了大多数常用的字符,代码点从U+...

    Unicode编码源代码

    - **国际化与本地化**: Unicode编码是实现软件国际化和本地化的关键,因为它能兼容各种语言的字符,使程序能适应不同的语言环境。 - **字符串比较和搜索**: Unicode编码允许正确比较和搜索包含多种语言的字符串,...

Global site tag (gtag.js) - Google Analytics