`
- 浏览:
14625 次
- 性别:
- 来自:
青岛
-
官方说法
Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
Unicode 是为了解决传统的字符编码方案的局限而产生的,例如ISO 8859所定义的字符虽然在不同的国家中广泛地使用,可是在不同国家间却经常出现不相容的情况。很多传统的编码方式都有一个共同的问题,即容许电脑处理双语环境(通常使用拉丁字母以及其本地语言),但却无法同时支援多语言环境(指可同时处多种语言混合的情况)。
Unicode 编码包含了不同写法的字,如“a / a”、“強/强”、“戶/户/戸”。然而在汉字方面引起了一字多形的认定争议。
在文字处理方面,统一码为每一个字符而非字形定义唯一的代码(即一个整数)。换句话说,统一码以一种抽象的方式(即数字)来处理字符,并将视觉上的演绎工作(例如字体大小、外观形状、字体形态、文体等)留给其他软件来处理,例如网页浏览器或是文字处理器。
目前,几乎所有电脑系统都支持基本拉丁字母,并各自支持不同的其他编码方式。Unicode为了和它们相互兼容,其首256字符保留给ISO 8859-1所定义的字符,使既有的西欧语系文字的转换不需特别考量;并且把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会遗失任何资讯。举例来说,全角格式区段包含了主要的拉丁字母的全角格式,在中文、日文、以及韩文字形当中,这些字符以全角的方式来呈现,而不以常见的半角形式显示,这对竖排文字和等宽排列文字有重要作用。
在表示一个Unicode的字符时,通常会用“U+”然后紧接着一组十六进制的数字来表示这一个字符。在基本多文种平面(英文为 Basic Multilingual Plane,简写 BMP。它又简称为“零号平面”, plane 0)里的所有字符,要用四位十六进制数(例如U+4AE0,共支持六万多个字符);在零号平面以外的字符则需要使用五位或六位十六进制数了。旧版的Unicode标准使用相近的标记方法,但却有些微的差异:在Unicode 3.0里使用“U-”然后紧接着八位数,而“U+”则必须随后紧接着四位数。
个人认为
用一定位数的二进制把所有的字符都一一对应起来。是否和键盘敲进去的二进制一样?
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
#### 一、Unicode标准简介 Unicode是一种全球性的字符编码标准,旨在提供一个通用的字符集,支持世界上几乎所有语言的文字表示。Unicode标准由Unicode联盟制定和维护,它定义了字符与数字之间的对应关系,使得...
### Unicode标准版本5.0详解 #### 一、Unicode简介 Unicode是一种国际化的字符编码标准,旨在为世界上所有书面语言的字符提供统一的编码方案。它不仅包括了拉丁字母、希腊字母、西里尔字母等常见字符集,还涵盖了...
#### 一、Unicode标准简介 **Unicode**是一种全球性的字符编码标准,旨在提供一个通用的字符集,能够覆盖世界上几乎所有书写语言的字符,并确保这些字符在全球范围内都能被正确地表示、处理和交换。**Unicode V6.0*...
最初的Unicode标准(UCS-2)使用16位编码,能够表示65536个不同的字符,但随着需求的增长,扩展到了UTF-16,使用代理对(surrogate pairs)来表示超出16位范围的字符。后来,UTF-8编码方案成为了最广泛采用的形式,...
- **UCS-4**:为了应对UCS-2的局限性,Unicode标准还定义了一种使用四个字节(32位)来表示字符的方法,即UCS-4。这种方法理论上可以编码超过40亿个字符,完全能够满足包括所有汉字在内的各种字符集的需求。尽管UCS-...
Unicode是一种通用的字符编码标准,能够表示世界上所有语言的字符。它的出现解决了传统编码方式的限制,能够更好地支持多语言环境。Unicode采用十六进制编码,每个字符由一个或多个代码单元组成。 二、 Unicode ...
"Unicode简介汇编.pdf" Unicode 简介 在现代计算机系统中,Unicode 扮演着非常重要的角色。在 Microsoft Windows 程式设计中,Unicode 是任何部分都会讲述到的重要角色之一。在传统文字模式程式设计中,宽字元集...
在Unicode标准中,汉字被划分为不同的区域,例如基本汉字区(Basic Chinese)、扩展A区(Chinese Extended A)等。以下是一些常用汉字的Unicode编码示例: - “的”:`\u7684` - “一”:`\u4e00` - “了”:`\u4...
这些数字按照Unicode标准定义,每个数字对应一个具体的汉字。通过查询完整的Unicode汉字内码表,可以找到每个数字所对应的汉字及其相关信息,如字形、发音等。 ### 如何使用Unicode汉字内码表 1. **软件开发**:在...
在Unicode标准中,汉字被广泛地纳入其中。Unicode汉字字符集覆盖了从古代到现代的各种汉字形态,包括简体字和繁体字,以及一些罕见和历史上的变体字。这使得Unicode成为处理中文文本的强大工具。 #### 三、汉字完整...
《Unicode 简介》 Unicode 是一种全球统一的字符编码标准,旨在涵盖世界上所有语言的文字和符号。它建立在通用字符集(Universal Character Set,UCS)的基础上,并通过出版物《The Unicode Standard》进行发布,...
根据提供的文件内容,我们了解到该文件包含了一段特殊的Unicode编码表示例,范围为`4e00-9fa5`,这部分是Unicode标准中用于表示常用汉字的部分。 ##### 字符范围解析 - **起始码位**:`4e00` - 表示该范围内的第...
Unicode编码简介 Unicode是一种用于现代电子设备上的字符编码标准,旨在解决传统字符编码方案(如ASCII、GBK等)在多语言环境下字符冲突的问题。它提供了一个统一的字符编码表,几乎包含了世界上所有国家的文字...
UNICODE和UTF-8是两种广泛使用的字符编码标准,它们各自有着独特的特性和应用场景。本文将深入探讨UNICODE与UTF-8之间的关系、区别以及如何进行相互转换。 **一、UNICODE简介** UNICODE,全称是“统一码”或“万国...
Unicode是一种国际标准的字符编码方案,旨在为世界上几乎所有的文字提供唯一的数字表示,从而解决了不同语言和字符集之间的兼容性问题。在ASCII编码中,只有128个字符,主要适用于英文,但对于其他语言,如中文、...
#### 四、Unicode简介 随着互联网的兴起,全球化的趋势使得单一的字符集无法满足多语言的支持需求。为了解决这个问题,Unicode应运而生。Unicode是一种国际化的字符编码标准,旨在提供一种统一的方法来表示世界上...
Unicode标准由Unicode联盟维护,最新的版本包含了数十万字符。 #### 常用汉字的Unicode范围 根据题目提供的信息,“所有常用字的unicode”这一主题主要关注的是常用汉字的Unicode编码。通常,我们所说的“常用汉字...
Unicode标准中的每个字符都被分配了一个唯一的数字(称为码点),这使得计算机可以存储和处理任何语言的文本。对于中文而言,Unicode编码覆盖了简体、繁体以及各种古代或特殊汉字,其范围大致在`U+4E00`到`U+9FFF`...
- **显示**: 计算机操作系统、浏览器以及各种软件都支持Unicode标准,因此能够正确地显示Unicode编码的文本。 #### 五、Unicode与其他编码的区别 - **ASCII**: ASCII只包括了128个字符,无法满足多语言环境的需求...
Unicode 和 GBK 都是中国常用的文字编码标准,它们之间存在一定的转换关系。本文将根据提供的“unicode-gbk 编码对照表”详细解析两种编码之间的映射规则及其应用背景。 #### 二、Unicode简介 **Unicode** 是一种...