`
sakakokiya
  • 浏览: 507422 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

什么是 UCS 和 ISO 10646?

阅读更多
国际标准 ISO 10646 定义了 通用字符集 (Universal Character Set, UCS). UCS 是所有其他字符集标准的一个超集. 它保证与其他字符集是双向兼容的. 就是说, 如果你将任何文本字符串翻译到 UCS格式, 然后再翻译回原编码, 你不会丢失任何信息.
在 Unix 下使用 UCS-2 (或 UCS-4) 会导致非常严重的问题. 用这些编码的字符串会包含一些特殊的字符, 比如 ” 或 ‘/', 它们在 文件名和其他 C 库函数参数里都有特别的含义. 另外, 大多数使用 ASCII 文件的 UNIX 下的工具, 如果不进行重大修改是无法读取 16 位的字符的. 基于这些原因, 在文件名, 文本文件, 环境变量等地方, UCS-2 不适合作为 Unicode 的外部编码.
UCS只是规定如何编码,并没有规定如何传输、保存这个编码。例如“汉”字的UCS编码是6C49,我可以用4个ascii数字来传输、保存这个编码;也可以用utf-8编码:3个连续的字节E6 B1 89来表示它。
UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下:
UCS-2编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110  1100 0100 1001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
分享到:
评论

相关推荐

    UTF-8 GB2312 UCS 码互换

    UCS(Universal Character Set)是ISO 10646标准定义的一个字符集,它旨在提供一个全球通用的字符编码方案,能够包含世界上所有已知的文字和符号。UCS的目标是成为一个全面的、统一的字符集,避免了以往各种编码方案...

    字符编码(ucs2, unicode, utf8, gb2312)

    UCS 是 ISO 10646 定义的通用字符集,保证与其他字符集是双向兼容的。UCS 包含了用于表达所有已知语言的字符,包括中文,日文和韩文这样的象形文字,以及平假名、片假名、孟加拉语、旁遮普语、果鲁穆奇字符等。UCS ...

    ISO IEC 10646

    《ISO IEC 10646:2020 Information technology — Universal Coded Character Set (UCS)》是国际标准化组织(ISO)与国际电工委员会(IEC)联合发布的一项标准,旨在定义一个全球通用的编码字符集,以支持各种语言...

    ISO_IEC_10646:2020(E) Information technology — Universal coded character set (UCS) - 完整英文电子版(2812页).pdf

    《ISO/IEC 10646:2020(E) Information technology — Universal Coded Character Set (UCS)》是国际标准化组织(ISO)和国际电工委员会(IEC)联合发布的一份标准,旨在定义一个通用的编码字符集,以支持全球各种...

    思科UCS-B系列安装配置介绍-v1

    ### 思科UCS-B系列安装配置介绍 #### 一、思科UCS-B系列概述 思科UCS-B系列是思科统一计算系统的...通过对这些知识点的深入理解,可以更有效地管理和利用思科UCS-B系列的强大功能,为企业带来更高的IT效率和灵活性。

    嵌入式字符编码(经典)(ucs2,+unicode,+utf8,+gb2312)[借鉴].pdf

    1. ASCII(American Standard Code for Information Interchange):ASCII是最基础的字符编码,由ANSI(美国国家标准协会)制定,后被ISO采纳为国际标准ISO646。它使用7位二进制(一个字节中的前7位)来编码128个...

    思科UCS-B系列服务器window2003安装手册

    然后,再加挂思科驱动光盘的ISO文件(例如ucs-b2xx-drivers-1.3.1g.iso)。接下来,将从思科驱动光盘中提取对应的硬盘驱动文件,并复制到本地硬盘上的指定文件夹中。使用Nlite软件打开,并选择整合驱动和创建ISO文件...

    unicode/UCS/UTF-8/Base64/ANSI等编码介绍

    UCS,全称为通用字符集(Universal Character Set),是ISO 10646标准定义的字符集。UCS与Unicode非常相似,实际上它们在BMP部分是完全一致的。UCS的设计目标也是涵盖全球所有语言的字符,但它提供了更多的扩展空间...

    rfc2044-utf-8.pdf

    Unicode标准版本1.1和ISO/IEC 10646-1:1993共同定义了一个名为UCS-2的16位字符集,该字符集覆盖了世界大部分的书写系统。然而,ISO 10646进一步定义了一个31位的字符集UCS-4,目前在对应于UCS-2的基本多文种平面之外...

    CISCO_UCS_C210操作系统安装手册

    为了确保能够顺利地安装和配置UCS C210,我们需要做一些必要的准备工作: 1. **随设备附带的DVD光盘驱动**:这些驱动通常包含UCS服务器所需的最新固件和软件包。 2. **Windows 2003 安装光盘或ISO镜像**:用于安装...

    常用编码详解.docx

    一个是国际标准化组织(ISO) 的ISO10646项目;另一个是由(一开始大多是美国的)多语言软件制造商组成的协会组织的Unicode项目。幸运的是,1991年前后,两个项目的参与者都认识到:世界不需要两个不同的单一字符集...

    关于JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    Unicode编码分为多种类型,如UCS-2、UCS-4等,其中UCS-2是最常用的,它使用两个字节来表示一个字符。在Java中,默认的字符串类型`String`就是基于Unicode编码的。 #### 2. ISO-8859-1 ISO-8859-1是一种单字节编码...

    ucs-school:UCS @学校

    UCS的ISO映像或虚拟机映像并设置UCS。 登录到UCS管理系统,然后打开“应用程序中心”并安装。 文档和支持 UCS @ school文档(包括快速入门指南)可在上找到。 如果您需要直接帮助, 论坛提供了很好的社区支持。 ...

    SDL_iconv:用于转换字符编码的库。 在单个C文件中。 支持ASCII US-ASCII 8859-1 ISO-8859-1 UTF8 UTF-8 UTF16 UTF-16 UTF16BE UTF-16BE UTF16LE UTF-16LE UTF32 UTF-32 UTF32BE UTF-32BE UTF32LE UTF-32LE UCS2 UCS-2 UCS-2LE UCS- 2BE UCS-2-INTERNAL UCS4 UCS-4 UCS-4LE UCS-4BE UCS-4-INTERNAL

    ISO-8859-1 UTF8 UTF-8 UTF16 UTF-16 UTF16BE UTF-16BE UTF16LE UTF-16LE UTF32 UTF-32 UTF32BE UTF-32BE UTF32LE UTF-32LE UCS2 UCS-2 UCS-2LE UCS-2BE UCS-2-INTERNAL UCS4 UCS-4 UCS-4LE ...

    编码知多少[定义].pdf

    首先,通用字符集(UCS)是ISO/IEC 10646-1标准定义的一种字符集,旨在包含世界上的大多数可书写字符系统。UCS分为UCS-4和UCS-2两种编码方式,前者使用4个8比特字节,后者使用2个8比特字节来编码每个字符。尽管它们...

    cisco UCS C系列安装配置

    通过对这些步骤的详细了解和实践,可以有效提高Cisco UCS C系列服务器的安装效率和配置准确性,为用户提供更可靠、高效的服务环境。在实际操作过程中,还需要注意根据具体的业务场景和需求灵活调整配置方案,以达到...

    UNICODE\Unicode,GBK,GB2312,UTF-8概念基础

    UCS(Universal Character Set)是ISO制定的ISO 10646标准,它与Unicode的关系非常紧密。在Unicode 2.0之后,两者在字符集和编码上保持了一致性,以确保跨平台和跨组织的兼容性。UCS有UCS-2和UCS-4两种编码形式,...

    rfc2279utf8协议

    ISO/IEC 10646-1 [ISO-10646]定义了一种多8比特字节字符集,称作通用字符集(UCS), 它包含了世界上大多数可书写的字符系统。已定义了两种多8比特字节编码,对每一个字符 采用四个8比特字节编码的称为UCS-4,对每一...

    常用编码详解 常用编码详解 常用编码详解 常用编码详解

    首先,UCS(Universal Character Set)是一种多字节字符集,由ISO/IEC 10646-1标准定义,目的是涵盖全球各种语言的书写字符。UCS有UCS-4和UCS-2两种形式。UCS-4使用4个字节编码每个字符,能表示更多的字符,而UCS-2...

Global site tag (gtag.js) - Google Analytics