`

字符集和字符编码详解

 
阅读更多
对于字符集的编码在程序中经常用到,有时候让人有很头疼。。今在网上搜索了一下,把大家的见解放在一起,存为附件,待看。。呵呵。


通用字符集UCS(Universal Character Set) 不仅给每个字符分配一个代码, 而且赋予了一个正式的名字. 表示一个 UCS 或 Unicode 值的十六进制数, 通常在前面加上 "U+", 就象 U+0041 代表字符"拉丁大写字母A". UCS 字符 U+0000 到 U+007F 与 US-ASCII(ISO 646) 是一致的, U+0000 到 U+00FF 与 ISO 8859-1(Latin-1) 也是一致的。


UTF-8, 其中 UTF 代表 UCS Transformation Format。 UTF-8 有一下特性:
    * UCS 字符 U+0000 到 U+007F (ASCII) 被编码为字节 0x00 到 0x7F (ASCII 兼容). 这意味着只包含 7 位 ASCII 字符的文件在 ASCII 和 UTF-8 两种编码方式下是一样的.
    * 所有 >U+007F 的 UCS 字符被编码为一个多个字节的串, 每个字节都有标记位集. 因此, ASCII 字节 (0x00-0x7F) 不可能作为任何其他字符的一部分.
    * 表示非 ASCII 字符的多字节串的第一个字节总是在 0xC0 到 0xFD 的范围里, 并指出这个字符包含多少个字节. 多字节串的其余字节都在 0x80 到 0xBF 范围里. 这使得重新同步非常容易, 并使编码无国界, 且很少受丢失字节的影响.
    * 可以编入所有可能的 231个 UCS 代码
    * UTF-8 编码字符理论上可以最多到 6 个字节长, 然而 16 位 BMP 字符最多只用到 3 字节长.
    * Bigendian UCS-4 字节串的排列顺序是预定的.
    * 字节 0xFE 和 0xFF 在 UTF-8 编码中从未用到.

例如: Unicode 字符 U+00A9 = 1010 1001 (版权符号) 在 UTF-8 里的编码为:
    11000010 10101001 = 0xC2 0xA9
而字符 U+2260 = 0010 0010 0110 0000 (不等于) 编码为:
    11100010 10001001 10100000 = 0xE2 0x89 0xA0


详细的了解字符集和字符编码请看附件
0
1
分享到:
评论

相关推荐

    Mysql字符集编码详解

    Mysql字符集编码详解 Mysql数据库中的字符集编码问题是许多开发者经常遇到的一个问题,特别是在JAVA项目中。解决这个问题需要从多方面入手,包括服务器、数据库、数据表和连接等四个层次。这篇文章将详细介绍如何...

    Oracle 字符集详解

    常见的Oracle字符集有AL32UTF8(支持Unicode的UTF-8编码)、WE8ISO8859P1(西欧字符集)、ZHS16GBK(简体中文GB18030编码)等。 六、多语言环境下的字符集配置 在处理多语言数据时,Oracle提供了NLSSORT参数来调整...

    常用字符集编码详解

    ### 常用字符集编码详解 在信息技术领域,字符集编码是数据处理与传输的基础,不同的编码方式决定了计算机如何解读和表示文本信息。本文将深入解析几种常用的字符集编码,包括ASCII、GB2312、GBK、GB18030、Big5...

    常用字符编码详解.doc

    字符编码详解 字符编码是计算机科学中的一种基础概念,它是指将文字、符号等字符转换为计算机可以识别的二进制代码的过程。常用的字符编码有 ASCII、GB2312、GBK、GB18030 等。 1. ASCII 编码 ASCII 编码是一种 7...

    各国字符集-http编码

    ### 各国字符集与HTTP编码详解 #### 字符集识别与HTTP编码基础 在互联网技术中,字符集(Character Set)是指一组符号及其对应的二进制编码方式,用于计算机系统内部表示、存储和传输文本信息。不同国家和地区使用...

    gb18030所有字符集与码表.rar

    《GB18030字符集详解及其码表解析》 GB18030,全称为《信息技术——汉字编码字符集——基本集的扩充》,是中国国家强制性标准,是GBK字符集的进一步扩展,旨在支持更多的汉字以及少数民族文字。在IT领域,尤其是...

    java字符集编码问题

    ### Java字符集编码问题详解 #### 一、引言 在Java编程中,字符集编码问题是一个常见且重要的议题。由于不同的系统、平台以及网络环境中可能存在多种字符编码格式,这导致了在处理文本数据时可能会遇到编码不一致...

    GBK字符集编码表

    ### GBK字符集编码表详解 #### 一、概述 GBK是中文内码扩展规范,是一种简体中文字符集编码方案。它是在GB2312的基础上进行扩展,增加了对更多的汉字以及符号的支持,旨在更好地满足中文信息化处理的需求。本文将...

    Sybase数据库更换字符集方法,解决中文乱码问题

    #### 更换字符集步骤详解 1. **检查当前字符集:** - 使用`Sybase Central`工具连接到`master`数据库。 - 执行查询命令`SELECT id, name FROM syscharsets;`来查看现有的字符集列表。 - 在结果中查找名称为`CP...

    GBK字符集(汉字完整版)

    ### GBK字符集详解 #### 一、GBK字符集简介 **GBK**(GB2312扩展)是一种简体中文编码标准,它是中国国家标准GB2312的扩展版本,支持更多的汉字以及符号。GBK字符集是为了解决GB2312字符集无法覆盖所有汉字的问题而...

    sybase字符集及各种常用字符集介绍

    【Sybase字符集详解】 字符集是数据库管理系统中不可或缺的一部分,尤其在处理多语言环境时。Sybase Adaptive Server Express(ASE)支持多种字符集,确保数据的正确存储和检索。字符集定义了一组字符和它们对应的...

    C编码字符集1.0版二级字符使用详解.pdf

    1.本C编码字符集包含小字符集和大字符集,小字符集为00--56,大字符集为00--ff。每一套字符集均可以完整显示蒙文,可以单独使用,可以进行相互之间编码转换;一级字符为00--56,二级符集为00--ff。 2.本文档阐述...

    gb2312标准字符集和gbk标准字符集

    《GB2312与GBK字符集详解》 在信息技术领域,字符编码是至关重要的一个环节,它决定了计算机如何理解和显示各种文字。GB2312和GBK是中国大陆广泛使用的两个字符编码标准,它们为汉字提供了数字化的表示方式,使得...

    oracle 字符集修改命令

    ### Oracle字符集修改命令详解 #### 一、引言 在Oracle数据库的管理与维护过程中,字符集的正确设置对于确保数据的正确显示与处理至关重要。由于不同的地区和语言环境对于字符编码的需求各异,因此有时可能需要...

    字符集编码和理解材料

    最后,"字符编码ASCII,Unicode和UTF-8详解.mht"这篇文档会提供一个全面的编码系统概览,特别是对ASCII、Unicode和UTF-8的详细解析。ASCII是最基础的7位字符集,主要覆盖了英文和其他西欧语言的基本字符。Unicode是...

Global site tag (gtag.js) - Google Analytics