`
Sarah-Brightman
  • 浏览: 75584 次
  • 性别: Icon_minigender_2
  • 来自: 上海
社区版块
存档分类
最新评论

AscII unicode utf-8

阅读更多
目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO 646标准。适用于所有拉丁文字字母,ASCII码有7位码和8位码两种形式。

因为1位二进制数可以表示(21=)2种状态:0、1;而2位二进制数可以表示(22)=4种状态:00、01、10、11;依次类推,7位二进制数可以表示(27=)128种状态,每种状态都唯一地编为一个7位的二进制码,对应一个字符(或控制码),这些码可以排列成一个十进制序号0~127。所以,7位ASCII码是用七位二进制数进行编码的,可以表示128个字符。

第0~32号及第127号(共34个)是控制字符或通讯专用字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BEL(振铃)等;
通讯专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等;

第33~126号(共94个)是字符,其中第48~57号为0~9十个阿拉伯数字;65~90号为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等。

注意:在计算机的存储单元中,一个ASCII码值占一个字节(8个二进制位),其最高位(b7)用作奇偶校验位。所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位b7添1;偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位b7添1。

Unicode码:Unicode码也是一种国际标准编码,采用二个字节编码,与ANSI码不兼容。目前,在网络、Windows系统和很多大型软件中得到应用。
在Unicode中:汉字“字”对应的数字是23383。在Unicode中,我们有很多方式将数字23383表示成程序中的数据,包括:UTF-8、 UTF-16、UTF-32。UTF是“UCS Transformation Format”的缩写,可以翻译成Unicode字符集转换格式,即怎样将Unicode定义的数字转换成程序数据。例如,“汉字”对应的数字是 0x6c49和0x5b57,而编码的程序数据是:
  BYTE data_utf8[] = {0xE6, 0xB1, 0x89, 0xE5, 0xAD, 0x97}; // UTF-8编码
  WORD data_utf16[] = {0x6c49, 0x5b57}; // UTF-16编码
  DWORD data_utf32[] = {0x6c49, 0x5b57}; // UTF-32编码
UTF-8
  UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下:
  Unicode编码(16进制) ║ UTF-8 字节流(二进制)
  000000 - 00007F ║ 0xxxxxxx
  000080 - 0007FF ║ 110xxxxx 10xxxxxx
  000800 - 00FFFF ║ 1110xxxx 10xxxxxx 10xxxxxx
  010000 - 10FFFF ║ 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符,UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。从上表可以看出,4字节模板有21个x,即可以容纳21位二进制数字。Unicode的最大码位0x10FFFF也只有21位。
分享到:
评论

相关推荐

    ASCII Unicode 和UTF-8区别

    ASCII、Unicode和UTF-8是字符编码的几种不同标准,它们在历史发展中各司其职,具有各自的特点和用途。了解这三者之间的区别和联系,对于处理多语言文本数据尤为重要。 首先,让我们回顾一下ASCII编码标准。ASCII...

    ASCII 及UTF-8 与字符互相转换

    ASCII 和 UTF-8 是两种广泛使用的字符编码标准,它们在计算机科学中扮演着重要的角色,尤其是在文本处理和数据传输方面。这两个编码系统都是为了将人类可读的字符转化为计算机可以理解的形式,但它们的设计和使用...

    UNICODE与UTF-8转换

    3. **空间占用**:对于包含大量ASCII字符的数据,UTF-8更节省空间,而对于包含大量非ASCII字符的数据,UNICODE可能更紧凑。 4. **解析复杂性**:UTF-8的解析相对较复杂,因为需要识别字节序列以确定字符长度,而...

    utf-8.rar_c++ string utf-8_string to utf-8_utf_utf 8_utf-8

    在C++编程中,UTF-8编码是一种广泛使用的字符编码标准,它能够表示Unicode字符集中的所有字符。本文将深入探讨如何在C++中处理UTF-8字符串,并介绍相关的关键概念和技术。 首先,C++标准库并没有直接支持UTF-8编码...

    字符编码转换类,支持 ANSI、Unicode、Unicode big endian、UTF-8、UTF-8+Bom互相转换

    对于ASCII字符,UTF-8编码与ASCII相同,都是单字节。UTF-8的特殊之处在于它包含一个字节顺序标记(BOM),即UTF-8+BOM,但大多数情况下,UTF-8无BOM更常见。 在PHP中,进行字符编码转换可以使用内置函数,如`mb_...

    快速转码(UTF-8转ASCII)

    而UTF-8是一种变长的Unicode编码,它可以表示世界上几乎所有的字符,包括汉字和其他非英文字符,它使用1到4个字节来编码一个字符。 在Java Web开发中,UTF-8转ASCII的场景通常出现在需要与只支持ASCII编码的系统或...

    字符编码笔记:ASCII,Unicode和UTF-8

    ### 字符编码笔记:ASCII,Unicode和UTF-8 #### 1. ASCII码 ASCII码是上个世纪60年代由美国制定的一套字符编码标准,用于规定英语字符与计算机内部二进制位之间的关系。在计算机内部,信息通常以二进制形式存在,...

    PB9转换utf-8例子

    UTF-8是一种广泛使用的Unicode字符编码,能够表示Unicode字符集中几乎所有的字符,包括世界各地的多种语言文字。 在压缩包的文件列表中,有四个与PowerBuilder相关的文件(utf-8.pbl、utf-8.pbt、utf-8.pbw)和三个...

    UTF-8toGBK_labview编码gbk_LabVIEWUTF-8_utf-8toGbk_

    UTF-8的优势在于对ASCII字符集的兼容性,前128个Unicode字符(包括英文、数字和常见符号)只需要一个字节表示,这使得UTF-8在互联网上广泛使用,因为其与ASCII的兼容性可以减少传输数据量。此外,UTF-8也支持全球大...

    字符集Unicode与UTF-8之间的转换

    在UTF-8中,如果一个字符的字节小于0x80(128),则为ASCII字符,占一个字节,可以不用转换,因为UTF-8兼容ASCII编码。 例如,在Unicode中,汉字“你”的编码为“u4F60”,将其转换为二进制为100111101100000。然后...

    windows下ascii unicode utf8 相互转换

    在Windows操作系统中,ASCII、Unicode和UTF-8是三种常见的字符编码格式,它们各自有着不同的特点和适用场景。本文将详细介绍这三种编码的原理、相互转换的方法以及在Windows环境下进行转换的操作步骤。 首先,让...

    c++ UTF-8 UTF-16转换

    UTF-8是一种变长的字符编码,它使用1到4个字节来表示一个Unicode字符,其中ASCII字符(0-127)只需要1个字节。UTF-16则通常使用2个字节,对于大部分的Unicode字符,但对超出基本多文种平面(BMP)的字符,如表情符号...

    C++ 实现unicode到utf-8的转码

    这样做的好处是,UTF-8保持了ASCII兼容性,并且在大多数现代系统中,它比其他Unicode编码方式更高效。 在C++中实现Unicode到UTF-8的转换,我们需要知道Unicode字符的码点,并根据码点值将其转换为相应的UTF-8字节...

    gb2312,utf-8,utf-8-bom等编码格式的互相转换

    UTF-8,即“统一字符集的8位无符号格式”,是一种变长编码,可以表示Unicode字符集中所有的字符。对于ASCII字符(如英文字符),UTF-8只用一个字节,而对于非ASCII字符,如汉字,可能需要2到4个字节。UTF-8的最大...

    PB的utf-8转换

    PB的utf-8转换,包括加码解码等等 aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

    ASCII、Unicode和UTF-8.doc

    ASCII、Unicode和UTF-8是计算机世界中处理字符编码的三种重要标准,它们各自有着不同的历史背景和设计目的,对于理解和处理多语言文本至关重要。 首先,ASCII(American Standard Code for Information Interchange...

    UTF-8 汉字码表

    UTF-8(Unicode Transformation Format - 8 bits)是一种变长字符编码,由Ken Thompson于1992年设计,旨在解决多语言环境下字符编码兼容性问题。其核心优势在于能够以不同的字节长度来表示不同数量的Unicode字符,...

    UTF-8 Unicode GBK GB2312 编码之间的区别和联系

    - 兼容ASCII编码,使得大多数英文文本可以不变地作为UTF-8存储。 - 通用性强,几乎包含了所有国家的语言文字。 - 变长编码机制使得常见字符占用的空间较少。 - **应用场景**:广泛应用于Web页面、电子邮件和其他...

    字符编码笔记:ASCII-Unicode和UTF-8

    字符编码笔记:ASCII、Unicode 和 UTF-8 本文主要介绍了字符编码的基本概念和历史发展过程,包括 ASCII 码、Unicode 和 UTF-8 的编码原理和特点。文章首先介绍了 ASCII 码的历史和编码原理,然后讨论了非 ASCII ...

    编码查询 各种文本转到 unicode utf-8 gb2312 编码 unicode utf-8 gb2312 编码转换到文字

    本文将深入探讨“编码查询”这一主题,包括Unicode、UTF-8和GB2312编码之间的转换,并讨论如何将这些编码转换为可读的文字。 首先,我们要理解编码的基本概念。编码是将字符(如字母、数字、符号)转化为二进制表示...

Global site tag (gtag.js) - Google Analytics