`
kevin6216
  • 浏览: 18789 次
  • 性别: Icon_minigender_1
  • 来自: 浙江
文章分类
社区版块
存档分类
最新评论

各种字符编码详解(ascii,utf-8,unicode,gbk,gb2312,iso8859-1等)

阅读更多


1. ASCII
我们需要了解的最早编码是ASCII码。它用7个二进制位来表示,由于那个时期生产的大多数计算机使用8位大小的字节,因此用户不仅可以存放所有可能的ASCII字符,而且有整整一位空余下来。如果你技艺高超,可以将该位用做自己离奇的目的:WordStar中那个发暗的灯泡实际上设置这个高位,以指示一个单词中的最后一个字母,同时这也宣示了WordStar只能用于英语文本。
  由于字节有多达8位的空间,因此许多人在想:“呀!我们可以把128~255之间的编码用做个人的应用目的。”问题在于,同时产生这种想法的人相当多,而且在128~255之间的各个位置上应该存放什么这一问题上,真是仁者见仁智者见智。事实上,只要人们开始在美国以外的地方购买计算机,那么各种各样的不同OEM字符集都会进入规划设计行列,并且各人都会根据自己的需要使用高位的128个字符。如此一来,甚至在同语种的文档之间就不容易实现互换。 ASCII可被扩展,最优秀的扩展方案是ISO 8859-1,通常称之为Latin-1。Latin-1包括了足够的附加字符集来写基本的西欧语言。
最后,这个人人参与的OEM终于以ANSI标准的形式形成文件。在ANSI标准中,每个人都认同如何使用低端的128个编码,这与ASCII相当一致。不过,根据所在国籍的不同,处理编码128以上的字符有许多不同的方式。这些不同的系统称为代码页。
  同时,甚至更为令人头疼的事情正在逐步上演,亚洲国家的字符表有成千上万个字符,这样的字符表是用8位二进制无法表示的。该问题的解决通常有赖于称为DBCS(double byte character set,双字节字符集)的繁杂字符系统。
  不过,仍然需要指出一点,多数人还是姑且认为一个字节就是一个字符,以及一个字符就是8个二进制位,并且只要确保不将字符串从一台计算机移植到另一台计算机,或者说一种以上的语言,那么这几乎总是可以凑合。当然,只要一进入Internet,从一台计算机向另一台计算机移植字符串就成为家常便饭了,而各种复杂状况也随之呈现出来。令人欣慰的是,Unicode随即问世了。



2.iso8859-1

属于单字节编码,最多能表示的字符范围是0-255,应用于英文系列。比如,字母'a'的编码为0x61=97。

很明显,iso8859-1编码表示的字符范围很窄,无法表示中文字符。但是,由于是单字节编码,和计算机最基础的表示单位一致,所以很多时候,仍旧使用iso8859-1编码来表示。而且在很多协议上,默认使用该编码。比如,虽然"中文"两个字不存在iso8859-1编码,以gb2312编码为例,应该是"d6d0 cec4"两个字符,使用iso8859-1编码的时候则将它拆开为4个字节来表示:"d6 d0 ce c4"(事实上,在进行存储的时候,也是以字节为单位处理的)。而如果是UTF编码,则是6个字节"e4 b8 ad e6 96 87"。很明显,这种表示方法还需要以另一种编码为基础。



3. GB码

全称是GB2312-80《信息交换用汉字编码字符集基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码, Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。
双字节编码
范围:A1A1~FEFE
A1-A9:符号区,包含682个符号
B0-F7:汉字区,包含6763个汉字



4.GB2312

GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7,低字节从 A1-FE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。GB2312-80中共收录了7545个字符,用两个字节编码一个字符。每个字符最高位为0。GB2312-80编码简称国标码。

  GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。汉字区包括21003个字符。



5. GB12345-90

1990年制定了繁体字的编码标准GB12345-90《信息交换用汉字编码字符集第一辅助集》,目的在于规范必须使用繁体字的各种场合,以及古籍整理等。该标准共收录6866个汉字(比GB2312多103个字,其它厂商的字库大多不包括这些字),纯繁体的字大概有2200余个。
双字节编码
范围:A1A1~FEFE
A1-A9:符号区,增加竖排符号
B0-F9:汉字区,包含6866个汉字



6.GBK

GBK编码(Chinese Internal Code Specification)是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。gbk编码能够用来同时表示繁体字和简体字,而gb2312只能表示简体字,gbk是兼容gb2312编码的。GBK工作小组于1995年10月,同年12月完成GBK规范。该编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。Windows95/98简体中文版的字库表层编码就采用的是GBK,通过GBK与UCS之间一一对应的码表与底层字库联系。
英文名:Chinese Internal Code Specification
中文名:汉字内码扩展规范1.0版
双字节编码,GB2312-80的扩充,在码位上和GB2312-80兼容
范围:8140~FEFE(剔除xx7F)共23940个码位
包含21003个汉字,包含了ISO/IEC 10646-1中的全部中日韩汉字



7. BIG5编码

是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准,包括440个符号,一级汉字5401个、二级汉字7652个,共计13060个汉字。BIG5又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五间软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立,故称大五码。Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如倚天码、IBM PS55、王安码等,彼此不能兼容;另一方面,台湾政府当时尚未推出官方的汉字编码,而中国大陆的GB2312编码亦未有收录繁体中文字。

Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字:“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。

Big5码使用了双字节储存方法,以两个字节来编码一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。高位字节的编码范围0xA1-0xF9,低位字节的编码范围0x40-0x7E及0xA1-0xFE。

尽管Big5码内包含一万多个字符,但是没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字,没有包含日文平假名及片假字母。

例如台湾视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也没有收录到Big5之中。





8.UTF-8

UTF:UCS Transformation Format.考虑到unicode编码不兼容iso8859-1编码,而且容易占用更多的空间:因为对于英文字母,unicode也需要两个字节来表示。所以unicode不便于传输和存储。因此而产生了utf编码,utf编码兼容iso8859-1编码,同时也可以用来表示所有语言的字符,不过,utf编码是不定长编码,每一个字符的长度从1-6个字节不等。另外,utf编码自带简单的校验功能。一般来讲,英文字母都是用一个字节表示,而汉字使用三个字节。

注意,虽然说utf是为了使用更少的空间而使用的,但那只是相对于unicode编码来说,如果已经知道是汉字,则使用GB2312/GBK无疑是最节省的。不过另一方面,值得说明的是,虽然utf编码对汉字使用3个字节,但即使对于汉字网页,utf编码也会比unicode编码节省,因为网页中包含了很多的英文字符。

UTF8编码后的大小是不一定,例如一个英文字母"a" 和 一个汉字 "好",编码后占用的空间大小就不样了,前者是一个字节,后者是三个字节!编码的方法是从低位到高位。黄色为标志位其它着色为了显示其,编码后的位置。



9.Unicode

Unicode字符集(简称为UCS),国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium,并于1991年10月与WG2达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf International Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个。Unicode编码后的大小是一样的.例如一个英文字母 "a" 和 一个汉字 "好",编码后都是占用的空间大小是一样的,都是两个字节!

Unicode可以用来表示所有语言的字符,而且是定长双字节(也有四字节的)编码,包括英文字母在内。所以可以说它是不兼容iso8859-1编码的,也不兼容任何编码。不过,相对于iso8859-1编码来说,uniocode编码只是在前面增加了一个0字节,比如字母'a'为"00 61"。

需要说明的是,定长编码便于计算机处理(注意GB2312/GBK不是定长编码),而unicode又可以用来表示所有字符,所以在很多软件内部是使用unicode编码来处理的,比如java。

http://www.blogjava.net/xcp/archive/2009/10/29/coding2.html

中日韩汉字Unicode编码表:http://www.chi2ko.com/tool/CJK.htm

查询需要Unicode编码的字符:

http://www.unicode.org/charts/unihan.html

http://www.nengcha.com/code/unicode/

 

分享到:
评论

相关推荐

    JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    ### JAVA字符编码详解:Unicode, ISO-8859-1, GBK, UTF-8 及其相互转换 #### 一、引言 在Java编程中,字符编码的管理和转换是一项基本而又重要的任务。不同的编码标准适用于不同的场景,而理解和掌握这些编码之间...

    UTF-8与GB2312之间的互换.doc

    ### UTF-8与GB2312编码转换详解 #### 一、编码基础概念 在深入探讨UTF-8与GB2312之间的互换方法之前,我们首先需要理解这两种编码的基本概念及其特点。 **UTF-8(Unicode Transformation Format - 8 bits):** ...

    中文转UTF-8编码

    常见的字符编码有ASCII、GBK、UTF-8等。 2. **Unicode与UTF-8**: - **Unicode**:一种国际标准的字符集,它为世界上大多数字符都分配了唯一的数字码位,解决了多语言字符集不兼容的问题。 - **UTF-8**:是...

    汉字Ucode,GBK,UTF-8编码表(真实可用的三种编码!)

    ### 汉字Ucode,GBK,UTF-8编码表详解 #### 一、引言 在计算机领域中,为了确保各种文字能够被正确地表示和处理,多种字符编码标准应运而生。其中,GBK、UTF-8 和 Unicode 是应用最为广泛的三种中文字符编码方式。...

    labview text to utf8

    UTF-8是一种变长的Unicode编码方式,它将不同的字符用1到4个字节来表示。英文字符(ASCII字符集)仅需1个字节,而大多数汉字需要3个字节,少数汉字需要4个字节。这种编码方式确保了对ASCII的完全兼容,且在全球范围...

    字符编码详解及由来(UNICODE,UTF-8,GBK) 比较详细

    本文将详细解析字符编码的历史发展,以及Unicode、UTF-8和GBK等编码方式的差异。 ASCII编码,全称美国信息交换标准代码,是最基础的字符编码,使用7位二进制数(一个字节的前7位)表示128个字符,包括大写和小写...

    unicode/UCS/UTF-8/Base64/ANSI等编码介绍

    《编码规则与用法详解:Unicode、UCS、UTF-8、Base64、ANSI》 在信息技术领域,字符编码是至关重要的,它决定了我们如何在计算机中存储、传输和显示文本。本文将详细介绍几种常见的编码方式,包括Unicode、UCS、UTF...

    gbk_utf8_unicode.zip

    GBK编码是中国大陆使用的一种汉字编码标准,它是GB2312的扩展,包含更多的汉字和符号,但它是单字节编码,对于非ASCII字符,GBK不能直接与UTF-8或Unicode相兼容。 描述中提到的问题是,云端的数据以Unicode编码...

    常用字符编码详解.doc

    字符编码详解 字符编码是计算机科学中的一种基础概念,它是指将文字、符号等字符转换为...字符编码是计算机科学中的一种基础概念,常用的字符编码有 ASCII、GB2312、GBK、GB18030 等,每种编码都有其特点和应用场景。

    最全的编码问题,乱码问题,uft-8

    - **GBK**:即“Chinese Internal Code Specification”,是微软公司制定的简体中文编码标准,它兼容了GB2312标准,并增加了繁体汉字等更多的字符集。 #### 三、UTF-8与GBK的区别 - **字符集覆盖范围**:UTF-8几乎...

    UNICODE,UTF8,ANSI 等编码规范详解

    本文将深入探讨几种常见的字符编码规范,包括ASCII、Unicode、UTF8、ANSI、GBK、GB18030等,以及它们之间的关系和转换规则。 1. ASCII编码:ASCII(American Standard Code for Information Interchange,美国信息...

    豆葵 GB/BIG5/UTF-8 文件编码批量转换工具

    《豆葵 GB/BIG5/UTF-8 文件编码批量转换工具详解》 在信息技术领域,文件编码是一个重要的概念,不同的编码格式适用于不同的场景,如GBK(兼容GB2312)、BIG5(主要应用于繁体中文)和UTF-8(全球通用的多语言编码...

    Java判断文件的编码

    1. **UTF-8**:一种可变长度的字符编码,适用于所有Unicode字符,它通过使用一种巧妙的方案来表示各种字符,使得常见的ASCII字符集可以用单字节表示。 2. **GBK**:全称《汉字内码扩展规范》,是中华人民共和国国家...

    gb2312标准字符集和gbk标准字符集

    《GB2312与GBK字符集详解》 在信息技术领域,字符编码是至关重要的一个环节,它决定了计算机如何理解和显示各种文字。GB2312和GBK是中国大陆广泛使用的两个字符编码标准,它们为汉字提供了数字化的表示方式,使得...

    字符集和字符编码详解

    常见的字符集有ASCII、ISO-8859-1、GB2312、GBK、Big5和Unicode等。ASCII是最基础的字符集,包含了7位二进制所能表示的128个字符,主要覆盖了英文字符。而GB2312是中国大陆的简体中文字符集,GBK是对GB2312的扩展,...

    java字符集编码问题

    通过对ISO 8859-1、GB2312/GBK、Unicode和UTF等常见编码的理解,以及Java提供的字符串操作方法(如`getBytes`和`new String`),开发者可以有效地解决实际项目中的字符编码问题,确保应用程序能够正确地处理各种文本...

    常用字符集编码[参考].pdf

    本文将详细介绍常用的字符集编码,包括 ASCII、GB2312、GBK、GB18030、Unicode 和 UTF-8 等。 一、ASCII 码 ASCII 码是 7 位编码,编码范围是 0x00-0x7F。ASCII 字符集包括英文字母、阿拉伯数字和标点符号等字符。...

    GB2311 UNICODE字符集以及字符编码知识了解

    ### GB2312、UNICODE与字符编码详解 #### 一、字符编码的基本概念 在数字信息时代,字符必须经过编码才能被计算机系统识别和处理。计算机内部使用的是二进制代码,而字符编码正是将人类可读的字符转换为这种机器...

    深入UTF8字符编码.doc

    1. **系统默认字符编码**:Windows系统默认的系统区域设置可能会影响文件的默认编码,通常为ANSI编码,这实际上是基于特定地区的GBK或CP1252等编码。 2. **CMD命令行的字符编码**:命令提示符(CMD)窗口的默认编码...

    sybase字符集及各种常用字符集介绍

    - Sybase ASE支持多种本地字符集,如拉丁、希腊、西里尔等,以及Unicode字符集UTF-8,后者能够表示全球超过650种语言的字符。 2. **什么是排序顺序?** - 排序顺序是与特定字符集关联的规则,用于决定字符的排序...

Global site tag (gtag.js) - Google Analytics