`

汉字编码及相关问题

阅读更多

汉字编码及相关问题

在计算机中字符通常并不是保存为图像,每个字符都是使用一个编码来表示的,而每个字符究竟使用哪个编码代表,要取决于使用哪个字符集(charset)。
  在最初的时候,Internet上只有一种字符集——ANSI的ASCII字符集,它使用7 bits来表示一个字符,总共表示128个字符,其中包括了英文字母、数字、标点符号等常用字符。之后,又进行扩展,使用8 bits表示一个字符,可以表示256个字符,主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符。
  后来,由于各国语言的加入,ASCII已经不能满足信息交流的需要,因此,为了能够表示其它国家的文字,各国在ASCII的基础上制定了自己的字符集,这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集,它们正式的名称应该是MBCS(Multi-Byte Chactacter System,即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础,兼容ASCII 127,他们使用大于128的编码作为一个Leading Byte,紧跟在Leading Byte后的第二(甚至第三)个字符与Leading Byte一起作为实际的编码。这样的字符集有很多,我们常见的GB-2312就是其中之一。
  例如在GB-2312字符集中,“连通”的编码为C1 AC CD A8,其中C1和CD就是Leading Byte。前127个编码为标准ASCII保留,例如“0”的编码是30H(30H表示十六进制的30)。软件在读取时,如果看到30H,知道它小于128就是标准ASCII,表示“0”,看到C1大于128就知道它后面有一个另外的编码,因此C1 AC一同构成一个整个的编码,在GB-2312字符集中表示“连”。
  由于每种语言都制定了自己的字符集,导致最后存在的各种字符集实在太多,在国际交流中要经常转换字符集非常不便。因此,提出了Unicode字符集,它固定使用16 bits(两个字节、一个字)来表示一个字符,共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中,方便了信息交流。标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输,出现了UTF-8,使用类似MBCS的方式对Unicode进行编码。注意UTF-8是编码,它属于Unicode字符集。Unicode字符集有多种编码形式,而ASCII只有一种,大多数MBCS(包括GB-2312)也只有一种。
  例如“连通”两个字的Unicode标准编码UTF-16 (big endian)为:DE 8F 1A 90
而其UTF-8编码为:E8 BF 9E E9 80 9A
  最后,当一个软件打开一个文本时,它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件有三种途径来决定文本的字符集和编码:
  最标准的途径是检测文本最开头的几个字节,如下表:

开头字节 Charset/encoding
EF BB BF    UTF-8
FE FF     UTF-16/UCS-2, little endian
FF FE     UTF-16/UCS-2, big endian
FF FE 00 00  UTF-32/UCS-4, little endian.
00 00 FE FF  UTF-32/UCS-4, big-endian.

  例如插入标记后,连通”两个字的UTF-16 (big endian)和UTF-8码分别为:
FF FE DE 8F 1A 90
EF BB BF E8 BF 9E E9 80 9A
  但是MBCS文本没有这些位于开头的字符集标记,更不幸的是,一些早期的和一些设计不良的软件在保存Unicode文本时不插入这些位于开头的字符集标记。因此,软件不能依赖于这种途径。这时,软件可以采取一种比较安全的方式来决定字符集及其编码,那就是弹出一个对话框来请示用户,例如将那个“连通”文件拖到MS Word中,Word就会弹出一个对话框。
  如果软件不想麻烦用户,或者它不方便向用户请示,那它只能采取自己“猜”的方法,软件可以根据整个文本的特征来猜测它可能属于哪个charset,这就很可能不准了。使用记事本打开那个“连通”文件就属于这种情况。
  我们可以证明这一点:在记事本中键入“连通”后,选择“Save As”,会看到最后一个下拉框中显示有“ANSI”,这时保存。当再当打开“连通”文件出现乱码后,再点击“File”->“Save As”,会看到最后一个下拉框中显示有“UTF-8”,这说明记事本认为当前打开的这个文本是一个UTF-8编码的文本。而我们刚才保存时是用ANSI字符集保存的。这说明,记事本猜测了“连通”文件的字符集,认为它更像一个UTF-8编码文本。这是因为“连通”两个字的GB-2312编码看起来更像UTF-8编码导致的,这是一个巧合,不是所有文字都这样。可以使用记事本的打开功能,在打开“连通”文件时在最后一个下拉框中选择ANSI,就能正常显示了。反过来,如果之前保存时保存为UTF-8编码,则直接打开也不会出现问题。
  如果将“连通”文件放入MS Word中,Word也会认为它是一个UTF-8编码的文件,但它不能确定,因此会弹出一个对话框询问用户,这时选择“简体中文(GB2312)”,就能正常打开了。记事本在这一点上做得比较简化罢了,这与这个程序的定位是一致的。
  我们再次感谢高工给我们带来的解释,让我们对这一现象有了比较清楚的认识。

 

汉字编码测试

以下是对windows(本例在windows XP下)环境下关于汉字编码的测试,原理可以参见汉字编码问题

  打开windows附带的计事本,输入“中文zZ”四字符,保存为“中文.txt”后再打开,不会发现任何问题。用UltraEdit(本例为10.0版本,以下同)查看其十六进字编码为:D6 D0 CE C4 7A 5A (前四字节为两中文编码,后两个字节为英文编码) 编码状态栏显示:DOS

  把用记事本打开的“中文.txt”的文件选择“另存为”,下拉框里由“ansi”改为选择“unicode”,存为“中文-unicode.txt”,再用UltraEdit打开,查看其十六进制编码为:FF FE 2D 4E 87 65 7A 00 5A 00 (前两个字节为文件编码标志,此后四字节为中文unicode编码,最后四个字节为两英文字符。),编码状态显示:U-DOS

  把用记事本打开的“中文.txt“文件选择“另存为”,下拉框里由“ansi”改为选择“unicode-big-endian”,存为“中文-unicode-big-endian.txt”,用记事本打开能正常显示,用UltraEdit打开出现乱码,查看其十六进制编码为:FE FF 4E 2D 65 87 00 7A 00 5A (怎么跟unicode一比是倒了个个儿)。编码状态显示为: DOS (没把它当Unicode ,怪不得显示不正常)。

  把用记事本打开的“中文.txt”文件选择“另存为”,下拉框里由“ansi”改为选择“UTF-8”,存为“中文-utf-8.txt”,再用UltraEdit打开,查看其十六进制编码为:FF FE FF FE 2D 4E 86 65 7A 00 5A 00 (前四个字节为文件前导字符,中间四个为两汉字,最后四个为两字母。),编码状态显示为:U8-DOS

  新建一个.txt文件,用windows附带的计事本打开,输入“联通zZ”二字,保存为“联通.txt”后再打开,出现乱码(用另存为可以看到记事本误认为编码为UTF-8)。用UltraEdit查看其十六进制编码为:FF FE 6A 00 68 03 7A 00 5A 00(编码状态为U8-DOS)。

  打开记事本,输入“联通zZ”,选择另存为“联通utf-8.txt”,按默认“UTF-8”保存,用UltraEdit打开,查看其十六进制编码为:FF FE FF FE 54 80 1A 90 7A 00 5A 00 (前四个字节为文件前导,中间四字节为两汉字,最后四字节为两英文件字符)。编码状态显示为:U8-DOS

  打开记事本,输入“联通zZ”,选择另存为“联通unicode.txt”,按“unicode”保存,再用UltraEdit打开,查看其十六进制编为:FF FE 54 80 1A 90 7A 00 5A 00 (前面两字节为前导符,其后四字节为两汉字,后面四字节为两英文)。编码状态为:U-DOS

  因此,这里有个怪现象(BUG),在Windows下不管是用记事本,或是UltraEdit,或是,Dreamweaver 如果只是以“联通”打头的文档,保存后再打开就不能正常显示了,也就是说“联通”(当然还有其它的汉字如“连通”)两字打头的文档都不能正常的保存为ANSI格式。

 

 

http://www.d2school.com/bcyl/bhcpp/newls/ls05.htm#5.2

分享到:
评论

相关推荐

    汉字编码简明对照表

    1. **GB2312-80**: 这是中国大陆最早制定的汉字编码标准之一,收录了6763个常用汉字及682个全角ASCII字符。GB2312采用双字节编码,每个汉字占用两个字节。 2. **汉字区位码**: 是指按照一定的规则将汉字排列在一个二...

    汉字编码培训 ppt

    此外,还可能涵盖了如何在编程语言中处理汉字编码,例如在Java、Python或C#中进行字符串操作时需要注意的编码问题,以及在网页开发中设置和处理不同编码的技巧。 学习汉字编码对于理解中文信息处理至关重要,它可以...

    汉字编码器(exe格式)

    下面将详细探讨汉字编码的相关知识点。 1. **汉字编码的基本概念**: - 汉字编码是为了在计算机中存储和处理汉字而设计的一系列标准。由于计算机只能处理二进制数字,因此需要将汉字转换为数字形式。 - 常见的...

    论文研究-汉字编码专业委员会征集论文.pdf

    汉字编码专业委员会的成立是为了更好地进行汉字编码相关的学术交流与技术研究。 汉字编码专业委员会的主要目的是促进我国汉字编码技术的研究与应用,提高中文信息处理的效率和质量,以及推动相关技术的创新和发展。...

    汉字编码表大全

    这个"汉字编码表大全"的资源对开发者、程序员和汉字处理相关的工作者非常有价值,可以帮助他们理解和处理各种编码问题,提高工作效率。通过学习和理解这些编码方式,我们可以更好地处理跨平台、跨语言的信息交流,...

    gbk+unicode+汉字编码对照表

    本文将深入探讨GBK、Unicode以及汉字编码对照表的相关知识点。 首先,我们要理解什么是GBK编码。GBK是GB2312编码的扩展,全称为“汉字内码扩展规范”(GBK即“国标扩展规范”的拼音缩写)。GB2312是中国大陆于1980...

    汉字编码原理与ASCII

    "汉字编码原理与ASCII" 汉字编码原理是计算机科学中一个重要的领域,它直接关系到计算机系统中汉字的存储、处理和...不同的编码方式有其特点和应用场景,了解汉字编码原理可以帮助我们更好地处理汉字相关的编程问题。

    hanzibianma.rar_汉字 编码

    本文将深入探讨汉字编码的相关概念、常见编码方式以及如何在实践中应对汉字编码问题。 首先,我们要理解什么是字符编码。字符编码是一种规则,它将字符(如汉字)映射为特定的数字,使得计算机能够识别和处理这些...

    汉字编码转换为字节码工具

    总的来说,"汉字编码转换为字节码工具"是计算机处理汉字字符的关键技术之一,它简化了编码转换的过程,提高了工作效率,并且对于理解和解决与汉字编码相关的各种问题具有重要意义。通过深入学习和熟练运用这类工具,...

    hzcode.rar_汉字编码

    压缩包中的"www.pudn.com.txt"可能是一个文本文件,其中可能包含了汉字编码的相关资料链接或者示例代码。而"汉字编码"文件名可能是文档的主体部分,详细讲解了汉字编码的原理、转换方法和实际应用。 对于嵌入式...

    汉字编码转换软件(中文转为编码)

    下面我们将详细探讨汉字编码转换的相关知识。 一、汉字编码的基础概念 1. 汉字编码:为了在计算机中表示汉字,需要将其转换为二进制代码,这就是汉字编码。常见的汉字编码有GB2312、GBK、BIG5、Unicode(UTF-8、...

    常见汉字unicode编码

    #### 六、Unicode与汉字编码的重要性 - **跨平台兼容性**:Unicode确保了不同操作系统和编程环境下的字符显示一致性。 - **国际化支持**:对于需要支持多语言的项目而言,使用Unicode编码可以轻松实现对多种语言的...

    ASCII码与汉字编码对照表

    在计算机世界中,字符编码是至关重要的,它使得计算机能够理解和处理人类语言。本文将深入探讨ASCII码和汉字编码对照表,以及它们...总之,掌握ASCII码与汉字编码对照表的相关知识,是成为一名合格的IT专业人员的基础。

    JSP_Servlet 中的汉字编码问题.pdf

    #### 四、JSP/Servlet中的汉字编码问题及解决方法 1. **常见问题分析**: - 在JSP/Servlet应用中,汉字编码问题主要体现在以下几个方面: - **表单提交**:用户通过表单提交的数据可能因为客户端和服务器端编码不...

    汉字编码转换

    汉字编码转换是计算机科学领域中的一个重要知识点,尤其是在处理中文字符时。这个过程涉及到将汉字从其文本形式转换成不同类型的编码表示,以便于计算机存储、处理和传输。下面将详细介绍汉字编码转换的主要方面,...

    JSP-Servlet中的汉字编码问题-JSP教程

    本文将围绕“JSP-Servlet中的汉字编码问题”这一主题展开讨论,通过对相关知识点的深入剖析,帮助读者理解JSP/Servlet环境中汉字编码可能出现的问题及解决方案。 #### 二、基础知识回顾 1. **字符编码**:字符编码...

    汉字编码—源码.zip

    在这个名为"汉字编码—源码.zip"的压缩包中,我们可以预见到包含的是与C#编程相关的汉字编码实现或示例代码。 首先,我们需要了解汉字编码的基本概念。汉字编码主要有以下几种: 1. **GB2312**: 这是最早期的中国...

    Unicode汉字编码对照.7z

    标题中的“Unicode汉字编码对照.7z”是一个包含与汉字编码相关的压缩文件,其中涵盖了Unicode汉字编码的不同表现形式。Unicode是一种国际字符集标准,旨在为全球所有语言提供一个统一的编码方式,使得不同语言的文字...

    汉字库编码

    本文将深入探讨关于汉字库编码的相关知识点,包括汉字在STM32微控制器中的应用以及汉字编码的基本原理。 #### 二、汉字编码简介 汉字编码是指用一组数字或字符来表示一个汉字的过程。常见的汉字编码有GB2312、GBK...

    易语言UTF网页汉字编码到国标码

    本篇文章将详细探讨“易语言UTF网页汉字编码到国标码”这一主题,以及相关的关键知识点。 首先,我们需要理解UTF和国标码这两个概念。UTF(Unicode Transformation Format)是一种广泛使用的Unicode编码形式,它...

Global site tag (gtag.js) - Google Analytics