`
chenk008
  • 浏览: 26890 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

unicode编码学习

    博客分类:
  • java
 
阅读更多

unicode字符集是我们世界上最完善最全面的字符集,几乎包含了世界上所有的字符。其实可以这么理解,unicode字符集是一张巨大的表格,把世界上各种语言的字符和标点符号都编排到里面,然后按照一定的顺序给每个字符排号(很遗憾的是对于中文来说,这个顺序不是按照汉语拼音的顺序)。有了这张巨大的表格,世界上大部分字符就都有一个unicode内码(整数)来对应。计算机就通过记录字符的unicode码来表示这个字符,然后交给操作系统,操作系统通过unicode码到字符字体点阵的映射把这个内码转换成字体点阵显示到我们的屏幕上。 utf8是我们常用的编码方式,在web开发中使用utf8编码能完全解决字符集问题。其实utf8是unicode字符集的一种物理实现,它描述了如何高效的存储unicode的内码(就是上面说的字符在字符集的顺序码)



例如字符"汉"的unicode是6C49,把这个unicode字符表示为一个大整数,然后转变成多字节编码0110110001001001:
观察这个整数的二进制码序列(110,110001,001001)
从后往前取如果这个二进制序列只有后7位(小于128,也就是ascii字符)则直接取后7位二进制数形成一个utf8字符。
上面的字符“汉”二进制序列大于7位,所以取后6位(1001001),加10形成一个utf8字节(10 001001 ,16进制89),剩下的二进制序列(110,110001)从后向前取6位,加10形成一个utf8字节(10 110001,16进制B1),剩下的二进制序列(110)从后向前取6位,由于不足6位,将这个数和1110000相或,得到字符11100110,16进制E6,最后,就得到了utf8编码,16进制表示为E6B189


分享到:
评论

相关推荐

    Unicode中文编码对照表

    压缩包内的“unicode编码表.pdf”文件很可能是一个详细的Unicode中文编码对照表,列出了每个中文字符对应的Unicode值,这对于开发者调试代码、理解字符编码问题或者进行文本处理非常有用。这种表格通常会包括字符的...

    最全的常用汉字Unicode码表

    ### 最全的常用汉字Unicode码表 #### Unicode与汉字编码 在计算机科学中,Unicode是一种国际化的字符编码标准,...希望通过对本文档的学习,大家能够更加熟练地使用Unicode编码,并在实际工作中发挥出更大的价值。

    维吾尔文字符集unicode编码表

    ### 维吾尔文字符集Unicode编码表 #### 概述 本文档提供了一份详细的现代维吾尔文字符集的Unicode编码表。这份表格对于理解、处理和展示维吾尔语文字具有重要意义。通过这份表格,我们可以清晰地看到每一个维吾尔文...

    Unicode汉字编码表(全)

    这些PDF文件为研究者、开发者和对汉字编码感兴趣的人员提供了详细的汉字Unicode编码信息。通过查阅这些文档,你可以找到每个汉字对应的Unicode码点,这对于编程、字体设计、文本处理软件开发等工作具有很高的实用...

    Unicode编码与汉字互转.rar

    在IT领域,Unicode编码是一种广泛使用的字符编码标准,旨在表示世界上所有语言的字符。这个压缩包文件"Unicode编码与汉字互转.rar"显然是一个关于如何在Qt C++环境中处理Unicode编码,特别是涉及到汉字转换的资源...

    汉字unicode编码表

    ### 汉字Unicode编码表知识点详解 #### Unicode与汉字编码背景 Unicode是一种国际标准的字符编码方案,旨在为世界上的每种书写系统提供统一的编码。它支持几乎所有语言的文字,包括但不限于拉丁字母、希腊字母、...

    Unicode编码所有汉字

    Unicode编码是一种国际标准,用于表示世界上几乎所有的文字和符号,包括汉字。它的设计目标是提供一个...通过学习和理解Unicode编码及其在Java中的应用,你可以更深入地了解字符编码体系,并提升你的跨语言编程能力。

    汉字拼音及首字母unicode码对照库(2万多条)

    3. **汉字与Unicode码转换**:在跨平台的数据交换中,将汉字转换成Unicode码,可以避免因编码问题导致的乱码问题。 4. **自然语言处理**:在进行中文自然语言处理任务,如词性标注、语义理解时,拼音信息可以帮助...

    UNICODE编码表(汉字,规律排列)

    ### Unicode编码表(汉字,规律排列):深入解析与理解 #### 一、Unicode编码简介 **Unicode** 是一种国际标准的字符集编码方案,旨在为世界上所有的字符提供唯一的编码方式,以支持多语言和跨平台的信息处理。该...

    Unicode编码和双向算法(bidi)详解.pdf

    通过本文的详细介绍,读者可以系统地掌握Unicode编码的基础知识,理解其编码方式和双向算法的实现原理,这对于计算机科学、语言处理以及全球化信息处理等领域的学习和研究有着重要的意义。掌握这些知识不仅能够提高...

    unicode转gb18030编码

    最常用的Unicode编码方式是UTF-8,它是一种变长编码,能够高效地表示英文和中文等不同语言的字符。 **GB18030** 是中国国家标准的汉字编码,全称为“信息技术—多字节编码字符集—GBK扩展A”,它是GBK编码的升级版...

    Unicode码转换工具

    “Unicode码转换工具”是指用于处理Unicode编码的软件或程序,它能够帮助用户在不同的字符编码之间进行转换,确保不同系统或语言环境下的文本数据能够正确无误地显示和交换。Unicode是一种国际标准,它为世界上几乎...

    字符转化为UNICODE码

    Unicode码,全称为统一码或万国码,是一种在计算机科学领域广泛使用的字符编码标准,旨在为世界上所有的字符提供一个...通过学习这些内容,你可以深入理解Unicode码的原理和应用,并提升你在处理字符编码问题时的能力。

    易语言unicode编码到GBK

    在处理字符串编码时,易语言提供了转换不同字符编码的功能,比如从Unicode编码转换到GBK编码。Unicode是一种广泛使用的字符编码标准,它能表示世界上几乎所有的字符,而GBK(国标扩展)是中国大陆使用的一种中文编码...

    Unicode编码查询

    8. **教学和学习辅助**:对于学习Unicode编码的用户,该工具可能会包含一些教程或参考资料,帮助理解Unicode编码的原理和应用。 这个“Unicode编码查询”程序的实用性在于,无论是在编程、文本处理、本地化工作还是...

    汉字转unicode码的小工具

    这个“汉字转unicode码的小工具”正是为了帮助用户方便地将汉字转换成对应的Unicode编码。 Unicode编码体系基于码点,每个码点代表一个字符。它使用16位二进制数(在UTF-16编码中)来表示大多数常用汉字,这样可以...

    Unicode汉字编码对照.7z

    Unicode编码通常有多种表示方式,十六进制(hex)是最常见的之一,它将每个字符转换为两个或四个十六进制数字,便于人类阅读和理解。通过这个文件,用户可以查询某个汉字对应的Unicode编码值,从而进行编码转换或者...

    Unicode码16进制字符互转软件

    《Unicode码16进制字符互转软件》是一款基于Delphi开发的应用程序,它专注于解决字符编码转换的问题,特别是Unicode编码与16进制之间的相互转换。在编程领域,理解和处理字符编码是至关重要的,尤其是当涉及到不同...

    常用汉字unicode和拼音的对应关系

    3. **教育领域**:在学习汉字的过程中,了解Unicode编码可以帮助学生更好地记忆和查找汉字;同时,拼音则有助于学习汉字的正确发音。 总之,Unicode与拼音的对应关系是汉字信息化处理的基础,无论是对于个人用户...

    非常好的Unicode编码转换工具- 五号影院提供

    Unicode编码是一种国际标准字符编码,它能够表示世界上几乎所有的文字和符号,包括各种语言的...同时,对于学习编程或者进行国际化开发的人员来说,这样的工具也是理解Unicode编码系统、解决字符编码问题的得力助手。

Global site tag (gtag.js) - Google Analytics