`
inspire_xg
  • 浏览: 27798 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

Unicode和UTF系列(5)

 
阅读更多
ASCII和ISO 8859-1
        ISO 8859-1就比较简单了,我们知道ASCII码是从0x00到0x7F,也就是还有1位没有用到,ISO 8859-1就是在空置的0xA0-0xFF的范围内,加入192个字母及符号,藉以供使用变音符号的拉丁字母语言使用。所以ISO 8859-1又称Latin-1。

其他编码
        这里"编码"的含义与以上不同,并不是指字符集的编码,而是一种对文本加工处理的编制方式。因为在开发过程中,也会经常遇到,所以一并介绍。

application/x-www-form-urlencoded

        我们在提交表单的时候,常常会看到形如http://localhost:6888/aomstudy/Servlet1?name=%D6%D0%B9%FA
这样的地址,这些就是application/x-www-form-urlencoded格式编码后的字符串。包括用POST提交表单内容默认是使用这种编码方式。另一种是multipart/form-data,用于有大量非ASCII码文本或二进制数据时,因为这时使用application/x-www-form-urlencoded需要大量的转换,需要耗费太多时间。
        为什么需要这个application/x-www-form-urlencoded编码?我还不是很明白。个人猜测是:以下规则提到的安全字符都是7位的ASCII字符,虽然HTTP协议支持任意字符,但由于历史原因,在HTTP传输过程,只能保证这7位是安全的,也就是说不被当作其他用途,比如用作控制符等。
        application/x-www-form-urlencoded的编码规则如下:
        1.字母数字字符 "a" 到"z"、"A"到 "Z" 和 "0" 到"9" 保持不变。
        2.特殊字符 "."、"-"、"*" 和"_" 保持不变。
        3.空格字符 " " 转换为一个加号"+"。
        4.所有其他字符都是不安全的,因此首先使用一些编码机制将它们转换为一个或多个字节。然后每个字节用一个包含3个字符的字符串"%xy" 表示,其中 xy 为该字节的两位十六进制表示形式。
        注:以上URL中使用的是GBK编码,原文是http://localhost:6888/aomstudy/Servlet1?name=中国
分享到:
评论

相关推荐

    Unicode-UTF8-0.62.tar_c_linux_strikemvd_unicode_

    UTF-8是一种变长的字节编码方式,它将Unicode码点转换成一系列的字节序列。对于不同的码点,UTF-8使用1到4个字节进行编码。例如,ASCII字符(码点在U+0000至U+007F之间)使用单个字节表示,而大部分汉字则需要三个...

    字符编码笔记:ASCII,Unicode和UTF-8

    ### 字符编码笔记:ASCII,Unicode和UTF-8 #### 1. ASCII码 ASCII码是上个世纪60年代由美国制定的一套字符编码标准,用于规定英语字符与计算机内部二进制位之间的关系。在计算机内部,信息通常以二进制形式存在,...

    Ansi Unicode UTF8编码转换及代码示例

    Unicode和UTF-8之间的转换更为复杂,因为它们之间不存在一对一的关系,而是需要通过一系列算法来完成。 1. **从Unicode到UTF-8**:Unicode编码中的每个字符被映射到UTF-8中的1到4个字节。转换过程中需要判断Unicode...

    unicode_utf8转换 unicode_utf8转换

    Unicode和UTF-8是两种广泛使用的字符编码标准,它们各自有其特点和应用场景。本篇文章将深入探讨"unicode_utf8转换"这一主题,以及如何在源码软件中实现这种转换。 首先,我们来理解Unicode和UTF-8的含义。Unicode...

    中文 Big5/GBK/Unicode/UTF8 内码转换器

    《中文编码转换器详解:Big5、GBK、Unicode与UTF8的互换之道》 在计算机世界里,字符编码是沟通人类语言与机器之间的重要桥梁。本文将详细讲解标题所提及的“中文 Big5/GBK/Unicode/UTF8 内码转换器”这一工具,...

    VB字符串处理(unicode、UTF)

    UTF(Unicode Transformation Format)是一系列用于编码Unicode字符的编码方式,包括UTF-8、UTF-16和UTF-32等。其中,UTF-8是最常用的,它用1到4个字节来表示一个码点,ASCII字符只用1个字节,而其他字符则用更多...

    易语言unicode转换UTF8

    首先,我们来理解一下Unicode和UTF-8。Unicode是一个国际标准,它定义了一个统一的字符集,包含了世界上几乎所有的文字系统,用一个唯一的数字(称为码点)来表示每个字符。而UTF-8是一种变长的Unicode编码方式,它...

    ASCII、Unicode和UTF-8.doc

    ASCII、Unicode和UTF-8是计算机世界中处理字符编码的三种重要标准,它们各自有着不同的历史背景和设计目的,对于理解和处理多语言文本至关重要。 首先,ASCII(American Standard Code for Information Interchange...

    Erlang UTF-8 转 Unicode 的字典程序

    这个模块可能包含了一系列函数,如`utf8_to_unicode/1`,可以接受一个UTF-8编码的二进制数据或者字符串,然后返回对应的Unicode码点列表。通过这样的功能,开发者可以在任何Erlang环境中无缝地处理Unicode字符,而不...

    附录A.字符编码_3在LinuxC编程中使用Unicode和UTF-8[总结].pdf

    在Linux C编程中,字符编码主要涉及Unicode和UTF-8标准。Unicode是一个广泛采用的字符集,它包含世界上几乎所有的文字系统,而UTF-8是Unicode的一种编码方式,具有良好的向后兼容性和易于处理的特性。 UTF-8编码在...

    UNICODE,UTF8,ANSI 等编码规范详解

    5. UTF编码:UTF(Unicode Transformation Format)是Unicode的传输格式,主要有UTF-8、UTF-16等。UTF-8是最常用的,它以变长的方式编码Unicode字符,英文字符使用1字节,常见汉字使用3字节,而更复杂字符可能使用4...

    Unicode2GB UTF8ToGB 字符集转换(跨平台)

    常见的字符集有ASCII、GB2312、GBK、Big5和Unicode等。其中,ASCII主要包含英文字符,GB2312是中国大陆的基础汉字字符集,GBK是对GB2312的扩展,增加了更多的汉字和符号;而Unicode是一个国际标准,包含了世界上几乎...

    CPPC++_Unicode例程UTF8 UTF16 UTF32和Base64十亿字符每秒使用SSE2 AVX2 NE.zip

    Unicode为每个字符分配了一个唯一的代码点,而UTF(Unicode Transformation Format)是将这些代码点转换为一系列字节的编码方式。UTF-8、UTF-16和UTF-32是Unicode字符编码中常见的三种格式。UTF-8是一种可变长度的...

    [NTDLL][Rtl系列]UNICODE互转UTF8

    总的来说,理解和熟练运用Unicode与UTF-8的转换对于Windows开发人员来说是至关重要的,特别是当他们的应用需要处理来自不同来源的文本数据时。正确地进行这种转换能够确保数据在不同系统和平台之间的兼容性。

    UNICODE\Unicode,GBK,GB2312,UTF-8概念基础

    UTF(Unicode Transformation Format)是一系列将Unicode字符转换为字节序列的编码方式,以便在网络传输、文件存储等场景中使用。UTF-8是最广泛使用的编码格式,它使用8位字节,并根据字符的不同范围使用1至4个字节...

    汉字,UTF8,GB2312,UNICODE之间的转换

    汉字、UTF8、GB2312和UNICODE都是与汉字编码相关的概念,理解和掌握它们之间的转换对于进行跨平台的软件开发和数据处理至关重要。 1. **汉字编码** 汉字编码是为了能在计算机内部表示和处理汉字而设计的一系列标准...

    utf-8、ANSI、unicode

    UTF-8(8-bit Unicode Transformation Format)是Unicode的一种编码形式,它可以将Unicode编码转换成一系列1到4字节的序列。UTF-8的最大优点是向后兼容ASCII编码,并且对于英文字符只需要一个字节,这使得它在网络...

    STM32 C 语言转换 utf8 gb2312

    UTF-8是一种变长的Unicode编码,广泛用于网络和操作系统,而GB2312是中国大陆早期的简体中文字符集,主要用于存储中文文本。 标题"STM32 C 语言转换 utf8 gb2312"涉及的主要知识点包括: 1. **C语言编程**:C语言...

    Notepad++(UNICODE)简体中文

    5. **宏功能**:用户可以录制和播放宏,执行一系列重复的操作,节省时间。 6. **查找和替换**:支持正则表达式的搜索和替换,对于查找和修改大量代码非常有用。 7. **插件支持**:Notepad++拥有大量的第三方插件,...

    UTF-16汉字编码表

    UTF-16作为Unicode标准的一部分,被广泛应用于各种系统和软件中。对于汉字而言,UTF-16提供了统一且广泛的编码支持,使得不同系统之间可以无障碍地交换包含汉字的信息。此外,UTF-16还支持多种语言和符号,这对于...

Global site tag (gtag.js) - Google Analytics