Unicode和UTF系列（5）

inspire_xg

浏览: 27798 次
性别:
来自: 武汉

最近访客更多访客>>

weizoudelu

weiyi0618

xiongjinfei

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

IT生活

ASCII和ISO 8859-1
        ISO 8859-1就比较简单了，我们知道ASCII码是从0x00到0x7F，也就是还有1位没有用到，ISO 8859-1就是在空置的0xA0-0xFF的范围内，加入192个字母及符号，藉以供使用变音符号的拉丁字母语言使用。所以ISO 8859-1又称Latin-1。

其他编码
        这里"编码"的含义与以上不同，并不是指字符集的编码，而是一种对文本加工处理的编制方式。因为在开发过程中，也会经常遇到，所以一并介绍。

application/x-www-form-urlencoded

        我们在提交表单的时候，常常会看到形如http://localhost:6888/aomstudy/Servlet1?name=%D6%D0%B9%FA
这样的地址，这些就是application/x-www-form-urlencoded格式编码后的字符串。包括用POST提交表单内容默认是使用这种编码方式。另一种是multipart/form-data，用于有大量非ASCII码文本或二进制数据时，因为这时使用application/x-www-form-urlencoded需要大量的转换，需要耗费太多时间。
        为什么需要这个application/x-www-form-urlencoded编码？我还不是很明白。个人猜测是：以下规则提到的安全字符都是7位的ASCII字符，虽然HTTP协议支持任意字符，但由于历史原因，在HTTP传输过程，只能保证这7位是安全的，也就是说不被当作其他用途，比如用作控制符等。
        application/x-www-form-urlencoded的编码规则如下：
        1.字母数字字符 "a" 到"z"、"A"到 "Z" 和 "0" 到"9" 保持不变。
        2.特殊字符 "."、"-"、"*" 和"_" 保持不变。
        3.空格字符 " " 转换为一个加号"+"。
        4.所有其他字符都是不安全的，因此首先使用一些编码机制将它们转换为一个或多个字节。然后每个字节用一个包含3个字符的字符串"%xy" 表示，其中 xy 为该字节的两位十六进制表示形式。
        注：以上URL中使用的是GBK编码，原文是http://localhost:6888/aomstudy/Servlet1?name=中国

分享到：

Timer定时任务 | Unicode和UTF系列（4）

2011-12-08 14:20
浏览 820
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论