`
deyimsf
  • 浏览: 68053 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

URL编码

 
阅读更多
URL编码又称为百分号编码,编码方式很简单,就是把单个字节用16进制表示,然后在其前面放置一个百分号。
比如有"abc"这样一个串,我们把他转换成ascii的字节序后,用16进制表示成这样:
        61 62 63
把他进行百分号编码就是在各个字节前加上“%”,结果如下:
        %61%62%63

在URL的表示中并非所有的字符都需要进行百分号编码,RFC3986(URI规范)中规定保留字符和非保留字符可以不用编码,其它字符必须用百分号编码。
RFC1738(URL规范)规定保留和非保留字符可以直接用于URL中。

保留字符:
       ! * ' ( ) ; : @ & = + $ , / ? # [ ]
非保留字符:
       a-z A-Z 0-9 - _ . ~

在一个URL中,如果一个保留字符在特定上下文中有特殊含义,而这个保留字在URL中又有特殊目的,那么该字符必须百分号编码。
比如"/",在URL中表示路径分隔符,如果某个路径包含该字符,那么在路径内的该字符就必须进行百分号编码,否则就会和真正的路径分隔符产生歧义.

还有一种需要进行百分号编码的就是”其它字符“,所谓的其它字符就是在保留字符和非保留字符之外的字符,比如ascii码的非显示字符、汉字字符等。

通过前面我们知道,对一个字符进行百分号编码前需要得到该字符的字节流形式,也就是说我们需要根据某种字符编码,将该字符转换成字节流,应该用哪种字符编码(比如GBK、UTF-8等)在RFC1738中并没有给出,所以各个程序(比如浏览器)有自的方式,但是在2005年1月RFC3986做出了强制规定,强制"其它字符"要先转换为UTF-8字节序列,然后对其字节值进行百分号编码。

对"a中"这个字符串对其百分号编码的过程大概如下:
   1)将串转换成utf-8编码形式的字节流,那么就是0x61 E4 B8 AD
   2)顺序取一个字节,是非保留字?
   3)是,则该字节不用编码,直接输出该字节表示的ascii字符
   4)不是,则证明该字节需要编码,先输出"%"再输出该字节的16进制大写形式
   5)如果还有下一个字节则执行步骤 3),如此循环直到编码完成
   6)最后结果 "a%E4%B8%AD"

对"a%E4%B8%AD"串的解码过程如下:
   1)将字符串转变为字节流
   2)顺序取一个字节,标记字节位置为i,比较该字节是否是'%'
   3)不是,直接输出
   4)是,取(i+1)位置字节左移4位 + (i+2)位置字节&0xF ,然后输出
   5)跳过两个字节,如果还有下一字节则执行步骤 3), 如此循环完成解码

好,有了上面的知识后我们在看一下浏览器对URL的编码是不是跟规范一样。
首先说下URL的组成:
   {http://www.jd.com[/app/中国]} ? (name=val中)
   {}:代表URL (绝对URI)
   []:代表URI (相对URI,这种标示符依赖具体的环境)
   ():代表Query String

直接地址栏中输入,对URI则在IE8、chrome、firefox浏览器上发现都是用UTF-8进行百分号编码的.
但是对query string,IE8用的是未经过百分号编码的GBK原码(可能用的操作系统的编码);chrome、firefox上用的是utf-8进行百分号编码。

在网页中嵌套的URL,对于URL的路径部分,IE8、chrom、firefox用的是UTF-8编码进行百分号编码。
对于query string部分,这三种浏览器采用的是http响应头头中的
  Content-Type:text/html; charset=gbk 指定;
如果未指定则用页面中的
  <meta http-equiv="Content-Type" content="text/html;charset=gbk">指定。

通过以上我们可以知道,各个浏览器对于URL的路径部分使用的编码方式和规范一致,但是对于Query string部分稍有差别.

另外说下javascript的encodeURI()方法,该方法对保留字符不进行编码,比如以下字符不进行编码:
  a-z A-Z 0-9  - _ . ! ~ * ' ( ) ; / ? : @ & = + $ , #
所以如果某个URL的数据部分包含特殊的保留字符,用该方法编码该数据后可能无法区分该字符是数据的一部分还是URL的一部分(比如路径分隔符).

所以javascript就有了encodeURIComponent()方法,从名字上就可以看到该方法对URL的"成份"进行编码,用它编码后可以明确区分某个字符是"成份"还是URL的特殊分隔符。
该方法不对非保留字符编码,如:
   a-z A-Z 0-9 - _ . ~
其他字符都做编码。
分享到:
评论

相关推荐

    JS实现URL编码转换中文

    ### JS实现URL编码转换中文 在Web开发过程中,经常需要处理URL中的特殊字符,特别是中文字符。由于URL传输限制及浏览器解析原因,中文等非ASCII字符需要被编码为特定格式才能在网络上传输。本文将详细介绍如何使用...

    URL编码 URL编码

    URL编码,全称为统一资源定位符(Uniform Resource Locator)编码,是互联网上用于标识资源的一种标准格式。在HTTP协议中,URL是访问网络资源的重要途径,但有些字符在URL中直接使用时可能会引起问题,因此需要进行...

    C++URL编码和解码

    C++作为一门强大的系统级编程语言,虽然没有内置的URL编码和解码函数,但开发者可以借助标准库和第三方库来实现这些功能。本文将深入探讨C++中如何进行URL编码和解码。 URL(Uniform Resource Locator)是互联网上...

    URL编码解码小程序

    标题中的“URL编码解码小程序”指的是一个工具或软件,其主要功能是处理URL(统一资源定位符)中的编码问题。URL编码是互联网通信中的一种标准化机制,它确保非ASCII字符或特殊字符在URL中能被正确传输和解析。这是...

    PB 进制转换 url编码 urlencode urldecode 数组排序

    自己写的,可能有bug,请大家一块学习 环境为PB12 函数(及参数) 作用 arraysort 对一维数组进行排序 decto 将十进制数字转成其它进制字符串 ...urlencode 将指定字符串以进行指定字符集url编码 涨价了,哈哈

    vb url编码解码vb url编码解码vb url编码解码

    标题和描述中提到的“vb url编码解码”是指在Visual Basic(VB)环境中进行URL编码和解码的过程。URL编码,也称为百分号编码,是一种用于将特殊字符转换为适用于URL格式的编码方式,目的是确保这些特殊字符能够正确...

    汉字转为HTML的URL编码

    搜集了网上的VBA函数,在excel中通过函数将汉字转为两种类型的URL编码,例如将 天空 二字转化为GB2312的“%CC%EC%BF%D5”或者是UTF-8的 “%E5%A4%A9%E7%A9%BA”。方便用于连接转换。VBA相关函数均来自网上,做了小小...

    一个简单url编码解码

    这个名为“一个简单url编码解码”的项目,就是为新手提供了一个理解和实践URL编码与解码机制的实例。 URL编码是根据RFC 3986标准进行的,主要使用百分号(%)表示非ASCII字符或特殊字符的ASCII十六进制值。例如,...

    第04篇:XSS三重URL编码绕过实例1

    本文主要探讨了一个XSS三重URL编码绕过的实例,揭示了在某些情况下,简单的防御措施可能不足以阻止攻击。 首先,我们要理解XSS的基本概念。XSS攻击通常发生在Web应用程序未能正确过滤或转义用户输入的情况下。当...

    url编码转化,将url转化成unicode进行传输

    ### URL编码转换:将URL转换为Unicode进行传输 在互联网技术的应用中,URL(Uniform Resource Locator,统一资源定位符)编码转换是一项基本且重要的技术。本文将深入探讨URL编码转换的相关概念、应用场景以及一个...

    url编码转换器

    URL编码,全称为统一资源定位符(Uniform Resource Locator)编码,是互联网上数据通信的一种标准格式,用于确保数据在传输过程中不受损失或错误地被解释。URL编码的主要目的是解决URL中可能包含的特殊字符,如空格...

    url编码gbk格式

    URL编码,全称为统一资源定位符(Uniform Resource Locator)编码,是互联网上数据通信的一种标准格式,用于将非ASCII字符转换为可以在URL中安全传输的形式。GBK编码是中国大陆广泛使用的汉字编码标准,它包含了GB...

    URL编码解码器

    URL编码遵循统一资源标识符(URI)的规则,其中最常用的是基于百分号(%)的编码方法。每个非ASCII或特殊字符会被替换为"%xy"的形式,其中xy是该字符在UTF-8编码中的两个字节的十六进制表示。例如,空格字符(ASCII...

    URL编码表一览

    ### URL编码表详解 #### 一、概述 URL编码(也称为百分号编码)是一种用于在URL中表示特殊字符的方法。这是因为URL中的某些字符在不同的上下文中可能具有特殊含义,例如空格、斜杠等。为了确保这些字符能正确地被...

    易语言URL编码转换模块源码

    易语言URL编码转换模块源码是一个专为易语言设计的组件,用于处理URL编码和解码的任务。在互联网通信中,URL(统一资源定位符)是网页和其他网络资源的地址,但因为URL中可能包含非ASCII字符或者特殊字符,如空格、...

    unicode格式的字符串进行URL编码

    今天写一个POST程序的时候有一段UNICODE字符串需要进行URL编码后进行提交。但是找遍了精易模块和百度都没有说有这这个命令 让Unicode字符串(易语言里面以字节集表示)直接进行正确的URL编码。所以就自己写了一个...

    URL编码转换工具

    URL编码是互联网上的一种标准编码方式,用于将特殊字符转换为可安全传递的ASCII字符串,以便在URL(统一资源定位符)中使用。这个“URL编码转换工具”就是专门为了帮助开发者解决这个问题而设计的。它能够将URL中的...

    URL编码转换工具 很好用

    在IT行业中,URL编码是一种常见的数据处理方式,特别是在网页开发和服务器通信中。URL(统一资源定位符)编码是确保URL中的特殊字符能在网络传输中正确解析和处理的关键步骤。以下是对“URL编码转换工具”及其相关...

    url加密URL编码 如“exit”编码为“%65%78%69%74”.zip

    在IT领域,URL编码是一种常见的数据处理技术,特别是在网络编程中。这个压缩包文件的标题和描述提及了“url加密”和“URL编码”,实际上,它们指的是同一个概念,即URL编码(URL Encoding)。URL编码是根据统一资源...

Global site tag (gtag.js) - Google Analytics