今天要处理百度贴吧的东西。想要做一个关键词的list,每次需要时,直接添加
到list里面就可以了。但是添加到list里面是中文的情况(比如‘丽江’),url的地址编码却是'%E4%B8%BD%E6%B1%9F',因此需
要做一个转换。这里我们就用到了模块urllib。
>>> import urllib
>>> data = '丽江'
>>> print data
丽江
>>> data
'\xe4\xb8\xbd\xe6\xb1\x9f'
>>> urllib.quote
(data)
'%E4%B8%BD%E6%B1%9F'
那我们想转回去呢?
>>> urllib.unquote('%E4%B8%BD%E6%B1%9F')
'\xe4\xb8\xbd\xe6\xb1\x9f'
>>> print urllib.unquote
('%E4%B8%BD%E6%B1%9F')
丽江
细心的同学会发现贴吧url中出现的是%C0%F6%BD%AD,而非'%E4%B8%BD%E6%B1%9F',其实是编码问题。百度的是gbk,其他
的一般网站比如google就是utf8的。所以可以用下列语句实现。
>>> import sys,urllib
>>> s = '丽江'
>>> urllib.quote(s.decode(sys.stdin.encoding).encode('gbk'))
'%C0%F6%BD%AD'
>>> urllib.quote(s.decode(sys.stdin.encoding).encode('utf8'))
'%E4%B8%BD%E6%B1%9F'
>>>
分享到:
相关推荐
### Python 实现中文转换URL编码的方法 在进行网络爬虫开发或者处理中文URL时,我们经常需要将中文字符转换为URL编码格式。这是因为URL只允许ASCII字符,而中文字符不属于ASCII字符集的一部分,因此需要通过特定的...
在实际应用中,URL编码不仅限于手动操作,许多编程语言如JavaScript、Python、Java等都提供了内置函数来自动处理URL编码和解码。例如,JavaScript中的`encodeURIComponent()`和`decodeURIComponent()`函数,可以方便...
1、url编码 对字符串编码用urllib.parse包下的quote(string, safe=’/’, encoding=None, errors=None)方法。 对json格式的参数名和值编码,用urllib.parse包下的 urlencode(query, doseq=False, safe=”, encoding=...
在Python编程中,字符串与URL编码之间的转换是一项常见的任务,尤其在处理网络请求和编码数据时显得尤为重要。Python提供了内置的模块来支持这一功能,而urllib模块就是其中之一,它提供了处理URLs的功能,包括编码...
在Python中,有一个内置的`urllib.parse`模块,它提供了URL编码和解码的功能。`urllib.parse.quote()`函数用于对字符串进行URL编码,将非字母数字字符转换为百分号编码形式。例如,空格会转换为"%20"。而`urllib....
有json格式转换,base64编码转换、url编码转换,16进制编码转换、md5加密
URL编码是将非ASCII字符转换为%XX形式的过程,其中XX是该字符在UTF-8编码中的两位十六进制表示。Python中提供了`urllib.parse`模块来处理这种编码和解码。 在Python 3中,`urllib.parse`模块的`quote()`函数用于对...
在Python编程语言中,URL编码和解码是处理网络请求时常见的操作,特别是在处理包含非ASCII字符的URL时。在Python 3中,这个过程主要通过`urllib.parse`模块来实现。本篇文章将深入探讨如何使用Python 3进行URL编码和...
4. 非ASCII字符,如中文、日文等,需要使用UTF-8编码转换成多个十六进制序列后再进行URL编码。 URL编码的应用场景包括但不限于: 1. 查询字符串:在URL中的"?"后面的部分,用于传递参数,如`...
在编程语言中,如JavaScript、Python、Java等,都有内置函数可以方便地对字符串进行URL编码和解码。例如,JavaScript的`encodeURIComponent()`和`decodeURIComponent()`函数,Python的`urllib.parse.quote()`和`...
除了基本的编码和解码,`base64`模块还提供了其他功能,如URL安全的Base64编码(`urlsafe_b64encode()`和`urlsafe_b64decode()`),以及处理多行Base64编码的辅助函数(`b64encode()`的`line_length`参数)。...
这个名为“一个简单url编码解码”的项目,就是为新手提供了一个理解和实践URL编码与解码机制的实例。 URL编码是根据RFC 3986标准进行的,主要使用百分号(%)表示非ASCII字符或特殊字符的ASCII十六进制值。例如,...
另外,虽然在大多数情况下,URL编码遵循ASCII标准,但在Unicode环境中,URL编码也可以扩展到包含非ASCII字符,这通常被称为“ Punycode”转换。 在实际开发中,了解并正确使用URL编码和解码不仅能保证数据的完整性...
它可以将 URL 字符串分解成不同的组件,例如协议、网络位置、路径等,并将相对 URL 转换为绝对 URL。urllib.parse 是处理 URL 的 Swiss Army Knife,提供了许多实用的函数和类来帮助开发者处理 URL。 purl 是一个小...
URL缩短和转换器应用程序专门使用Python编程语言构建。该应用程序是一个旨在缩短 URL 链接的工具。它有双重用途,允许用户缩短 URL 并将 TinyURL 转换为其原始格式。事实证明,此功能在与他人共享链接时特别有用,...
Base64是一种将二进制数据转换为可打印字符的编码方式,它常用于在网络上传输图像等非文本数据。本示例主要讲解如何使用Python将Base64编码的图片解码并保存到本地。 首先,我们要了解Python中进行Base64编码和解码...
### Python 实现文件路径与 URL 相互转换的方法 在 Python 开发中,经常会遇到需要将文件路径转换为 URL 或者将 URL 转换成文件路径的情况。这种转换主要用于网络应用开发、文件处理以及资源定位等领域。下面我们将...
整个过程涉及到的知识点主要包括Python爬虫技术、正则表达式的应用、字符编码转换、HTML解析技术等。在实际的网络爬虫项目中,除了提取网页标题,还可能需要提取网页中的其他各种信息,比如图片、链接、文本等,这些...
在IT行业中,URL编码(又称为百分号编码)是一种用于在网络应用中表示非ASCII字符或特殊字符的标准。这种编码方式是HTTP协议的一部分,确保数据可以在URL中安全传输。本话题将详细探讨“url编码解码源代码”,以及...