`

python3中的urlopen对于中文url是如何处理的

阅读更多
首先,url中的中文要单独处理,不能中英文全部合在一起处理(因为一部分的特殊字符也会被处理掉)。其次。在python3.0+中,已经不支持之前的urllib.quote了,而是需要urllib.parse.quote(str)
一种可行的方案
import urllib
s=‘中文’

s=urllib.parse.quote(s)

url='some english url character %s'%(s)

urllib.request.urlopen(url)



作者:孙晓飞
链接:http://www.zhihu.com/question/22899135/answer/23746054
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

分享到:
评论

相关推荐

    Python 爬虫之超链接 url中含有中文出错及解决办法

    Python 爬虫之超链接 url中含有中文出错及解决办法 python3.5 爬虫错误: UnicodeEncodeError: 'ascii' codec can't encode characters 这个错误是由于超链接中含有中文引起的,超链接默认是用ascii编码的,所以不...

    python使用正则表达式提取网页URL的方法

    本文实例讲述了python使用正则表达式提取网页URL的方法。分享给大家供大家参考。具体实现方法如下: import re import urllib url=//www.jb51.net s=urllib.urlopen(url).read() ss=s.replace( ,) urls=re.findall...

    解决python3 urllib中urlopen报错的问题

    通过上述步骤,你可以顺利地在Python3中使用`urllib.request.urlopen()`函数来处理网络请求。当遇到类似的库迁移或重构问题时,查阅官方文档通常是解决问题的关键。此外,及时更新自己的编程习惯和理解新版本库的...

    「Python系列」Python urllib库(操作网页URL对网页的内容进行抓取处理).md

    `urllib` 是 Python 的一个标准库,主要用于处理 URL 操作,比如抓取网页内容、解析 URL 和处理异常情况等。对于从事 Web 开发或者需要从互联网上抓取数据的开发者来说,`urllib` 提供了一系列强大的工具和功能。 #...

    Python爬虫基础教程-Urllib详解.pdf

    在Python3中,Urllib库整合了Python2.7中的urllib和urllib2,形成一个统一的接口,使得操作更为简洁。 首先,我们要了解Urllib库的主要模块: 1. **urllib.request**:这是用于发出HTTP请求的核心模块,包含了如...

    解决python3 urllib 链接中有中文的问题

    这里的内容概述了Python3中urllib模块处理中文URL时的常见错误,以及如何通过编码和解码来解决该问题。实际编码时要根据具体的网络环境和服务器配置做适当调整,并且在开发中关注细节,才能使网络编程更加顺利。

    python从网络读取图片并直接进行处理的方法

    2. **使用`cStringIO`或`io.BytesIO`处理图片数据**:`cStringIO`模块(Python 2中)和`io.BytesIO`类(Python 3中)提供了类似文件接口的对象,允许我们在内存中处理二进制数据,这非常适合用来处理图像数据。...

    python抽取指定url页面的title方法

    最后,代码的主程序部分通过urllib的urlopen方法从指定的URL获取网页源码,然后调用utf8_transfer函数处理编码问题,再调用get_title_xpath和get_title函数提取页面标题,最终打印出来。 整个过程涉及到的知识点...

    Python urlopen()函数 示例分享

    复制代码 代码如下:from urllib import urlopendoc = urlopen(“http://www.baidu.com”).read()print doc 二、获取Http头 复制代码 代码如下:from urllib import urlopendoc = urlopen(“http://www.baidu.com”)...

    Python urlopen 使用小示例

    在这里,我们使用`urllib.request.urlopen`(注意不是`urllib.urlopen`,因为在Python3中,`urllib`被拆分为多个子模块),通过`proxies`参数传入代理配置。若不使用代理,可以传递一个空字典或直接省略`proxies`...

    Python urllib urllib模块

    在Python 3.x中,urllib被进一步拆分为urllib.request、urllib.parse和urllib.error三个子模块,以更清晰地组织功能。 1. **urllib.request**: 这个子模块负责实际的HTTP请求。它提供了opener对象,可以用来打开URL...

    python_wget

    Python中的`wget`模块是用于下载网页或文件的工具,其功能类似于命令行工具wget。在Python编程中,我们可以通过构建自己的脚本来模拟wget的功能,这通常涉及到HTTP、HTTPS等网络协议的处理以及文件的保存操作。下面...

    Python challenge 3

    根据给定的信息,我们可以推断出本挑战是关于Python编程中的网络请求以及字符串处理的问题。在挑战中,参与者需要从指定网址(http://www.pythonchallenge.com/pc/def/ocr.html)获取页面内容,并从中提取特定的信息...

    python打开url并按指定块读取网页内容的方法

    本文主要介绍了在Python中如何打开URL地址,并按照指定的块大小读取网页内容的方法。这项技术对处理大型文件,或者在网络环境不稳定时,能够有效减少内存的使用,提高程序的健壮性。 在Python中操作URL并读取网页...

    python爬取百度百科的页面

    首先,`urllib2`是Python标准库中的一个模块,用于处理URL相关的任务,包括打开网络连接、发送HTTP请求等。在爬虫中,我们通常使用它来向服务器发起GET或POST请求,获取网页的HTML源代码。例如: ```python import ...

    python通过urllib2获取带有中文参数url内容的方法

    总的来说,正确处理带有中文参数的URL需要理解字符串编码和URL编码的原理,以及如何在Python中进行这些操作。通过使用`encode()`和`urllib2.quote()`,我们可以确保中文参数被正确地编码,从而避免在调用`urllib2....

    Python3爬虫入门练习

    在IT领域,Python3是一种广泛使用的编程语言,尤其在数据处理和网络爬虫方面表现出色。本篇将深入探讨如何利用Python3的urllib和BeautifulSoup库进行初级的网络爬虫实践。 首先,让我们理解一下Python3的urllib库。...

Global site tag (gtag.js) - Google Analytics