1、GET方式直接抓取,需要参数拼在参数中
import urllib2
content = urllib2.urlopen(url).read()
这里的url可以是很多中协议,具体参考官方文档
2、POST方式抓取数据,参数可以在url中,也可以封装中请求中
import urllib2, urllib
data = urllib.urlencode({'title':'this is title', 'body':'this is body'})
request = urllib2.Request(url, data, headers)
result = urllib2.urlopen(request).read()
3、登录,并缓存Cookie
import urllib2, urllib, cookielib
cookiejar = cookielib.LWPCookieJar()
url_opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
request = urllib2.Request(url)
data = {'username' : name, 'password' : pw}
login_data = urllib.urlencode(data)
response = url_opener.open(request, login_data)
此时,cookie已经被缓存到opener中了,之后有两种用法,一种是将opener设置到urllib2中作为全局的设置,这样就可以在任何地方使用urllib2获取url,另外是直接使用opener.open()来抓取数据,如下,第一种方式方便,第二种方式可以个性化的设置,比如创建多个opener或者设置代理等等
1、urllib2.install_opener(opener)
2、url_opener.open(url)
分享到:
相关推荐
Python的urllib3和requests库是进行HTTP请求的两个常用工具,它们在Web开发、数据抓取、API交互等场景中扮演着重要角色。这里我们将深入探讨这两个库的特点、使用方法以及它们之间的区别。 首先,urllib3是Python的...
Python的urllib3库是Python标准库...总的来说,urllib3是Python中一个强大且灵活的HTTP客户端工具,无论是简单的网页抓取还是复杂的网络应用,它都能胜任。了解并掌握urllib3,将有助于提升你的Python网络编程能力。
`urllib` 是 Python 的一个标准库,主要用于处理 URL 操作,比如抓取网页内容、解析 URL 和处理异常情况等。对于从事 Web 开发或者需要从互联网上抓取数据的开发者来说,`urllib` 提供了一系列强大的工具和功能。 #...
`urllib2`是Python标准库中的一个强大工具,用于处理URLs的获取和解析。尽管在Python 3中已被`urllib.request`和`urllib.parse`等模块取代,但在Python 2中,`urllib2`仍然是处理HTTP和FTP请求的首选。本文将深入...
以上就是Python中`urllib`, `urllib2`, 和`httplib`用于抓取网页的一些基本知识点。这些库的使用能够帮助开发者构建复杂的网络请求逻辑,进行数据抓取和交互。需要注意的是,进行网络请求时应遵守网站的robots.txt...
最简单的使用 `urllib2` 获取网页内容的方法是通过 `urlopen` 函数: ```python import urllib2 response = urllib2.urlopen('http://blog.chenpeng.info/') html = response.read() ``` 这段代码将访问指定 URL...
`urllib2` 是 Python 早期用于处理 URL 请求的标准库之一,在 Python 2.x 版本中广泛使用。随着 Python 3.x 的普及,该模块已被整合进 `urllib` 包中,并有所调整。尽管如此,了解 `urllib2` 仍然有助于更好地掌握...
Python 的 urllib2 模块是 Python 的一个标准库,提供了访问网页和本地文件的功能。在本教程中,我们将详细了解 urllib2 模块的使用和解析。 一、urllib2 模块概述 urllib2 模块是 Python 的一个标准库,提供了...
Python的urllib2模块是用于处理URL的工具集,它为开发者提供了强大的功能,包括打开网页、处理HTTP请求和响应、处理HTTP头、处理cookies、处理认证等。在这个实例简介中,我们将深入探讨urllib2模块的核心功能和使用...
在Python中,我们使用urllib2这个组件来抓取网页。 urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。 它以urlopen函数的形式提供了一个非常简单的接口。 最简单的urllib2的应用代码只需要四行。 ...
python urllib or requests模块模拟浏览器获取网页内容
总结来说,Python的urllib库为初学者提供了一个基础的网络爬虫框架,尽管它的功能相对简单,但结合其他库和模块,可以构建出强大的网络数据获取系统。对于进阶的爬虫开发者,理解urllib的工作原理和应用场景,是提升...
在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2是Python2.x自带的模块(不需要下载,导入即可使用) urllib2官网文档:https://docs.python.org/2/library/urllib2.html urllib2源码 urllib2在...
本文实例讲述了Python使用正则表达式抓取网页图片的方法。分享给大家供大家参考,具体如下: #!/usr/bin/python import re import urllib #获取网页信息 def getHtml(url): page = urllib.urlopen(url) ...
urllib 学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫课程后,将心得整理如下,供后续翻看....@ urllib为python自带的一个网络库 @ urlo
Python的urllib2库是进行HTTP请求的重要工具,主要用于网络数据的抓取和交互。它提供了urlopen函数和Request类,使得开发者能够方便地发送GET和POST请求,并处理各种网络交互中的复杂情况。 1. `urlopen`函数是...