`
riching
  • 浏览: 263135 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

使用Python的urllib2库抓取网页

 
阅读更多
1、GET方式直接抓取,需要参数拼在参数中
import urllib2
content = urllib2.urlopen(url).read()

这里的url可以是很多中协议,具体参考官方文档

2、POST方式抓取数据,参数可以在url中,也可以封装中请求中
import urllib2, urllib
data = urllib.urlencode({'title':'this is title', 'body':'this is body'})
request = urllib2.Request(url, data, headers)
result = urllib2.urlopen(request).read()


3、登录,并缓存Cookie
    import urllib2, urllib, cookielib
    cookiejar = cookielib.LWPCookieJar()
    url_opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
    request = urllib2.Request(url)
    data = {'username' : name, 'password' : pw} 
    login_data = urllib.urlencode(data)
    response = url_opener.open(request, login_data)

此时,cookie已经被缓存到opener中了,之后有两种用法,一种是将opener设置到urllib2中作为全局的设置,这样就可以在任何地方使用urllib2获取url,另外是直接使用opener.open()来抓取数据,如下,第一种方式方便,第二种方式可以个性化的设置,比如创建多个opener或者设置代理等等
1、urllib2.install_opener(opener)
2、url_opener.open(url)
分享到:
评论

相关推荐

    python urllib3 requests

    Python的urllib3和requests库是进行HTTP请求的两个常用工具,它们在Web开发、数据抓取、API交互等场景中扮演着重要角色。这里我们将深入探讨这两个库的特点、使用方法以及它们之间的区别。 首先,urllib3是Python的...

    python urllib3

    Python的urllib3库是Python标准库...总的来说,urllib3是Python中一个强大且灵活的HTTP客户端工具,无论是简单的网页抓取还是复杂的网络应用,它都能胜任。了解并掌握urllib3,将有助于提升你的Python网络编程能力。

    「Python系列」Python urllib库(操作网页URL对网页的内容进行抓取处理).md

    `urllib` 是 Python 的一个标准库,主要用于处理 URL 操作,比如抓取网页内容、解析 URL 和处理异常情况等。对于从事 Web 开发或者需要从互联网上抓取数据的开发者来说,`urllib` 提供了一系列强大的工具和功能。 #...

    python urllib2详解及实例 Python开发技术文章_教程 - 红黑联盟.pdf

    `urllib2`是Python标准库中的一个强大工具,用于处理URLs的获取和解析。尽管在Python 3中已被`urllib.request`和`urllib.parse`等模块取代,但在Python 2中,`urllib2`仍然是处理HTTP和FTP请求的首选。本文将深入...

    Python urllib、urllib2、httplib抓取网页代码实例

    以上就是Python中`urllib`, `urllib2`, 和`httplib`用于抓取网页的一些基本知识点。这些库的使用能够帮助开发者构建复杂的网络请求逻辑,进行数据抓取和交互。需要注意的是,进行网络请求时应遵守网站的robots.txt...

    pythonurllib2模块实例简介.pdf

    最简单的使用 `urllib2` 获取网页内容的方法是通过 `urlopen` 函数: ```python import urllib2 response = urllib2.urlopen('http://blog.chenpeng.info/') html = response.read() ``` 这段代码将访问指定 URL...

    python urllib2模块实例简介.docx

    `urllib2` 是 Python 早期用于处理 URL 请求的标准库之一,在 Python 2.x 版本中广泛使用。随着 Python 3.x 的普及,该模块已被整合进 `urllib` 包中,并有所调整。尽管如此,了解 `urllib2` 仍然有助于更好地掌握...

    Python 网络爬虫开发 Python爬虫入门基础教程:Python的urllib2 模块解析 共6页.pptx

    Python 的 urllib2 模块是 Python 的一个标准库,提供了访问网页和本地文件的功能。在本教程中,我们将详细了解 urllib2 模块的使用和解析。 一、urllib2 模块概述 urllib2 模块是 Python 的一个标准库,提供了...

    pythonurllib2模块实例简介文.pdf

    Python的urllib2模块是用于处理URL的工具集,它为开发者提供了强大的功能,包括打开网页、处理HTTP请求和响应、处理HTTP头、处理cookies、处理认证等。在这个实例简介中,我们将深入探讨urllib2模块的核心功能和使用...

    零基础写python爬虫之使用urllib2组件抓取网页内容

    在Python中,我们使用urllib2这个组件来抓取网页。 urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。 它以urlopen函数的形式提供了一个非常简单的接口。 最简单的urllib2的应用代码只需要四行。 ...

    python模拟浏览器获取网页内容

    python urllib or requests模块模拟浏览器获取网页内容

    Python爬虫(二)urllib库

    总结来说,Python的urllib库为初学者提供了一个基础的网络爬虫框架,尽管它的功能相对简单,但结合其他库和模块,可以构建出强大的网络数据获取系统。对于进阶的爬虫开发者,理解urllib的工作原理和应用场景,是提升...

    Python爬虫 urllib2的使用方法详解

    在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2是Python2.x自带的模块(不需要下载,导入即可使用) urllib2官网文档:https://docs.python.org/2/library/urllib2.html urllib2源码 urllib2在...

    Python使用正则表达式抓取网页图片的方法示例

    本文实例讲述了Python使用正则表达式抓取网页图片的方法。分享给大家供大家参考,具体如下: #!/usr/bin/python import re import urllib #获取网页信息 def getHtml(url): page = urllib.urlopen(url) ...

    使用Python的urllib和urllib2模块制作爬虫的实例教程

    urllib 学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫课程后,将心得整理如下,供后续翻看....@ urllib为python自带的一个网络库 @ urlo

    Python urllib2运行过程原理解析

    Python的urllib2库是进行HTTP请求的重要工具,主要用于网络数据的抓取和交互。它提供了urlopen函数和Request类,使得开发者能够方便地发送GET和POST请求,并处理各种网络交互中的复杂情况。 1. `urlopen`函数是...

Global site tag (gtag.js) - Google Analytics