使用Python的urllib2库抓取网页 - - ITeye博客

`

riching

浏览: 263791 次
性别:
来自: 北京

最近访客更多访客>>

piaoliousihai

wj539h

xwttrenzhe

hzj451210895

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

chlhp： Session Option→选字体（新宋体）→再选Char ...
SecureCRT中文显示乱码的解决方法
Interceptor2013： org.wltea.analyzer.core.IKSegme ...
使用余弦相似性原理计算文本的相似度
renzhengzhi：我的maven版本是3.2.3，也报这个错误
maven com.github.goldin.plugins 报错
riching：君诩逸尘写道我想问下我把.project文件改了以后项目里 ...
MyEclipse buildpath 报错问题的解决方法
君诩逸尘：我想问下我把.project文件改了以后项目里面都报错啊 ...
MyEclipse buildpath 报错问题的解决方法

使用Python的urllib2库抓取网页

博客分类：

python

阅读更多

1、GET方式直接抓取，需要参数拼在参数中

import urllib2
content = urllib2.urlopen(url).read()

这里的url可以是很多中协议，具体参考官方文档

2、POST方式抓取数据，参数可以在url中，也可以封装中请求中

import urllib2, urllib
data = urllib.urlencode({'title':'this is title', 'body':'this is body'})
request = urllib2.Request(url, data, headers)
result = urllib2.urlopen(request).read()

3、登录，并缓存Cookie

    import urllib2, urllib, cookielib
    cookiejar = cookielib.LWPCookieJar()
    url_opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
    request = urllib2.Request(url)
    data = {'username' : name, 'password' : pw} 
    login_data = urllib.urlencode(data)
    response = url_opener.open(request, login_data)

此时，cookie已经被缓存到opener中了，之后有两种用法，一种是将opener设置到urllib2中作为全局的设置，这样就可以在任何地方使用urllib2获取url，另外是直接使用opener.open()来抓取数据,如下，第一种方式方便，第二种方式可以个性化的设置，比如创建多个opener或者设置代理等等

1、urllib2.install_opener(opener)
2、url_opener.open(url)

分享到：

Python的urllib2的代理设置 | 使用余弦相似性原理计算文本的相似度

2013-11-01 17:49
浏览 1954
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python urllib3 requests: Python的urllib3和requests库是进行HTTP请求的两个常用工具，它们在Web开发、数据抓取、API交互等场景中扮演着重要角色。这里我们将深入探讨这两个库的特点、使用方法以及它们之间的区别。首先，urllib3是Python的...

python urllib3: Python的urllib3库是Python标准库...总的来说，urllib3是Python中一个强大且灵活的HTTP客户端工具，无论是简单的网页抓取还是复杂的网络应用，它都能胜任。了解并掌握urllib3，将有助于提升你的Python网络编程能力。

「Python系列」Python urllib库（操作网页URL对网页的内容进行抓取处理）.md: `urllib` 是 Python 的一个标准库，主要用于处理 URL 操作，比如抓取网页内容、解析 URL 和处理异常情况等。对于从事 Web 开发或者需要从互联网上抓取数据的开发者来说，`urllib` 提供了一系列强大的工具和功能。 #...

python urllib2详解及实例 Python开发技术文章_教程 - 红黑联盟.pdf: `urllib2`是Python标准库中的一个强大工具，用于处理URLs的获取和解析。尽管在Python 3中已被`urllib.request`和`urllib.parse`等模块取代，但在Python 2中，`urllib2`仍然是处理HTTP和FTP请求的首选。本文将深入...

Python urllib、urllib2、httplib抓取网页代码实例: 以上就是Python中`urllib`, `urllib2`, 和`httplib`用于抓取网页的一些基本知识点。这些库的使用能够帮助开发者构建复杂的网络请求逻辑，进行数据抓取和交互。需要注意的是，进行网络请求时应遵守网站的robots.txt...

pythonurllib2模块实例简介.pdf: 最简单的使用 `urllib2` 获取网页内容的方法是通过 `urlopen` 函数： ```python import urllib2 response = urllib2.urlopen('http://blog.chenpeng.info/') html = response.read() ``` 这段代码将访问指定 URL...

python urllib2模块实例简介.docx: `urllib2` 是 Python 早期用于处理 URL 请求的标准库之一，在 Python 2.x 版本中广泛使用。随着 Python 3.x 的普及，该模块已被整合进 `urllib` 包中，并有所调整。尽管如此，了解 `urllib2` 仍然有助于更好地掌握...

Python 网络爬虫开发 Python爬虫入门基础教程：Python的urllib2 模块解析共6页.pptx: Python 的 urllib2 模块是 Python 的一个标准库，提供了访问网页和本地文件的功能。在本教程中，我们将详细了解 urllib2 模块的使用和解析。一、urllib2 模块概述 urllib2 模块是 Python 的一个标准库，提供了...

pythonurllib2模块实例简介文.pdf: Python的urllib2模块是用于处理URL的工具集，它为开发者提供了强大的功能，包括打开网页、处理HTTP请求和响应、处理HTTP头、处理cookies、处理认证等。在这个实例简介中，我们将深入探讨urllib2模块的核心功能和使用...

零基础写python爬虫之使用urllib2组件抓取网页内容: 在Python中，我们使用urllib2这个组件来抓取网页。 urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlopen函数的形式提供了一个非常简单的接口。最简单的urllib2的应用代码只需要四行。 ...

python模拟浏览器获取网页内容: python urllib or requests模块模拟浏览器获取网页内容

Python爬虫（二）urllib库: 总结来说，Python的urllib库为初学者提供了一个基础的网络爬虫框架，尽管它的功能相对简单，但结合其他库和模块，可以构建出强大的网络数据获取系统。对于进阶的爬虫开发者，理解urllib的工作原理和应用场景，是提升...

Python爬虫 urllib2的使用方法详解: 在Python中有很多库可以用来抓取网页，我们先学习urllib2。 urllib2是Python2.x自带的模块(不需要下载，导入即可使用) urllib2官网文档：https://docs.python.org/2/library/urllib2.html urllib2源码 urllib2在...

Python使用正则表达式抓取网页图片的方法示例: 本文实例讲述了Python使用正则表达式抓取网页图片的方法。分享给大家供大家参考，具体如下： #!/usr/bin/python import re import urllib #获取网页信息 def getHtml(url): page = urllib.urlopen(url) ...

Python库 | urllib3-1.24.3-py2.py3-none-any.whl: 这个资源是一个名为`urllib3-1.24.3-py2.py3-none-any.whl`的压缩包，包含了`urllib3`库的特定版本1.24.3，支持Python 2和Python 3，适用于任何架构。安装这个.whl文件后，你就可以在你的Python项目中使用`urllib3`...

使用Python的urllib和urllib2模块制作爬虫的实例教程: urllib 学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫课程后,将心得整理如下,供后续翻看....@ urllib为python自带的一个网络库 @ urlo

Global site tag (gtag.js) - Google Analytics