一、打开一个网页获取所有的内容
from urllib import urlopen
doc = urlopen("http://www.baidu.com").read()
print doc
二、获取Http头
from urllib import urlopen
doc = urlopen("http://www.baidu.com")
print doc.info()
print doc.info().getheader('Content-Type')
三、使用代理
1. 查看环境变量
print ""n".join(["%s=%s" % (k, v) for k, v in os.environ.items()])
print os.getenv("http_proxy")
2. 设置环境变量
import os
os.putenv("http_proxy", "http://proxyaddr:<port>")
3. 使用代理
# Use http://www.someproxy.com:3128 for http proxying
proxies = {'http': 'http://www.someproxy.com:3128'}
filehandle = urllib.urlopen(some_url, proxies=proxies)
# Don't use any proxies
filehandle = urllib.urlopen(some_url, proxies={})
# Use proxies from environment - both versions are equivalent
filehandle = urllib.urlopen(some_url, proxies=None)
filehandle = urllib.urlopen(some_url)
详细出处参考:http://www.jb51.net/article/15720.htm
#实现图片下载
import urllib
url = r"http://www.iteye.com/images/logo.gif"
path = r"h:\downloads\1.jpg"
data = urllib.urlopen(url).read()
f = file(path,"wb")
f.write(data)
f.close()
分享到:
相关推荐
好了,废话少说,我们先看看几个示例吧 一、打开一个网页获取所有的内容 复制代码 代码如下:from urllib import urlopendoc = urlopen(“http://www.baidu.com”).read()print doc 二、获取Http头 复制代码 代码如下...
在Python编程中,网络编程是一个常见的需求,涉及到网络资源的读取和下载,urllib模块提供了一系列用于操作URL的功能,urlopen()和urlretrieve()是其中非常实用的两个函数。 urlopen()函数属于urllib.request模块,...
### Python爬虫使用Cookie登录详解 #### 前言 在进行网络爬虫开发时,经常会遇到需要登录后才能访问的网页。此时,利用Cookie机制能够有效地帮助爬虫完成登录并抓取数据。本文将详细介绍如何使用Python的`urllib`库...
本文实例讲述了Python使用正则表达式抓取网页图片的方法。分享给大家供大家参考,具体如下: #!/usr/bin/python import re import urllib #获取网页信息 def getHtml(url): page = urllib.urlopen(url) ...
在示例中,当编码一致时,直接使用`htmlfile.write(content)`写入内容,假设默认编码为UTF-8。 6. **使用`codecs`模块**:除了直接写入文件外,还可以使用`codecs`模块的`open`函数,指定打开文件的编码,如`codecs...
Python网络编程是一个广泛的领域,它涵盖了使用Python语言进行网络数据传输、服务器开发、客户端应用创建等众多技术。在这个小例子中,我们将深入探讨Python在TCP/IP通信、HTTP协议、套接字编程以及Web服务等方面的...
Python的`contextlib`模块是一个非常实用的工具,它提供了创建和使用上下文管理器的便利方式。上下文管理器在Python中主要用于控制资源的获取和释放,如文件、网络连接或者数据库会话等。它们通过定义`__enter__`和`...
我通常使用urlopen来获取网页内容,然后使用bs4从那里创建一个“汤”对象。 安装BeautifulSoup4 使用点 pip install beautifulsoup4 使用easy_install easy_install beautifulsoup4 为Linux用户安装 sudo apt-get...
在Python编程语言中,第三方库的使用极大地扩展了其功能,并且为开发者提供了大量的便利。以下是对文档中提到的一些最常用的Python库及其应用场景的详细解读,这些库是从分析GitHub上的5000个开源Python项目中筛选...
本文将详细讲解如何使用Python调用净值数据接口,以获取基金相关的实时或历史数据。这个示例是针对聚合数据(Juhe)提供的基金净值数据接口,涵盖了多种类型的基金,包括全部开放基金、股票型基金、普通债券型基金、...
2. **使用`cStringIO`或`io.BytesIO`处理图片数据**:`cStringIO`模块(Python 2中)和`io.BytesIO`类(Python 3中)提供了类似文件接口的对象,允许我们在内存中处理二进制数据,这非常适合用来处理图像数据。...
下面是一个使用poster模块上传文件的基本示例: ```python from poster.encode import multipart_encode from poster.streaminghttp import register_openers import urllib2 # 创建一个MultipartParam对象,这里...
本知识点将围绕如何使用Python编写简单的网络爬虫进行详细阐述,从基础知识到实际操作,为没有基础的读者提供入门教程。 知识点一:Python基础 Python是一门易于学习且功能强大的编程语言,它的语法清晰,有着大量...
需要注意的是,这里的 `urllib.urlopen` 在 Python 3 中已经被移到了 `urllib.request.urlopen`,因此如果使用 Python 3,需要相应地更新代码。 当有网址无法打开时,如返回 404 错误,测试会报错,如下所示: ```...
本篇文章将重点介绍 `urllib.request` 模块中的 `urlopen` 方法以及如何使用 `Request` 类来进行更复杂的HTTP请求。 1. `urlopen()` 基本用法 `urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None...
《Python编程金典_源代码》是一本深受Python爱好者欢迎的书籍,其源代码提供了丰富的实践案例和示例,帮助读者深入理解Python编程的核心概念和技术。这个压缩包中包含的"Pythonhttp1_examples"文件,很可能是关于...
- **urllib.request模块**:使用urlopen()方法发送HTTP请求,获取网页内容。 - **处理HTTP响应**:解析HTTP响应头,处理编码问题,提取网页数据。 ### Python基础知识 #### 1. 安装Python3运行环境 - 下载最新版本...
接下来,我们来看一个具体的示例代码,了解如何使用Python 3结合BeautifulSoup来抓取`div`标签。 ```python # -*- coding: utf-8 -*- # python3环境 # XiaoDeng # 示例URL: http://tieba.baidu.com/p/2460150866 # ...