python urlOpen使用代理 - 泉水 - ITeye博客

`

qepwqnp

浏览: 120728 次
性别:
来自: 成都

最近访客更多访客>>

zcw_java

ctao

coaco

hongboxiang

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

sp42： Oracle 不是很吊的么，怎么连个分页都这么麻烦？
数据库分页大全（oracle利用解析函数row_number高效分页）
metarnetyflu：不知道哪里快了！！！over()是最慢的，rownum其次，r ...
数据库分页大全（oracle利用解析函数row_number高效分页）
wfd0807： 09年发的博文，五年了，一定影响到了不少人。首先，你描述的三层 ...
数据库分页大全（oracle利用解析函数row_number高效分页）
diyunpeng：学习了，写的不错。
python urlOpen使用代理
qepwqnp：帖子沉的好深，涝起来
js_自己封装一个可查询frame中对象的一个方法

python urlOpen使用代理

博客分类：

原创

阅读更多

利用urllib包

import urllib
proxyConfig = 'http://%s:%s@%s' % ('userName', 'password', 'proxy')
inforMation = urllib.urlopen("http://tianya.cn", proxies={'http':proxyConfig})     
print inforMation.read()

userName:用户名
password:密码
proxy: 代理加端口
利用urllib2包

import urllib2
proxyConfig = 'http://%s:%s@%s' % ('userName', 'password', 'proxy')
opener = urllib2.build_opener( urllib2.ProxyHandler({'http':proxyConfig}))        
urllib2.install_opener(opener)
inforMation = urllib2.urlopen("http://tianya.cn")   
print inforMation.read()

eg

import urllib

def getUrlInfo(weburl):   
        proxyConfig = 'http://%s:%s@%s' % ('sig00459', '256bea3', '129.20.0.156:8080')
        inforMation = urllib.urlopen(weburl, proxies={'http':proxyConfig}) 
        return inforMation.read();
if __name__ == "__main__":         
    print getUrlInfo('http://tianya.cn');

1
顶

0
踩

分享到：

python爬虫抓站技巧 | TypeError: 'str' object is not callable

2011-06-17 17:42
浏览 9886
评论(1)
分类:编程语言
查看更多

评论

1 楼 diyunpeng 2012-10-16

学习了，写的不错。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python urlopen()函数示例分享: 好了，废话少说，我们先看看几个示例吧一、打开一个网页获取所有的内容复制代码代码如下:from urllib import urlopendoc = urlopen(“http://www.baidu.com...三、使用代理 1. 查看环境变量复制代码代码如下:print

Python urlopen 使用小示例: 在这里，我们使用`urllib.request.urlopen`（注意不是`urllib.urlopen`，因为在Python3中，`urllib`被拆分为多个子模块），通过`proxies`参数传入代理配置。若不使用代理，可以传递一个空字典或直接省略`proxies`...

Python urlopen()和urlretrieve()用法解析: 在Python编程中，网络编程是一个常见的需求，涉及到网络资源的读取和下载，urllib模块提供了一系列用于操作URL的功能，urlopen()和urlretrieve()是其中非常实用的两个函数。 urlopen()函数属于urllib.request模块，...

Python爬虫使用代理IP的实现: 本文将详细介绍如何在Python爬虫中实现代理IP的使用。首先，我们可以通过网络上的免费或付费代理IP服务获取代理IP。这些代理IP通常分为HTTP和HTTPS两种类型，分别对应HTTP和HTTPS协议的请求。在使用代理IP之前，你...

Python爬虫基础教程-Urllib详解.pdf: 通过`build_opener()`结合`ProxyHandler`，可以创建一个支持代理的Opener对象，再使用`install_opener()`方法，使全局的HTTP请求都通过这个Opener，从而实现代理功能。另外，`HTTPCookieProcessor`用于处理cookies...

Python 访问http, https请求: 你可以使用`urlopen()`函数发送GET和POST请求，`Request()`类可以自定义请求头和数据。 - `urllib.parse`：这个模块用于URL的解析和编码，例如将URL分解成各个部分或者将查询参数编码为URL字符串。 2. `requests`...

Python 网络爬虫开发 Python爬虫入门基础教程：Python的urllib2 模块解析共6页.pptx: Python 网络爬虫开发是指使用 Python 语言来开发网络爬虫程序，以便从互联网上抓取有价值的数据。Python 的 urllib2 模块是 Python 的一个标准库，提供了访问网页和本地文件的功能。在本教程中，我们将详细了解 ...

Python urllib urllib模块: 4. **urllib2** (仅在Python 2.x中): 在Python 2.x中，urllib2模块提供了一个更高级的接口，包含了request、error和一些其他功能，比如处理HTTP基本认证、代理等。但在Python 3.x中，这些功能被整合到urllib.request...

27篇精选python文章: 在Ubuntu系统上部署基于Python的Web应用，可以使用Nginx作为反向代理服务器，uWSGI作为应用服务器，web.py作为Web框架。正确配置这些组件可以提高应用的安全性和性能。 ### Django forms类实现方式 Django的forms...

python urllib2详解及实例 Python开发技术文章_教程 - 红黑联盟.pdf: ### Python的urllib2库详解及实例 #### 引言 `urllib2`是Python标准库中的一个强大工具，用于处理URLs的获取和解析。...尽管在Python 3中已被其他模块取代，但在Python 2环境中，掌握`urllib2`的使用仍然十分重要。

Python常用的爬虫技巧总结.doc: 除了以上基本技巧，Python爬虫开发还涉及到其他重要概念和技术，如多线程或异步请求（如使用`threading`或`asyncio`库）、数据解析（如使用`BeautifulSoup`或`lxml`库）、反反爬策略（如使用`rotating_proxies`库...

python爬虫基础课件.pdf: 针对这些情况，可能会使用到更高级的技术，例如Selenium进行动态数据抓取、使用代理IP池绕过IP限制，或者使用Scrapy框架等。在本课程中，特别指出了一个具体的应用实例——爬取豆瓣Top250电影信息。豆瓣电影Top250...

Python爬虫入门: Python爬虫入门是一项涉及网络编程、数据提取以及自动化技术的知识领域，旨在通过编写程序自动从互联网上收集信息。...只有在实践中不断尝试和优化，才能真正熟练地使用Python爬虫技术去解决实际问题。

Python爬虫抓取Ebay页面: - 网络爬虫可能会受到目标网站的反爬策略限制，如IP封禁、验证码验证等，因此需要合理控制爬取频率，并考虑使用代理IP等手段降低被封风险。 - 在实际应用中，还需要考虑法律和道德问题，确保爬取行为符合相关法律...

Python抓取页面、Pthon爬虫参考资料: Python开发者可以通过设置合适的User-Agent，使用代理IP，甚至使用机器学习识别验证码来应对这些挑战。 9. **数据存储**：抓取的数据通常需要存储，Python支持多种数据库接口，如SQLite、MySQL、PostgreSQL等。此外...

Python爬虫基础之Urllib库: Urllib 库可以使用环境变量 http_proxy 来设置 HTTP 代理。例如，以下代码可以设置代理服务器： ``` import urllib2 enable_proxy = True proxy_handler = urllib2.ProxyHandler({...

Python常用的爬虫技巧总结.pdf: 遇到验证码、动态IP限制、滑动验证等反爬策略，可以使用OCR技术识别验证码，使用代理IP池避免IP被封，或者使用`Scrapy`框架的中间件来处理复杂的反爬策略。 9. **异步爬虫**：使用`asyncio`和`aiohttp`库可以...

基于python的网络爬虫设计.pdf: 最后，Python的爬虫技术还涉及到了异常处理、多线程爬取、代理服务器使用等多个方面。为了确保网络爬虫程序的健壮性，需要妥善处理程序运行中可能出现的异常情况。同时，为了提高爬虫的工作效率，可以利用Python的多...

用Python实现网络爬虫、蜘蛛.doc: 本文将介绍如何使用Python进行网络爬虫的基本操作，包括获取网页内容、提取文本以及更高级的下载网页。 1. **获取网页内容** 使用`urllib.request`库可以方便地从指定URL获取网页内容。例如： ```python import ...

Python爬虫实战：数据采集、处理与分析: 在实际应用中，我们还需要注意反爬虫策略，如设置合适的请求间隔、使用代理IP、模拟浏览器行为等。此外，爬虫应遵循网络道德，尊重网站的robots.txt文件，避免对服务器造成过大的压力。在处理和分析数据阶段，...

Global site tag (gtag.js) - Google Analytics