`
fulerbakesi
  • 浏览: 570521 次
文章分类
社区版块
存档分类
最新评论

Python 通过代理访问网络

 
阅读更多

#coding:gbk
import os,sys,urllib2

PROXY_INFO = {
  'user' : 'czz' ,
  'pass' : 'czzpwd' ,
  'host' : '10.99.60.92' , #proxy server ip address
  'port' : 8080
}

def load_url(url): 
  proxy_support = urllib2 . ProxyHandler ( { 'http' : \
   'http://%(user)s:%(pass)s@%(host)s:%(port)d' % PROXY_INFO } ) 

  opener = urllib2.build_opener(proxy_support,urllib2.HTTPHandler)

  urllib2.install_opener(opener) 

  src = urllib2.urlopen(url)

  return src.read()
    
if __name__=='__main__':
  print load_url("http://www.baidu.com")


点击打开链接

分享到:
评论

相关推荐

    Python网络爬虫代码

    8. **代理和用户代理**:为了避免IP被封禁或因频繁请求引起服务器注意,爬虫可能需要设置代理服务器和更换用户代理,模拟不同的访问者。 9. **Scrapy框架**:Python还有Scrapy这样的高级爬虫框架,提供更完整的功能...

    Python入门网络爬虫之精华版

    本篇文章《Python入门网络爬虫之精华版》主要介绍了Python网络爬虫的基础知识,从抓取、分析到存储的三个主要方面,以及如何应对一些...通过本篇内容,初学者可以快速地对Python网络爬虫建立基础认知,并逐步深入学习。

    Python 访问http, https请求

    总的来说,Python通过`urllib`和`requests`库提供了强大的HTTP和HTTPS访问能力,使得开发者能够轻松地进行网页抓取、API调用等各种网络交互任务。同时,了解和掌握这些知识对于进行Web开发、数据爬取以及自动化测试...

    使用python验证代理ip是否可用的实现方法

    在使用爬虫爬取网络数据时,如果长时间对一个网站进行抓取时可能会遇到IP被封的情况,这种情况可以使用代理更换ip来突破服务器封IP的限制。 随手在百度上搜索免费代理IP,可以得到一系列的网站,这里我们通过对西刺...

    Python网络爬虫技术 完整教案.docx

    ### Python网络爬虫技术知识点详解 #### 一、Python网络爬虫技术概览 ##### 1.1 网络爬虫概念与原理 - **定义**:网络爬虫(Web Crawler),也称为网页蜘蛛或自动索引器,是一种按照一定的规则自动地抓取互联网...

    网络爬虫Python实现

    为了防止爬虫过于频繁地访问同一网站导致IP被封,我们需要引入延迟策略(如`time.sleep()`)和代理服务器。`rotating_proxies`库可以帮助我们管理一组代理,确保每次请求通过不同的IP地址,降低被目标网站检测到的...

    Python网络爬虫源代码

    通过以上介绍,我们大致了解了Python网络爬虫的基本概念、常用库以及一些实践技巧。在实际应用中,你可能会遇到更多复杂的问题,如动态加载页面、JavaScript渲染等,这需要结合Selenium、Splash等工具进行处理。持续...

    Python网络_数据采集

    5. **模拟登录与Cookies**:许多网站需要登录后才能访问某些数据,Python通过模拟登录实现这一点,通常涉及使用`requests.Session`管理Cookies,以便保持会话状态。 6. **处理JavaScript渲染**:许多现代网站使用...

    Python网络爬虫实习报告总结归纳.docx

    例如,某些网站会限制同一IP的访问频率,此时需要设置延时或使用代理IP。动态加载内容可能需要结合Selenium等工具模拟浏览器行为。此外,数据清洗是必不可少的步骤,去除无效信息,确保数据质量。 总结 Python网络...

    python抓取免费代理IP

    在IT行业中,网络爬虫和自动化任务经常需要借助代理IP来规避访问限制,提高数据抓取效率。本项目提供了一套完整的解决方案,利用Python来抓取免费代理IP,并将其存储到MySQL数据库中,同时实现定期检查和排除失效的...

    用Python写网络爬虫 PDF

    8. **代理和IP更换**:为了避免因频繁访问同一网站而被封禁,网络爬虫可能需要使用代理服务器。Python有如requests-socks、httpx等库支持代理设置。 9. **用户代理和请求头**:设置合适的User-Agent和请求头可以...

    Python-Websockify是一个WebSocket至TCP的代理桥梁

    Python-Websockify是一个强大的工具,它充当了WebSocket和TCP之间的代理桥梁,使得浏览器能够与各种基于TCP的应用程序、服务器或服务进行交互。这个项目的主要目的是克服浏览器原生不支持某些TCP协议的问题,通过...

    python网络爬虫爬取整个网页

    Python爬虫需要考虑如何应对这些策略,例如使用代理IP池、更换User-Agent、识别并输入验证码等。 8. **数据存储**:爬取到的数据通常需要存储起来,Python提供了多种方式,如CSV、JSON、数据库(MySQL、MongoDB等)...

    Python资源之网络相关

    * PySocks:一个 SocksiPy 持续更新并维护的版本,提供了高效的网络代理功能,可以作为 socket 模块的替代品。 * treq:一个基于 twisted、与 requests 类似的 API,提供了异步网络编程功能。 * aiohttp:asyncio 的...

    用Python写网络爬虫.pdf

    2. 网络请求:网络爬虫需要通过HTTP协议与服务器进行通信,因此需要掌握如何使用Python进行网络请求。最常用的库是`requests`,它提供简单的方法来发送HTTP请求。 3. 解析网页:得到网页内容后,通常需要解析HTML来...

    解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫全套教学资料

    3. IP代理池:通过分布式代理IP池,减少被目标网站封禁的风险。 4. 负载均衡:根据节点性能动态调整任务分配,提高整体效率。 5. 错误处理与恢复:分布式系统需要考虑节点故障和数据一致性问题,确保爬虫在出现问题...

    python3爬取快代理免费代理ip并多线程验证

    在Python编程语言中,爬取数据是常见的任务之一,尤其在需要访问大量网页或处理网站API限制时。在这个项目中,我们将关注如何使用Python3从快代理(kuaidaili.com)这个网站获取免费的高匿名代理IP,并利用多线程...

    Python实现 windows 下代理IP的自动切换

    首先,理解代理IP的基本概念:代理IP是通过一个中间服务器(即代理服务器)转发网络请求,使得请求的目标网站看到的不再是你的真实IP,而是代理服务器的IP。这样可以增加网络匿名性,或者在IP被限制时继续访问。 ...

    基于Python的网络爬虫-开题报告.pdf

    综上所述,通过以上技术和策略,基于Python的网络爬虫能够有效地应对复杂的网络环境,实现高效的数据抓取和处理,为用户提供定制化的信息检索服务。在遵循合法和道德的网络爬虫实践原则下,这样的爬虫系统将大大提升...

    【python网络爬虫】-构建免费代理池

    【python网络爬虫】-构建免费代理池 # 导入requests模块 import requests # 从bs4中导入BeautifulSoup模块 from bs4 import BeautifulSoup # 定义获取代理地址的方法 def get_proxy(pages, ua): # 定义proxy_ips...

Global site tag (gtag.js) - Google Analytics