`
小taomi_77
  • 浏览: 44180 次
  • 性别: Icon_minigender_1
  • 来自: 成都
文章分类
社区版块
存档分类
最新评论

Python爬虫常用小技巧之设置代理IP

阅读更多

设置代理IP的原因
我们在使用Python爬虫爬取一个网站时,通常会频繁访问该网站。假如一个网站它会检测某一段时间某个IP的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,这样便不会出现因为频繁访问而导致禁止访问的现象。
我们在学习Python爬虫的时候,也经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,所以下面这篇文章讲述一个爬虫技巧,设置代理IP
代理的获取有很多方式,网上有很多免费的可以去爬取一些试试,但是免费的代理使用起来也是 很吃力的。还有就是现在网上有很多的代理供应商,可以在网上寻找下,然后找家靠谱的使用。毕竟网络太大了,代理供应商肯定也是参差不齐的,所以找到合适的代理还是需要花点时间的。在这里我就是使用了我们长期使用的一家质量好的代理,亿牛云代理,而且是使用的他们的爬虫代理(动态转发)和一般的api模式不一样。这种更简单更方便,对于懒人来说绝对是最佳选择。
具体代码的使用
#! -*- encoding:utf-8 -*-

        import requests
        import random

        # 要访问的目标页面
        targetUrl = "http://httpbin.org/ip"

        # 要访问的目标HTTPS页面
        # targetUrl = "https://httpbin.org/ip"

        # 代理服务器
        proxyHost = "t.16yun.cn"
        proxyPort = "31111"

        # 代理隧道验证信息
        proxyUser = "username"
        proxyPass = "password"

        proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
            "host" : proxyHost,
            "port" : proxyPort,
            "user" : proxyUser,
            "pass" : proxyPass,
        }

        # 设置 http和https访问都是用HTTP代理
        proxies = {
            "http"  : proxyMeta,
            "https" : proxyMeta,
        }


        #  设置IP切换头
        tunnel = random.randint(1,10000)
        headers = {"Proxy-Tunnel": str(tunnel)}
        resp = requests.get(targetUrl, proxies=proxies, headers=headers)

        print resp.status_code
        print resp.text
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流
分享到:
评论

相关推荐

    python爬虫课件+代码.zip

    在学习Python爬虫的过程中,你还将了解到反爬策略及应对方法,比如IP代理池、User-Agent轮换、验证码识别等。同时,合法和道德的爬虫原则也很重要,尊重网站的robots.txt文件,避免对服务器造成过大压力,遵守相关...

    Python爬虫实战和Sublime技巧

    Python爬虫实战与Sublime Text编辑器技巧是两个在IT领域中非常实用的主题。Python爬虫,作为一种数据抓取技术,被广泛应用于大数据分析、网站信息监控和自动化任务执行等领域。而Sublime Text则是一款备受程序员喜爱...

    Python爬虫入门到精通

    ### Python爬虫入门到精通知识点概览 #### 一、Python爬虫概述 - **定义与应用领域**:网络爬虫(Web Crawler),又称网页蜘蛛、网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。在数据...

    Python常用的爬虫技巧总结.pdf

    本文主要总结了一些Python爬虫的基本技巧,帮助开发者在实际工作中提高效率。 1. **基本网页抓取**: Python的`urllib2`库提供了获取网页内容的基本方法。对于GET请求,可以创建一个`Request`对象并使用`urlopen`...

    Python爬虫数据分析可视化.rar

    此外,如果这个压缩包还包含了实际的爬虫项目,那么可能还会涉及到反爬虫策略的应对,如设置User-Agent、处理Cookies、模拟登录、IP代理池等。同时,可能会有数据存储的知识,如CSV、JSON格式的读写,以及如何使用...

    python爬虫解决代理问题.zip

    这个压缩包"python爬虫解决代理问题"很可能包含了以上部分或全部内容的实现和讲解,通过学习和实践,你可以更好地理解和掌握Python爬虫中代理的使用技巧,有效避免因频繁请求而引发的IP封禁问题。

    Python常用的爬虫技巧总结.doc

    除了以上基本技巧,Python爬虫开发还涉及到其他重要概念和技术,如多线程或异步请求(如使用`threading`或`asyncio`库)、数据解析(如使用`BeautifulSoup`或`lxml`库)、反反爬策略(如使用`rotating_proxies`库...

    python爬虫与flask框架搜索引擎.zip

    Python爬虫与Flask框架是现代Web开发中的两个重要技术,它们可以协同工作,构建出高效的数据采集和信息检索...这个项目涵盖了网络爬虫的基础知识和Web开发的实战技巧,是学习Python爬虫与Web开发的一个很好的实践案例。

    Python爬虫-使用Python开发的爬虫示例demo.zip

    Python爬虫技术是一种用于自动化网络数据抓取的编程方法,尤其在大数据分析、搜索引擎优化、内容监测等领域有着...通过学习这个示例,你将能够掌握Python爬虫的核心技术和实践技巧,为你的数据采集工作打下坚实的基础。

    2023年最新Python爬虫的完整学习框架.pdf

    接下来,让我来告诉你一些python爬虫的小技巧。首先,你可以利用代理IP来规避网站反爬策略,确保你的爬虫程序正常访问目标网站。此外,你还可以设置合理的请求头,模拟真实的浏览器访问,避免被网站封禁。 除了基本...

    Python爬虫的编写技巧、建议及注意项

    ### Python爬虫的编写技巧、建议及注意项 在当今互联网时代,数据挖掘与分析的重要性日益凸显,而网络爬虫技术则是获取数据的一种重要手段。本文将深入探讨Python爬虫的相关知识点,包括基础知识、常用库的使用、...

    python爬虫日常小练习,小项目-python_crawler.zip

    通过这个“python_crawler”项目,初学者可以学习到Python爬虫的基本原理和实践技巧,而有经验的开发者也能从中获取新的灵感和优化方法。在不断练习和实践中,你将逐渐掌握这一强大的数据获取工具。

    手把手教你写python爬虫

    下面,我们将深入探讨Python爬虫的核心概念、常用库以及实践技巧。 首先,你需要了解网络请求的基础知识。HTTP(超文本传输协议)是互联网上应用最广泛的数据交换协议,爬虫就是通过发送HTTP请求来获取网页内容。在...

    python爬虫豆瓣电影TOP250,以及数据化分析

    由于豆瓣网站可能存在反爬策略,如验证码、IP限制等,可能还需要运用到如`time.sleep()`来设置请求间隔,或者使用代理IP池来避免被封禁。 数据抓取完成后,我们需要对数据进行清洗和预处理。这可能包括去除HTML标签...

    python爬虫开发代码-电影网站信息爬取案例

    然而,需要注意的是,过于频繁的请求可能会被目标网站封锁,因此在实现多线程爬虫时,应合理设置请求间隔,并考虑使用代理IP或者用户代理轮换,以避免被识别为机器人。 接着,我们研究"单个电影获取.PY"。这个部分...

    python爬虫练习脚本

    Python爬虫是编程领域中的一个重要分支,主要用于自动化地从互联网上获取数据。在这个"python爬虫练习脚本"中,我们...通过学习和分析这些脚本,你可以深入理解Python爬虫的基本原理和实战技巧,提升自己的编程能力。

    python爬虫: 1、记录捕获各网站的数据 2、逆向JS(请求数据加密、响应数据解密)

    总的来说,Python爬虫不仅需要掌握基础的网页抓取技巧,还应具备一定的JavaScript理解和逆向工程能力,以应对复杂的网页结构和安全机制。同时,持续关注网络爬虫的发展,学习新的库和技术,如Selenium用于处理动态...

    通过python爬虫赚钱的方法

    - **代理设置**:使用代理IP避免被目标网站封禁。 - **移动端抓取**:模拟移动设备访问网页,获取移动端特有的数据。 #### 三、适用人群与策略 根据不同的背景和个人情况,可以采取不同的策略来通过Python爬虫...

    python爬虫-python多线程爬虫爬取电影天堂资源.zip

    在爬取电影天堂资源的实例中,我们需要理解Python爬虫的基本原理,掌握多线程编程技巧,分析和处理目标网站的结构,以及应对可能出现的反爬策略。通过这些步骤,我们可以构建出一个高效且稳定的多线程爬虫,实现电影...

    python 各种爬虫小案例

    本压缩包“crawle-master”中可能包含了多个Python爬虫的小案例,旨在帮助学习者了解并掌握Python爬虫的基本原理和实践技巧。 1. **Python爬虫基础**: - **基础库介绍**:Python的requests库用于发送HTTP请求,...

Global site tag (gtag.js) - Google Analytics