`
小taomi_77
  • 浏览: 41547 次
  • 性别: Icon_minigender_1
  • 来自: 成都
文章分类
社区版块
存档分类
最新评论

入门爬虫就这么简单

 
阅读更多
经常有前端的程序员被公司临时要求做数据收集,针对某项目进行分析评估。如何才能快速的实现数据采集目标,同时减少程序的研发和运维工作,现在给大家推荐一个基本爬虫策略+爬虫代理IP的方案,从搭建项目到实现数据采集,10分钟时间就够啦,主要分成三个步骤:
1、选择适合的语言框架,一般建议python或java这类面向对象封装较多的语言,根据熟悉程度选择适合的类库使用,例如python下的requests、scrapy或java下的HttpClient、JSoup等。
2、爬虫程序对http的header添加User-Agent,避免被网站反爬统计。除非是访问网站或APP专用数据api接口,正常的HTTP请求都需要进行ua(User-Agent)优化,因为ua是浏览器标识,如果http请求没有ua,或ua太少,都会被网站运维统计异常的,ua越丰富分布就越真实。
3、选择适合的爬虫代理,直接参考demo配置使用即可,以市面上典型的一款爬虫代理产品为例,只需要查看对方的demo,提取代理信息,将目标网站修改成需要采集数据url即可。
以python示例如下
#! -- encoding:utf-8 --
import requests
import random

# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn) 需要开订单提取新代理信息更新
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息  需要开订单提取新代理信息更新
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host" : proxyHost,
    "port" : proxyPort,
    "user" : proxyUser,
    "pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
    "http"  : proxyMeta,
    "https" : proxyMeta,
}

#  设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text
分享到:
评论

相关推荐

    Python爬虫入门教程:超级简单的Python爬虫教程.pdf

    ### Python爬虫入门教程知识点详解 #### 一、理解网页结构 在进行Python爬虫开发之前,首先要了解网页的基本构成。网页通常包含三个主要部分:HTML(超文本标记语言)、CSS(层叠样式表)以及JavaScript(一种常用...

    Python入门网络爬虫之精华版

    总结而言,本篇入门网络爬虫的精华文章覆盖了网络爬虫的基础知识,介绍了三个核心的工作版块,反爬虫策略的应对方法,并且简单提及了Scrapy框架。此外,还提供了进一步学习的资源参考。通过本篇内容,初学者可以快速...

    python简单爬虫(入门)

    **Python简单爬虫入门** Python爬虫是一种自动化获取网页数据的技术,它可以帮助我们从互联网上抓取大量信息,尤其在数据分析、网站维护和信息监控等领域有着广泛应用。本教程将介绍如何使用Python进行基础的网络...

    java 简单爬虫入门maven项目

    Java简单爬虫入门Maven项目是一个适合初学者的教程,旨在教授如何使用Java语言和Maven构建一个基础的网络爬虫。在这个项目中,我们将会学习到以下关键知识点: 1. **Java编程基础**:首先,你需要具备基本的Java...

    Python爬虫入门教程:超级简单的Python爬虫教程 python

    Python爬虫入门教程:超级简单的Python爬虫教程

    python小白入门爬虫源代码及结果.zip

    这个名为"python小白入门爬虫源代码及结果.zip"的压缩包文件,显然包含了帮助初学者理解Python爬虫的源代码和实际运行的结果,让我们一起深入探讨其中的知识点。 首先,Python爬虫的基本原理是利用Python的HTTP库...

    【python爬虫】资源python爬虫样例,简单的知乎爬虫,新手入门练手

    【python爬虫】资源python爬虫样例,简单的知乎爬虫,新手入门练手 (Example of reptilian) 文件列表: craw - 副本.py (1444, -09-17) craw.py (1444, -09-17) 【python爬虫】资源python爬虫样例,简单的知乎爬虫,...

    爬虫入门级

    本篇文章将深入探讨爬虫入门级的知识点,包括爬虫的定义、工作原理、常用工具及基本编程技巧。 1. **爬虫的定义** 网络爬虫,又称为网页蜘蛛或机器人,是一种按照一定的规则自动地遍历互联网并抓取网页的程序。它...

    Python爬虫入门教程:超级简单的Python爬虫教程.zip

    这篇“Python爬虫入门教程:超级简单的Python爬虫教程”将引导初学者一步步进入爬虫的世界。 首先,我们需要理解爬虫的基本概念。爬虫是一种自动浏览网页并抓取信息的程序,它通过模拟人类浏览器的行为来请求网页,...

    一个简单的爬虫代码,可以帮助大家入门

    一个简单的爬虫代码,采用Python实现,可以帮助大家入门。

    爬虫入门程序,供练习用

    在"爬虫程序"这个压缩包中,可能包含了使用`requests`和`BeautifulSoup`编写的简单爬虫示例,也可能包含了一些使用`Scrapy`框架的项目模板。通过阅读和运行这些代码,你可以直观地理解爬虫的工作流程,并逐步熟悉...

    网络爬虫入门到精通

    通过《网络爬虫入门到精通》的学习,读者将能够熟练掌握网络爬虫的开发流程,从编写简单的爬虫脚本到设计复杂的爬虫系统,从抓取静态网页到处理动态内容,从单机爬虫到分布式爬虫。无论你是数据分析爱好者还是希望在...

    "玩转Python爬虫——入门与实践"课程源码

    在“玩转Python爬虫——入门与实践”这门课程中,你将深入学习到Python爬虫的基础知识和实战技巧。Python爬虫是数据采集的重要工具,尤其在大数据时代,爬虫技术对于获取网络上的非结构化信息具有举足轻重的作用。本...

    Python网络爬虫入门

    网络爬虫系列学习教程,简单实在的好文档,本人就是靠这个文档入门,因为没有多少钱买资料书,所以找老师要的文档

    python爬虫教程从入门到精通

    以上就是根据“Python爬虫教程从入门到精通”的标题、描述及部分内容生成的相关知识点概览。本教程旨在全面覆盖从基础知识到实战项目的各个环节,帮助学员系统地学习Python爬虫技术,为成为高级爬虫工程师打下坚实的...

    定向爬虫:Scrapy与Redis入门

    Scrapy的核心组件包括Spider(爬虫)、Item(数据模型)、Item Pipeline(数据处理管道)和Downloader Middleware(下载器中间件)等,这些组件共同协作,使得开发复杂的爬虫项目变得简单。 Redis,另一方面,是一...

    Python爬虫入门教程:超级简单的Python爬虫教程

    **Python 爬虫入门教程概述** Python 爬虫是一种用于自动提取网页信息的程序,对于数据分析和信息收集有着重要的作用。这篇教程是为初学者设计的,旨在引导读者在30分钟内掌握基本的Python爬虫编写技巧。教程分为五...

    京东爬虫(大量注释,对刚入门爬虫者极度友好).zip

    【标题】"京东爬虫(大量注释,对刚入门爬虫者极度友好).zip" 涵盖了Python编程语言以及网络爬虫技术,特别适合初学者进行学习和实践。这个压缩包包含了用于爬取京东网站数据的源代码,并且在代码中添加了大量的...

    Python爬虫入门到实战 (二花) PDF版

    总的来说,Python爬虫的入门到实战是一个逐步深入的过程,需要从基础语法开始,逐步学习网络请求、网页解析、数据提取等技能,并在实际的项目中不断实践和提高。通过学习和应用Python爬虫技术,可以有效地从互联网上...

Global site tag (gtag.js) - Google Analytics