论坛首页 编程语言技术论坛

【25章】2024,Python爬虫系统入门与多领域实战

浏览 389 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2024-07-09  
【25章】2024,Python爬虫系统入门与多领域实战
学习地址1:https://pan.baidu.com/s/1TyhpT2BBqjzT29Gq3NfROQ 提取码:s4tc
学习地址2:https://share.weiyun.com/vuVkb9T2 密码:ctkfrn


什么是爬虫
    网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。例如:传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具也存在着一定的局限性,通用搜索引擎的目标是尽可能大的网络覆盖率,返回的结果包含大量用户不关心的网页,为了解决上述问题,定向抓取相关网页资源的爬虫应运而生。

    由于互联网数据的多样性和资源的有限性,根据用户需求定向抓取网页并分析,已成为主流的爬取策略。只要你能通过浏览器访问的数据都可以通过爬虫获取,爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据。

Python为什么适合爬虫
    因为python的脚本特性,python易于配置,对字符的处理也非常灵活,加上python有丰富的网络抓取模块,所以两者经常联系在一起。

    相比与其他静态编程语言,如java,c#,C++,python抓取网页文档的接口更简洁;相比其他动态脚本语言,如perl,shell,python的urllib2包提供了较为完整的访问网页文档的API。此外,抓取网页有时候需要模拟浏览器的行为,很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求,譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定,如Requests,mechanize。

    抓取的网页通常需要处理,比如过滤html标签,提取文本等。python的beautifulsoap提供了简洁的文档处理功能,能用极短的代码完成大部分文档的处理。

Python爬虫组成部分
    Python爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。

    调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。
    URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。
    网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib(Python官方内置标准库)包括需要登录、代理、和cookie,requests(第三方包)
    网页解析器:将一个网页字符串进行解析,可以按照我们的要求来提取出我们有用的信息,也可以根据DOM树的解析方式来解析。网页解析器有正则表达式(直观,将网页转成字符串通过模糊匹配的方式来提取有价值的信息,当文档比较复杂的时候,该方法提取数据的时候就会非常的困难)、html.parser(Python自带的)、beautifulsoup(第三方插件,可以使用Python自带的html.parser进行解析,也可以使用lxml进行解析,相对于其他几种来说要强大一些)、lxml(第三方插件,可以解析 xml 和 HTML),html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。
    应用程序:就是从网页中提取的有用数据组成的一个应用。

爬虫的价值
从上面举的几个例子来看,爬虫对整个互联网的价值真的无法估量,那对于小我而言,爬虫能给我们带来哪些价值?

1.隐形的翅膀
如果你问我学完Python基础之后该学习什么技能?我会毫不犹疑的说爬虫,为什么是爬虫?

爬虫相对其他技能简单易学,且效果立即可见,会有一定的成就感
爬虫可以说是其他技能的基石,因为他是数据的来源,现在这个时代谁有数据谁才能称王,所以会爬虫绝对会让你如虎添翼
在国内,很多企业巴不得你啥都会,所以在应聘时,爬虫会是一个不错的加分项
2.看不见的商战
职场对话:

老板:小明给你个重要任务。\
小明:就算996我也在所不辞(第一次接到老板的直接需求)!\
老板:你能不能搞到竞争对手的商品价格?\
小明:没问题(牛逼先吹出去),小事!\
老板:这可不是小事,只要你能持续获取竞品价格,我们就可以标价低于他们一点点,持续如此大家就知道我们的价格肯定是比他们低,这样大家就直接来我们这里购买商品了,到时候庆功宴上你就是最大功臣(先画个饼)。\
小明:老板牛逼,老板英明!

3.会爬虫就可以创业
工作之后很多同学会利用上班空余时间,来做自己的东西或者项目,别看开始是一个小打小闹的东西,慢慢丰富将来也许会成为一款成熟的产品。

而爬虫可以让你很轻松的实现自己的产品,做的好的话就可以创业。这里查理给大家列几个简单的创业项目,当然作为一个思维引导。
论坛首页 编程语言技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics