最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具。
一、概述
下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。
二、组件
1、Scrapy Engine(Scrapy引擎)
Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。
2、Scheduler(调度)
调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。
3、Downloader(下载器)
下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。
4、Spiders(蜘蛛)
蜘蛛是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。
蜘蛛的整个抓取流程(周期)是这样的:
- 首先获取第一个URL的初始请求,当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求,并执行解析来调用回调函数。
- 在回调函数中,你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调,然后被Scrapy下载,然后有指定的回调处理。
- 在回调函数中,你解析网站的内容,同程使用的是Xpath选择器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序),并生成解析的数据项。
- 最后,从蜘蛛返回的项目通常会进驻到项目管道。
5、Item Pipeline(项目管道)
项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。
项目管道通常执行的过程有:
- 清洗HTML数据
- 验证解析到的数据(检查项目是否包含必要的字段)
- 检查是否是重复数据(如果重复就删除)
- 将解析到的数据存储到数据库中
6、Downloader middlewares(下载器中间件)
下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。
7、Spider middlewares(蜘蛛中间件)
蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,你可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。
8、Scheduler middlewares(调度中间件)
调度中间件是介于Scrapy引擎和调度之间的中间件,主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。
三、数据处理流程
Scrapy的整个数据处理流程有Scrapy引擎进行控制,其主要的运行方式为:
- 引擎打开一个域名,时蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL。
- 引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。
- 引擎从调度那获取接下来进行爬取的页面。
- 调度将下一个爬取的URL返回给引擎,引擎将他们通过下载中间件发送到下载器。
- 当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎。
- 引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。
- 蜘蛛处理响应并返回爬取到的项目,然后给引擎发送新的请求。
- 引擎将抓取到的项目项目管道,并向调度发送请求。
- 系统重复第二部后面的操作,直到调度中没有请求,然后断开引擎与域之间的联系。
四、驱动器
Scrapy是由Twisted写的一个受欢迎的Python事件驱动网络框架,它使用的是非堵塞的异步处理。如果要获得更多关于异步编程和Twisted的信息,请参考下面两条链接。
分享到:
相关推荐
Scrapy,Python开发的一个快速,高层次的web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫...
Scrapy,Python开发的一个快速,高层次的web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫...
Scrapy,Python开发的一个快速,高层次的web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫...
最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具。 一、概述 下图显示了Scrapy的大体架构,其中...
Scrapy是一个强大的Python爬虫框架,专为高效的数据抓取和处理而设计。它提供了许多高级功能,使得构建网络爬虫变得相对简单。本项目旨在通过实践操作来帮助你掌握Scrapy的使用。 首先,我们需要了解Scrapy的基本...
Scrapy 是一个强大的 Python 网络爬虫框架,它为开发者提供了构建高效、可扩展的网络爬虫所需的各种工具和组件。Scrapy 架构设计巧妙,利用 Twisted 异步网络库来处理网络通信,确保爬虫在处理大量网页时能够保持...
**Python-基于Scrapy框架抓取豆瓣影视资料** 在Python的Web爬虫领域,Scrapy是一个强大而高效的框架,用于构建网络爬虫项目。本教程将深入探讨如何使用Scrapy来抓取豆瓣网站上的影视资料,包括电影、电视剧等信息。...
Scrapy是一个强大的Python爬虫框架,它为网络爬虫的开发提供了许多便利的功能,包括请求调度、网页解析、数据提取以及中间件支持等。在这个封装过程中,我们将关注如何优化Scrapy项目,使其更加模块化和易于维护。 ...
在这个“学习Python爬虫框架Scrapy的小案例”中,我们将深入理解Scrapy的基本架构,以及如何利用它来构建一个简单的爬虫项目。 Scrapy由多个组件构成,包括Spiders、Item、Item Pipeline、Request/Response、...
Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
8. **Python爬虫框架Scrapy**: - **Scrapy架构**:包括爬虫、中间件、下载器、调度器等组件,以及它们之间的交互。 - **Scrapy实战**:创建项目,定义爬虫,配置中间件,设置请求和响应处理,以及如何存储和清洗...
在"完整版 Python高级开发课程 高级教程 09 Python爬虫框架Scrapy实战.pptx"这个文件中,可能详细介绍了Scrapy的使用方法、关键概念、实例代码以及常见问题解决等内容。通过学习这份教程,开发者可以深入理解Scrapy...
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都...
Scrapy是Python编程语言中的一款强大且高效的网页抓取框架,专为数据抓取和爬虫项目设计。它提供了一整套工具集,使得开发者能够快速构建起复杂的网络爬虫,处理网页数据并进行分析。在本文中,我们将深入探讨Scrapy...
接下来,我们需要安装 Scrapy,它是一个强大的 Python 网络爬虫框架,用于抓取网页数据。由于 Python 2.7 已经不再维护,Scrapy 对 Python 2 的支持也逐渐减少,但还是可以在旧项目中使用。安装 Scrapy 需要通过 ...
在Scrapy中,Item是定义要抓取的数据结构,类似于数据库中的表。Item Pipeline则负责处理Item,进行清洗、验证、存储等操作,确保数据的质量和完整性。对于搜索引擎爬虫,可能需要将抓取到的搜索结果保存到数据库或...
在IT行业中,网络爬虫是获取...2. **Item**:是Scrapy中用于定义要抓取的数据结构,类似于Python字典,可以包含各种字段如评论文本、用户ID、时间戳等。我们需定义一个Item类,明确我们要抓取的评论数据字段。 3. **
Scrapy是Python编程语言中的一款强大且高效的爬虫框架,专为数据抓取和网络爬虫设计。这个框架提供了一整套工具,使得开发者能够快速地构建起自己的爬虫项目,处理网页数据变得简单易行。在"Python Scrapy 爬虫框架...