`
cloudtech
  • 浏览: 4681855 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
文章分类
社区版块
存档分类
最新评论

Python抓取框架:Scrapy的架构

 
阅读更多

一、概述

下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。

二、组件

1、Scrapy Engine(Scrapy引擎)

Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

2、Scheduler(调度)

调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。

3、Downloader(下载器)

下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

4、Spiders(蜘蛛)

蜘蛛是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。

蜘蛛的整个抓取流程(周期)是这样的:

  1. 首先获取第一个URL的初始请求,当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求,并执行解析来调用回调函数。
  2. 在回调函数中,你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调,然后被Scrapy下载,然后有指定的回调处理。
  3. 在回调函数中,你解析网站的内容,同程使用的是Xpath选择器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序),并生成解析的数据项。
  4. 最后,从蜘蛛返回的项目通常会进驻到项目管道。

5、Item Pipeline(项目管道)

项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几 个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是是否需要 在项目管道中继续执行下一步或是直接丢弃掉不处理。

项目管道通常执行的过程有:

  1. 清洗HTML数据
  2. 验证解析到的数据(检查项目是否包含必要的字段)
  3. 检查是否是重复数据(如果重复就删除)
  4. 将解析到的数据存储到数据库中

6、Downloader middlewares(下载器中间件)

下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式 来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。

7、Spider middlewares(蜘蛛中间件)

蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy 的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,你可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

8、Scheduler middlewares(调度中间件)

调度中间件是介于Scrapy引擎和调度之间的中间件,主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。

三、数据处理流程

Scrapy的整个数据处理流程有Scrapy引擎进行控制,其主要的运行方式为:

  1. 引擎打开一个域名,时蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL。
  2. 引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。
  3. 引擎从调度那获取接下来进行爬取的页面。
  4. 调度将下一个爬取的URL返回给引擎,引擎将他们通过下载中间件发送到下载器。
  5. 当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎。
  6. 引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。
  7. 蜘蛛处理响应并返回爬取到的项目,然后给引擎发送新的请求。
  8. 引擎将抓取到的项目项目管道,并向调度发送请求。
  9. 系统重复第二部后面的操作,直到调度中没有请求,然后断开引擎与域之间的联系。

四、驱动器

Scrapy是由Twisted写的一个受欢迎的Python事件驱动网络框架,它使用的是非堵塞的异步处理。如果要获得更多关于异步编程和Twisted的信息,请参考下面两条链接。

本文由标点符进行翻译,英文原文为:http://doc.scrapy.org/topics/architecture.html


分享到:
评论

相关推荐

    Python开源爬虫框架:Scrapy架构分析-为程序员服务[定义].pdf

    Python开源爬虫框架Scrapy是一个高效且灵活的Web抓取和数据提取工具,适用于各种用途,包括数据挖掘、监测和自动化测试。Scrapy采用Python语言编写,利用Twisted异步网络库处理网络通信,确保在网络爬取过程中能快速...

    解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫全套教学资料

    本套教学资料深入解析了Python爬虫的核心技术、Scrapy框架以及分布式爬虫的实现,旨在帮助学习者掌握这一领域的核心技能。 一、Python爬虫核心技术 Python语言因其简洁明了的语法和丰富的第三方库而成为网络爬虫...

    第八章:scrapy框架_第八章:scrapy框架.zip_

    Scrapy是一个强大的Python爬虫框架,专为网页抓取、数据提取和网络爬虫项目设计。本章将深入探讨Scrapy的基本概念、架构以及如何利用它来构建高效的爬虫项目。 首先,Scrapy的核心概念包括Spiders(蜘蛛)、Item...

    Python抓取框架 Scrapy的架构

    最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具。 一、概述 下图显示了Scrapy的大体架构,其中...

    开源python网络爬虫框架Scrapy.pdf

    Scrapy 是一个强大的 Python 网络爬虫框架,它为开发者提供了构建高效、可扩展的网络爬虫所需的各种工具和组件。Scrapy 架构设计巧妙,利用 Twisted 异步网络库来处理网络通信,确保爬虫在处理大量网页时能够保持...

    基于Python的Scrapy爬虫框架

    Scrapy爬虫框架是一个基于Python的轻量级爬虫框架,用于网上进行数据抓取。它使用Twisted异步网络库来处理网络通讯,能够大大提高效率,缩短开发时间。Scrapy框架主要包括了八个组件:引擎、调度器、下载器、蜘蛛、...

    Python3网络爬虫案例实战课程 视频+文档+源码

    │ Python3爬虫课程资料代码 │ ├─章节1: 环境配置 │ 课时01:Python3+Pip环境配置.mp4 │ 课时02:MongoDB环境配置.mp4 ... 课时33:Scrapy分布式架构搭建抓取知乎.mp4 课时34:Scrapy分布式的部署详解.mp4

    scrapy_Python的爬虫框架Scrapy_scrapy_

    Scrapy是Python编程语言中的一款强大且高效的网页抓取框架,专为数据抓取和爬虫项目设计。它提供了一整套工具集,使得开发者能够快速构建起复杂的网络爬虫,处理网页数据并进行分析。在本文中,我们将深入探讨Scrapy...

    学习python爬虫框架Scrapy的一个小案例.zip

    在这个“学习Python爬虫框架Scrapy的小案例”中,我们将深入理解Scrapy的基本架构,以及如何利用它来构建一个简单的爬虫项目。 Scrapy由多个组件构成,包括Spiders、Item、Item Pipeline、Request/Response、...

    Python Scrapy 爬虫框架demo

    Scrapy是Python编程语言中的一款强大且高效的爬虫框架,专为数据抓取和网络爬虫设计。这个框架提供了一整套工具,使得开发者能够快速地构建起自己的爬虫项目,处理网页数据变得简单易行。在"Python Scrapy 爬虫框架...

    Python-Scrapy一个快速高级的网站截图和网页采集框架

    Scrapy是一个基于Python的开源框架,专为网络爬虫设计,同时也支持网站的屏幕截图功能。它被设计成高效、灵活且易于扩展,使得开发者能够快速地构建自己的爬虫项目,用于数据采集和分析。Scrapy的核心组件包括引擎、...

    开源python网络爬虫框架Scrapy定义.pdf

    Scrapy是一个基于Python的开源网络爬虫框架,它设计得简单高效,适用于各种数据抓取任务。Scrapy的架构设计允许开发者专注于编写抓取和处理数据的逻辑,而无需关心网络通信和其他底层实现细节。 Scrapy的核心组成...

    scrapy:Scrapy,一个用于Python的快速高级Web爬网和抓取框架

    1. **Scrapy架构**: Scrapy采用组件化设计,主要由以下几个关键部分组成: - **Spider(爬虫)**:定义了如何获取数据和处理页面。用户自定义的爬虫类继承自Scrapy的Spider基类,可以定义起始URL、解析规则...

    开源python网络爬虫框架Scrapy.docx

    一、Scrapy架构 Scrapy的整体架构由多个核心组件构成,它们协同工作以实现高效的网页抓取和数据处理: 1. Scrapy Engine(Scrapy引擎):作为系统中心,负责协调各个组件,控制数据流并触发事务处理。 2. ...

    Python-基于Python的scrapy爬虫框架实现爬取招聘网站的信息到数据库

    Python的Scrapy框架是用于构建高效、可复用的网络爬虫项目的强大工具。它是一个专为爬取网站并提取结构化数据而设计的库,特别适合处理大规模的数据抓取任务。在本教程中,我们将深入探讨如何使用Scrapy来爬取招聘...

Global site tag (gtag.js) - Google Analytics