`
hulianwang2014
  • 浏览: 733741 次
文章分类
社区版块
存档分类
最新评论
  • bcworld: 排版成这样,一点看的欲望都没有了
    jfinal

网络爬虫概述

 
阅读更多
网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。

一、网络爬虫的基本结构及工作流程

一个通用的网络爬虫的框架如图所示:

网络爬虫的基本工作流程如下:

1.首先选取一部分精心挑选的种子URL;

2.将这些URL放入待抓取URL队列;

3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

二、从爬虫的角度对互联网进行划分

对应的,可以将互联网的所有页面分为五个部分:

1.已下载未过期网页

2.已下载已过期网页:抓取到的网页实际上是互联网内容的一个镜像与备份,互联网是动态变化的,一部分互联网上的内容已经发生了变化,这时,这部分抓取到的网页就已经过期了。

3.待下载网页:也就是待抓取URL队列中的那些页面

4.可知网页:还没有抓取下来,也没有在待抓取URL队列中,但是可以通过对已抓取页面或者待抓取URL对应页面进行分析获取到的URL,认为是可知网页。

5.还有一部分网页,爬虫是无法直接抓取下载的。称为不可知网页。

三、抓取策略

在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面重点介绍几种常见的抓取策略:

1.深度优先遍历策略

深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。我们以下面的图为例:

遍历的路径:A-F-G E-H-I B C D

2.宽度优先遍历策略

宽度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。还是以上面的图为例:

遍历路径:A-B-C-D-E-F G H I

3.反向链接数策略

反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。

在真实的网络环境中,由于广告链接、链接的存在,反向链接数不能完全等他我那个也的重要程度。因此,搜索引擎往往考虑一些可靠的反向链接数。

4.Partial PageRank策略

Partial PageRank算法借鉴了PageRank算法的思想:对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面。

如果每次抓取一个页面,就重新计算PageRank值,一种折中方案是:每抓取K个页面后,重新计算一次PageRank值。但是这种情况还会有一个问题:对于已经下载下来的页面中分析出的链接,也就是我们之前提到的未知网页那一部分,暂时是没有PageRank值的。为了解决这个问题,会给这些页面一个临时的PageRank值:将这个网页所有入链传递进来的PageRank值进行汇总,这样就形成了该未知页面的PageRank值,从而参与排序。下面举例说明:

5.OPIC策略策略

该算法实际上也是对页面进行一个重要性打分。在算法开始前,给所有页面一个相同的初始现金(cash)。当下载了某个页面P之后,将P的现金分摊给所有从P中分析出的链接,并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。

6.大站优先策略

对于待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载。这个策略也因此叫做大站优先策略。



网络爬虫基本原理(二)

四、更新策略
互联网是实时变化的,具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种:
1.历史参考策略
顾名思义,根据页面以往的历史更新数据,预测该页面未来何时会发生变化。一般来说,是通过泊松过程进行建模进行预测。
2.用户体验策略
尽管搜索引擎针对于某个查询条件能够返回数量巨大的结果,但是用户往往只关注前几页结果。因此,抓取系统可以优先更新那些现实在查询结果前几页中的网页,而后再更新那些后面的网页。这种更新策略也是需要用到历史信息的。用户体验策略保留网页的多个历史版本,并且根据过去每次内容变化对搜索质量的影响,得出一个平均值,用这个值作为决定何时重新抓取的依据。
3.聚类抽样策略
前面提到的两种更新策略都有一个前提:需要网页的历史信息。这样就存在两个问题:第一,系统要是为每个系统保存多个版本的历史信息,无疑增加了很多的系统负担;第二,要是新的网页完全没有历史信息,就无法确定更新策略。
这种策略认为,网页具有很多属性,类似属性的网页,可以认为其更新频率也是类似的。要计算某一个类别网页的更新频率,只需要对这一类网页抽样,以他们的更新周期作为整个类别的更新周期。基本思路如图:

五、分布式抓取系统结构
一般来说,抓取系统需要面对的是整个互联网上数以亿计的网页。单个抓取程序不可能完成这样的任务。往往需要多个抓取程序一起来处理。一般来说抓取系统往往是一个分布式的三层结构。如图所示:

最下一层是分布在不同地理位置的数据中心,在每个数据中心里有若干台抓取服务器,而每台抓取服务器上可能部署了若干套爬虫程序。这就构成了一个基本的分布式抓取系统。
对于一个数据中心内的不同抓去服务器,协同工作的方式有几种:
1.主从式(Master-Slave)
主从式基本结构如图所示:

对于主从式而言,有一台专门的Master服务器来维护待抓取URL队列,它负责每次将URL分发到不同的Slave服务器,而Slave服务器则负责实际的网页下载工作。Master服务器除了维护待抓取URL队列以及分发URL之外,还要负责调解各个Slave服务器的负载情况。以免某些Slave服务器过于清闲或者劳累。
这种模式下,Master往往容易成为系统瓶颈。
2.对等式(Peer to Peer)
对等式的基本结构如图所示:

在这种模式下,所有的抓取服务器在分工上没有不同。每一台抓取服务器都可以从待抓取在URL队列中获取URL,然后对该URL的主域名的hash值H,然后计算H mod m(其中m是服务器的数量,以上图为例,m为3),计算得到的数就是处理该URL的主机编号。
举例:假设对于URL www.baidu.com,计算器hash值H=8,m=3,则H mod m=2,因此由编号为2的服务器进行该链接的抓取。假设这时候是0号服务器拿到这个URL,那么它将该URL转给服务器2,由服务器2进行抓取。
这种模式有一个问题,当有一台服务器死机或者添加新的服务器,那么所有URL的哈希求余的结果就都要变化。也就是说,这种方式的扩展性不佳。针对这种情况,又有一种改进方案被提出来。这种改进的方案是一致性哈希法来确定服务器分工。其基本结构如图所示:

一致性哈希将URL的主域名进行哈希运算,映射为一个范围在0-232之间的某个数。而将这个范围平均的分配给m台服务器,根据URL主域名哈希运算的值所处的范围判断是哪台服务器来进行抓取。
如果某一台服务器出现问题,那么本该由该服务器负责的网页则按照顺时针顺延,由下一台服务器进行抓取。这样的话,及时某台服务器出现问题,也不会影响其他的工作。
分享到:
评论

相关推荐

    数据挖掘与数据管理-网络爬虫概述.pptx

    数据挖掘与数据管理-网络爬虫概述 本文档主要介绍了数据挖掘与数据管理中的网络爬虫概述,涵盖了网络爬虫的基本原理、分类和应用、网络爬虫工作流程、网络爬虫协议、搭建Python开发环境等内容。 网络爬虫基本原理 ...

    python 网络爬虫概述

    本文将概述网络爬虫的基本原理,介绍常用库,并提供代码框架。 网络爬虫的工作流程主要包括以下几个步骤: 1. **发送HTTP请求**:使用如`requests`库向目标网站发送HTTP请求。`requests.get()`函数可以获取网页...

    基于Python网络爬虫毕业论文.doc

    #### 一、网络爬虫概述 网络爬虫(Web Crawler),又称网络蜘蛛或网络机器人,是一种按照一定规则自动抓取互联网上的信息的程序或者脚本。在大数据时代背景下,网络爬虫技术变得尤为重要,它不仅能够帮助我们高效地...

    Python网络爬虫实战

    网络爬虫概述 - 网络爬虫(Web Crawler)是一种自动抓取互联网信息的程序或脚本。 - 基本工作流程包括:发送HTTP请求、解析网页内容、提取有用信息等。 - 主要用途:数据采集、市场分析、搜索引擎建设等。 ### ...

    java网络爬虫demo

    1. **网络爬虫概述** 网络爬虫,又称为网页蜘蛛或机器人,是自动遍历互联网并下载网页的程序。它们通常用于搜索引擎的数据索引、数据分析、市场研究等领域。网络爬虫通过模拟浏览器发送HTTP请求到服务器,接收响应...

    自己动手写网络爬虫.ptf(高清)

    1. **网络爬虫概述**:网络爬虫,又称网页抓取器或网络蜘蛛,是一种自动化程序,用于遍历互联网上的网页,收集所需信息。它们遵循HTML链接,模拟用户行为,抓取网页内容并存储在本地数据库或服务器上。 2. **爬虫的...

    Python的网络爬虫与反爬虫策略

    网络爬虫概述网络爬虫的应用网络爬虫定义 requests库01requests是Python的一个HTTP客户端库,用于发送HTTP请求和处理响应。它提供了简洁的API以发送HTTP请求,并支持自动处理cookies、会话、重定向等。...

    网络爬虫-python和数据分析

    #### 一、网络爬虫概述 网络爬虫,也称为网络蜘蛛或网络机器人,是一种自动化的程序,主要用于在网络上抓取和下载网页内容。这种技术对于搜索引擎至关重要,因为它们依赖于爬虫来构建和更新其索引。 **网络爬虫的...

    网络爬虫设计实现

    #### 一、网络爬虫概述与应用场景 - **定义**:网络爬虫是一种自动从互联网上下载网页的程序,是搜索引擎的重要组成部分,用于从海量的网络资源中抽取有用信息。 - **应用场景**: - 搜索引擎优化(SEO)分析 - ...

    简析搜索引擎中网络爬虫的搜索策略

    #### 二、网络爬虫概述 **2.1 网络爬虫的概念** 网络爬虫(Web Crawler),也被称作Spider、Crawler、robots等,是一种能够根据超链接自动访问互联网上的网页并收集信息的软件程序。它可以按照特定的搜索策略遍历...

    数据挖掘与数据管理-网络爬虫工作流程.pptx

    1. 网络爬虫概述 网络爬虫是一个自动化的程序,用于从互联网上获取感兴趣的信息。它可以自动高效地从互联网中获取信息,并将其保存到文件或数据库中。 2. 网络爬虫的原理 网络爬虫的原理是通过发送请求获取网页...

    Python网络爬虫基础教程及项目实战

    **网络爬虫概述** 网络爬虫通常由以下几个核心组件组成:URL管理器、下载器和解析器。URL管理器负责跟踪待爬取的网址,下载器则负责获取网页内容,而解析器则用于提取网页中的目标信息。Python中的`requests`库可以...

    自己动手写网络爬虫

    ##### 2.1 网络爬虫概述 网络爬虫(Web Crawler),又称为网页蜘蛛、网络机器人,是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。它能够遍历互联网上的网页并提取有用的数据。网络爬虫通常被用于搜索...

    网络爬虫.txt

    ### 知识点一:Heritrix网络爬虫概述 - **定义**:Heritrix是一种高度可配置的开源网络爬虫,专为数字存档和网页数据收集设计。它支持高级功能,如遵从robots.txt规则、内容过滤等。 - **特点**:Heritrix具有高度...

    基于Python专用型网络爬虫的设计及实现.docx

    2.1 网络爬虫概述 网络爬虫是一个自动遍历互联网并下载网页的程序,它通过跟踪网页间的链接,从一个网页开始,逐个访问并获取网页内容。 2.2 网络爬虫的工作流程 典型的网络爬虫工作流程包括:发起HTTP请求、接收...

    网络爬虫第一章

    网络爬虫概述 - **网络爬虫**(Web crawler)是一种自动下载网页的程序,用于从互联网上抓取大量的网页信息。这种技术被广泛应用于搜索引擎、大数据分析等领域。 - **Spider** 是搜索引擎中的一种常见术语,特指...

    Python网络爬虫及数据可视化.doc

    网络爬虫概述 网络爬虫(Web Crawler)是一种自动化程序,用于从万维网上检索和下载数据。它可以模拟用户的行为,发送 HTTP 请求,获取网页内容,并将其存储在本地数据库中。网络爬虫广泛应用于数据挖掘、信息检索...

    网络爬虫详细介绍

    #### 一、搜索引擎与网络爬虫概述 搜索引擎作为一种重要的信息检索工具,其核心组成部分之一便是网络爬虫(Spider)。爬虫负责从互联网上自动抓取网页信息,并将其存储起来供后续处理。通过爬虫获取的数据经过分析...

Global site tag (gtag.js) - Google Analytics