`
zhtch_123
  • 浏览: 84319 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论

搜索引擎蜘蛛的爬取过程以及策略

 
阅读更多

       搜索引擎蜘蛛每天是怎么样去爬取我们的网的呢?针对这些你有多少的了解? 那搜索引擎蜘蛛的爬取过程又是怎么样的呢?在搜索引擎蜘蛛系统中,待爬取URL队列是很关键的部分,需要蜘蛛爬取的网页URL在其中顺序排列,形成一个队 列结构,调度程序每次从队列头取出某个URL,发送给网页下载器页面内容,每个新下载的页面包含的URL会追加到待爬取URL队列的末尾,如此形成循环, 整个爬虫系统可以说是由这个队列驱动运转的。同样我们的网站每天都要经过这样一个队列,让搜索引擎进行爬取的。

  那么待爬取URL 队列中的页面URL 的排列顺序是如何来确定的呢?上面我们说了将新下载页面中的包含的链接追加到队列尾部,这固然是一种确定队列URL顺序的方法,但并非唯一的手段,事实 上,还可以采纳很多其他技术来实现,将队列中待爬取的URL进行排序。那么究竟搜索引擎蜘蛛是按照什么样的策略进行的爬取呢?以下我们来进行更深入的分析 吧。

  第一、宽度优化遍历策略

  宽度优化遍历是一种非常简单直观且历史很悠久的遍历方法,在搜索引擎爬虫一出现就开始采 用了。新提出的抓取策略往往会将这种方法作为比较基准,但应该注意到的是,这种策略也是一种相当强悍的方法,很多新方法实际效果不见昨比宽度优化遍历策略 好,所以至今这种方法也是很多实际爬虫系统优先采用的爬取策略。网页爬取顺序基本是按照网页的重要性排序的。之所以如此,有研究人员认为,如果某个网页包 含很多入链,那么更有可能被宽度优化遍历策略早早爬到,而入链这个数从侧面体现了网页的重要性,即实际上宽度优化遍历策略隐含了一些网页优化级假设。

搜索引擎

  第二、非完全pagerank策略

   PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性。很自然地,可以想到用PageRank的思想来对URL优化级进行排序。但是这 里有个问题,PageRank是个全局性算法,也就是说当所有网页下载完成后,其计算结果才是可靠的,而爬虫的目的就是去下载网页,在运行过程中只能看到 一部分页面,所以在爬取阶段的网页是无法获得可靠的PageRank得分的。对于已经下载的网页,加上待爬取的URL队列中的一URL一起,形成网页集 合,在此集合内进行PageRank计算,计算完成之后,将待爬取URL队列里的网页按照按照PageRank得分由高低排序,形成的序列就是爬虫接下来 应该依次爬取的URL列表。这也是为何称之为“非完全PageRank”的原因,。

  第三、OPIC策略( Online Page Importance Computation)

   OPIC的字面含义是“在线页面重要性计算”,可以将其看做是一种改进的PageRank算法。在算法开始之前,每个互联网页面都给予相同的现金,每当 下载了某个页面P后,P就将自己拥有的现金平均分配给页面中包含的链接页面,氢自己的现金清空。而对于待爬取URL队列中的网页,则根据其手头拥有的现金 金额多少排序,优先下载现金最充裕的网页,OPIC从大的框架上与PageRank思路基本一致,区别在于:PageRank每次需要迭代计算,而 OPIC策略不需要迭代过程。所以计算速度远远快与PageRank,适合实时 计算使用。同时,PageRank,在计算时,存在向无链接关系网页的远程跳转过程,而OPIC没有这一计算因子。实验结果表明,OPIC是较好的重要性 衡量策略,效果略优于宽度优化遍历策略。

  第四、大站优化策略

  大部优化策略思路很直接:以网站为单位来选题网页重要 性,对于待爬取URL队列中的网页根据所属网站归类,如果哪个网站等待下载的页面最多,则优化先下载这些链接,其本质思想倾向于优先下载大型网站。因为大 型网站往往包含更多的页面。鉴于大型网站往往是著名企业的内容,其网页质量一般较高,所以这个思路虽然简单,但是有一定依据。实验表明这个算法效果也要略 优先于宽度优先遍历策略。

  第五、网页更新策略

  互联网的动态是其显著特征,随时都有新出现的页面,页面的内容被更改或 者本来存在的页面删除。对于爬虫来说,并非将网页抓取到本地就算完成任务,也要体现出互联网这种动态性。本地下载的网页可被看做是互联网页的镜像,爬虫要 尽可能保证其一致性。可以假设一种情况:某 个网页已被删除或者内容做出重大变动,而搜索引擎对此惘然无知,仍然按其旧有内容排序,将其作为搜索结果提供给用记,其用户体验度之糟糕不言而喻。所以对 于已经爬取的网页,爬虫还要负责保持其内容和互联网页面内容的同步,这取决于爬虫所彩用的网页更新策略。网页更新策略的任务是要决定何时重新爬取之前已经 下载过和网页,以尽可能使得本地下载网页和互联网原始页面内容保持一致。常用的网页更新策略有三种:历史参考策略,用户体验度策略和聚类抽样策略。

  (1)什么是历史参考策略?

  历史参考策略是最直观的一种更新策略,它建立于如下假设之上:过去频繁更新的网页,那么将来也会频繁更新,所以为了预估某个网页何时进行更新,可以通过参考其历史更新情况来做出决定。

  从这一点可以看出,我们网站的更新一定要有规律的进行,这样才能让搜索引擎蜘蛛更好的来关注你的网站,把握你的网站,很多人在更新网站的时候,不知道为什么要做规律性的更新,这就是真正存在的原因。

  (2)什么是用户体验度策略?

  这个很明显,大家都知道。一般来说,搜索引擎用户提交查询结果后,相关的搜索结果可能成千上万,而用户没有耐心去查看排在后面的搜索结果,往往只盾前三页搜索内容,用户体验策略就是利用搜索引擎用户的这个特点来设计更新策略的。

  (3)聚类抽样策略

   上面介绍的两种网页更新策略严重依赖网页的历史更新信息,因为这是能够进行后续计算的基础。但在现实中为每个网页保存历史信息,搜索系统会增加 额外的负担。从另外一个角度考虑,如果是首次爬取的网页,因为没有历史信息,所以也就无法按照这两种思路去预估其更新周期,聚类抽样,策略即是为了解决上 述缺点而提出的。网页一般具有一些属性,根据这些属性可以预测其更新周期,具有相信属性的网页,其更新周期也是类似的。

  通过以上对搜索 引擎蜘蛛的爬取过程以及爬取策略进行了简单的了解之后,你是否应该有些考虑了?试着对自己的网站进行改变了?以上的一些原因说明了搜索引擎的更新是有规律 以及有章法进行的,要想更能适应搜索引擎的更新原则和蜘蛛爬取原则,我们就应该从更基础的入手去进行全面的分析和总结。

 

转自:http://www.enet.com.cn/article/2013/0403/A20130403273465.shtml

分享到:
评论

相关推荐

    适用于asp/html/动态静态网站百度谷歌所有搜索引擎蜘蛛查看器

    对于ASP和HTML网站,搜索引擎蜘蛛的爬取方式可能会有所不同,因为动态页面可能需要特定的请求参数来加载内容。 接下来,我们看看压缩包中的文件: 1. `cqspb.asp`:这可能是一个ASP文件,可能包含了查看器的主要...

    JAVA搜索引擎之模仿百度蜘蛛

    在这个主题中,我们将探讨如何使用JAVA来创建一个类似于百度蜘蛛的搜索引擎。首先,我们需要理解百度蜘蛛(也称为网络爬虫)的工作原理。 百度蜘蛛是百度搜索引擎的重要组成部分,它的主要任务是遍历互联网上的网页...

    ASP搜索引擎蜘蛛爬行日志生成程序

    ASP搜索引擎蜘蛛爬行日志生成程序是一个专门针对网站搜索引擎优化(SEO)的工具,它能够帮助网站管理员跟踪和分析搜索引擎的爬虫如何访问并索引他们的网站。在互联网上,59878影视(http://59878.net)可能就是这样...

    泊君多功能搜索引擎蜘蛛模拟器

    泊君多功能搜索引擎蜘蛛模拟器就是模拟这一过程的工具,它允许用户自定义爬虫的行为,例如设置爬取深度、速率、URL过滤规则等,以便更精确地模拟不同的搜索引擎爬虫。 在使用这款模拟器时,用户可以输入起始URL,...

    搜索引擎蜘蛛捕捉asp.net版

    在IT行业中,搜索引擎蜘蛛捕捉(也称为网页抓取或网络爬虫)是搜索引擎技术的关键组成部分。这个主题主要涉及如何利用编程语言,如ASP.NET,来创建一个能够模拟搜索引擎爬虫的程序,以便抓取和索引互联网上的网页...

    PHP模拟baidu蜘蛛抓取网站链接

    为了模拟百度蜘蛛,我们需要在请求中设置这个头,使其看起来像是来自百度搜索引擎的爬虫。 在抓取过程中,还要考虑到网页的递归抓取和避免死循环。百度蜘蛛会遵循HTML中的链接,逐页抓取。我们可以通过跟踪已访问过...

    搜索引擎蜘蛛访问日志查看器

    搜索引擎蜘蛛访问日志查看器是一款专门用于分析搜索引擎爬虫活动的工具,对于网站优化和SEO策略的制定至关重要。它能够帮助网站管理员了解搜索引擎如何与他们的网站互动,揭示爬虫访问频率、抓取的页面以及可能遇到...

    测试可用蜘蛛源码,可建搜索引擎

    标题中的“测试可用蜘蛛源码,可建搜索引擎”揭示了我们即将探讨的核心技术主题:搜索引擎的构建和蜘蛛爬虫(也称网络爬虫)的源代码。搜索引擎是互联网上用于检索信息的重要工具,它们通过自动抓取网页、索引内容并...

    PHP版网站百度谷歌所有搜索引擎蜘蛛查看器

    【PHP版网站百度谷歌所有搜索引擎蜘蛛查看器】是一款专门针对网站搜索引擎优化(SEO)而设计的工具,主要用于...总的来说,【PHP版网站百度谷歌所有搜索引擎蜘蛛查看器】是提升网站SEO策略和用户体验的重要辅助工具。

    搜索引擎蜘蛛日志记录查看器

    【搜索引擎蜘蛛日志记录查看器】是一款针对ASP环境下的网站管理员设计的工具,主要用于分析和解读搜索引擎蜘蛛(如Googlebot、Bingbot、Sogou Spider等)在网站上的活动情况。这款工具能够帮助管理员更好地理解网站...

    [搜索链接]渝海搜索引擎蜘蛛模拟工具 v1.1_yh_zhizhu.zip

    【渝海搜索引擎蜘蛛模拟工具 v1.1_yh_zhizhu】是一个专门针对搜索引擎爬虫行为进行模拟的软件,它能够帮助网站管理员、SEO优化人员以及互联网数据分析者更好地理解和测试他们的网站在搜索引擎中的表现。这个工具的...

    PHP实例开发源码-PHP搜索引擎蜘蛛跟踪器.zip

    这个实例源码提供了对搜索引擎蜘蛛行为的详细记录和统计,帮助网站管理员了解哪些搜索引擎在何时访问了哪些页面,从而优化网站的SEO策略。 首先,PHP是一种广泛应用于Web开发的服务器端脚本语言,以其简洁的语法和...

    搜索引擎强引蜘蛛程序易语言

    标题中的“搜索引擎强引蜘蛛程序易语言”表明这是一个关于利用易语言编程实现搜索引擎优化(SEO)的技巧,尤其是针对搜索引擎爬虫(也称蜘蛛程序)的引导策略。易语言是一种中文编程语言,它以直观的汉字编程语法为...

    ASP搜索引擎蜘蛛爬行日志生成程序.rar

    ASP搜索引擎蜘蛛爬行日志生成程序是一个用于监测和记录搜索引擎爬虫活动的工具,它能够帮助网站管理员了解网站被搜索引擎抓取的情况。该程序的核心功能是收集和分析搜索引擎的爬行数据,从而优化网站的SEO(搜索引擎...

    搜索引擎技术揭密之搜索蜘蛛系列文摘

    这一过程是搜索引擎提供准确和最新搜索结果的基础。 首先,中文搜索引擎技术揭密之搜索蜘蛛.pdf可能会深入探讨中文网页的抓取和处理。中文处理相对复杂,涉及到汉字编码、分词、消歧等问题。搜索引擎需要能够理解和...

    搜猫源码PHP自带蜘蛛的搜索引擎

    1. `搜猫安装演示.exe` - 这可能是一个Windows应用程序,用于演示或协助搜猫搜索引擎的安装过程。 2. `skin.htm`, `gengduo.html`, `indexs.html`, `index.html`, `youdao.html`, `wap.html` - 这些可能是不同的HTML...

Global site tag (gtag.js) - Google Analytics