网络爬虫策略介绍
Web爬虫(Crawler,Robot,Bot,Spider)与爬取(Crawling),被认为所谓的SEO学习的第一步。由于现在各大搜索引擎提倡通过sitemap主动提交内容,避免一些重要内容没有被及时抓取取到或者由于被搜索引擎大量抓取而影响服务器性能,所以网络爬虫原理对SEO显得已经并不是那么重要了,特别是实时搜索的出现。不过这里还是要说下爬虫爬取策略,进一步了解搜索引擎,有助于良好的设计网站。无论百度爬虫还是Google爬虫策略应该类似的,只是技术实现不同。
爬虫抓取策略介绍
Google去年在其官方博客声称已经发现了一万亿的独立URL,面对如此庞大的Web,,分布式的增量爬虫系统是相当的复杂。Google爬虫为了节省带宽,采用了Crawl Caching Proxy(缓存代理),避免Google多种爬虫(GoogleBot,GoogleBlogsearch Bot,GoogleNews Bot等等)重复爬取同一页面。现在网上复制内容或者同一内容不同表现形式导致大量重复内容,爬虫面临的问题就是减少大量重复内容的抓取。
由于爬虫系统相当复杂,这里主要介绍爬虫的一些爬取策略。对于搜索引擎而言,爬虫最重要的效率,一个重要的评价标准就是爬虫开销,Dasgupta等人将爬虫开销定义为:
爬虫开销=重复抓取的老页面数/发掘新页面数
看得出来,以最快的速度抓取最重要的、最新的页面,才是最好的爬虫策略。网上各种爬虫介绍文章可能都提到过爬取策略,如广度优先、最佳优先,或者还有线性以及最新的OPIC(On-Line Page Importance Computation)策略等等,其实现在基本上采用混合策略,对每个页面有一个优先级,Google爬虫对页面的爬取优先级考虑以下几点因素:
1.查询驱动的爬取,对于一个查询,页面与查询的相关性高低决定了页面被爬取的优先级,但是由于在页面未被爬取前无法判定相关性,只能通过已爬取的其他页面来判断未爬取的页面的相关性,如指向该页面的链接、锚文本等来决定。这个爬取策略可能特别适合现在新闻之类的实时搜索,当突发性的用户热门查询发生时,爬虫可能赋予一些包含相关内容页面一个很高的优先级,快速爬取和更新热门内容页面,可以快速满足用户的需求。
2. 反向链接数,一个面被很多页面或者被重要页面指向,这个页面被爬取的优先级越高,这个也适合新闻之类的实时内容,一些热门内容被快速复制,产生大量的反向链接或者被大型门户网站指向,这些页面可能被赋予很高的爬取权重。
3.PR值,一个页面的PR,与上面的纯粹的反向链接计数不同,这个全局考虑页面的重要性,当然这个因素的更新的时间比较长。
4.前向链接数,也就是出链数量,这个页面出链数量很大,指向大量页面,有可能获得很多新页面的链接,所以也被赋予很高的优先级。
5.URL:路径深度是一个考虑的因素,一般重要页面的路径深度都比较浅,爬取的优先级要高。
以上只是其中的一些因素,跟搜索引擎排名一样,一个有效爬虫系统必须考虑多个因素才能合理抓取,提高爬取效率。新的策略也将继续出现,如RPR(Reverse Pagerank),也叫反向PR(逆PR),就是将整个互联网的链接方向倒过来,出链变成入链,计算出来的PR值,RPR越高爬取优先级越高。
from:http://www.cnblogs.com/shuchao/archive/2009/12/26/seo-intro-crawler-spider-strategy.html
相关推荐
本文将详细探讨反爬虫策略和手段,以及相应的反反爬虫策略。 首先,我们来看最基础的反爬虫手段——robots协议。robots协议,也称为robots.txt,是网站向爬虫发出的一种指导性约定。通过这个文件,网站可以告诉爬虫...
在IT领域,网络爬虫是一项重要的技术,尤其对于数据挖掘、数据分析和自动化信息获取来说更是不可或缺。本主题围绕“网络爬虫作业练习”,主要涉及Python编程语言和相关的爬虫技术,我们将深入探讨这些知识点。 首先...
搜索引擎是互联网信息获取的核心工具,而网络爬虫作为搜索引擎的基础组成部分,其搜索策略至关重要。本文将深入探讨网络爬虫的工作原理、搜索策略以及优化方法。 网络爬虫,又称为网页蜘蛛或机器人,是一种自动遍历...
总结而言,本篇入门网络爬虫的精华文章覆盖了网络爬虫的基础知识,介绍了三个核心的工作版块,反爬虫策略的应对方法,并且简单提及了Scrapy框架。此外,还提供了进一步学习的资源参考。通过本篇内容,初学者可以快速...
Python网络爬虫与数据采集是一门技术课程,主要内容包括网络爬虫的基础知识、网络爬虫请求的基本处理、使用Python相关库进行网络请求、理解HTTP协议及其相关技术,以及如何应对常见的反爬虫策略等。 网络爬虫基础...
在实际开发中,网络爬虫的设计与实现是一项复杂的工作,需要对目标网站的结构和反爬虫策略有深入的了解。此外,应当注意遵守相关法律法规,尊重网站的版权和隐私政策,合理合法地进行数据抓取和使用。
此外,网络爬虫还可能涉及反爬虫策略,比如IP代理池、User-Agent随机更换、验证码识别等。在Java中,你可以集成第三方库如Selenium WebDriver来模拟浏览器行为,应对JavaScript渲染的页面。对于验证码识别,可能需要...
Python网络爬虫技术是当前IT领域中非常热门的一个分支,尤其在大数据分析和人工智能应用中起着关键作用。本资源“Python网络爬虫技术_习题答案.rar”看似是一个教学资料,包含了一些图像文件和章节内容,我们可以从...
通过这门课程,学生将具备基础的网络爬虫开发能力,能够应对各种网页结构和反爬虫策略,为后续的数据分析和挖掘工作奠定坚实基础。同时,课程还将培养学生的实际操作能力和问题解决能力,使他们能够在实践中不断进步...
网络爬虫是一种自动获取网页信息的技术,它模拟人类浏览网页的行为,通过编程方式遍历互联网上的页面,收集所需数据。在网络爬虫的论文答辩PPT中,主要涉及以下几个知识点: 1. **网络爬虫的基本原理**:网络爬虫...
1. 爬虫策略:广度优先搜索(BFS)和深度优先搜索(DFS)是两种常见爬取策略,根据需求选择合适的方法。 2. 防止被封:遵守Robots协议,设置合理的爬取频率,使用代理IP,以及添加User-Agent和Cookies以降低被识别...
论文《简析搜索引擎中网络爬虫的搜索策略》,和大家分享~
### 网络蜘蛛与网络爬虫:深入解析与应用 #### 一、网络蜘蛛与网络爬虫概览 在互联网技术的飞速发展下,网络蜘蛛(也称网络爬虫)成为数据挖掘与信息提取的重要工具。网络蜘蛛是一种自动化的程序或软件,用于遍历...
网络爬虫是一种能够自动收集网页数据的程序,通常也被称为网络蠕虫或网页蜘蛛。由于网络爬虫的活动目前主要受制于“君子协定”——robots.txt协议,因此它在法律上并未有明确的限制,这使得网络爬虫在“大数据”背景...
本文将探讨网络爬虫的基本原理、功能和价值,并深入分析网络爬虫对互联网安全造成的影响,最后介绍常见的“反爬”策略和法律规制。 一、网络爬虫基本原理 网络爬虫是一种能够自动提取网页数据的脚本程序,主要通过...
网络爬虫程序是一种自动化浏览互联网并抓取网页信息的程序,它是数据分析、搜索引擎优化和大量信息获取的重要工具。网络爬虫通过模拟人类浏览器的行为,遵循HTTP/HTTPS协议,逐个请求网页,解析其中的数据,然后按照...
本章主要介绍Python爬虫环境的搭建和爬虫的基本概念,旨在帮助学生理解爬虫的运作原理,并能够应对常见的反爬虫策略。 **一、爬虫原理** 爬虫,又称网络蜘蛛或机器人,是一种自动化程序,通过模拟人类浏览网页的...
《用Python写网络爬虫》是一本专注于介绍如何利用Python编程语言进行网络数据抓取的教程。这本书主要针对初学者,旨在帮助读者掌握Python的基本知识并应用到网络爬虫的实践中。通过学习这本书,读者可以了解到网络...