相信不少网站对搜索引擎爬虫都是又爱又恨,因为其中不仅有些爬虫不守规矩,还有人冒充爬虫对网站进行疯狂的扫描。
做的比较好的爬虫抓取频率都比较合理,对网站资源消耗比较少,Google Spider会根据网页的下载速度等因素进行抓取速度的动态调整,你可以通过Webmaster Tools来调整Spider的抓取速度。
Google_Webmaster_Tools_Settings
很多糟糕的网络爬虫,经常并发几十上百个请求循环重复抓取。一个“爬虫”先是将PageNo递增到无穷大——被封,过了4个小时,“爬虫”又回来了,这次程序倒是改进了不少,通过分析网页内部的链接进行抓取,可是没过多久发现总是抓取那几个特定的页面,原来被网页内部链接套住,程序进入了死循环,只能封杀。
网上也出现了很多如何封杀恶意爬虫的方法。常见的就是根据UserAgent中的标识进行识别封杀,但是道高一尺魔高一丈,接下来就有人伪造User-Agent,伪装成各大搜索引擎的爬虫进行抓取。
目前的做法是根据UserAgent进行判断,如果是真正的搜索引擎爬虫,那么就放过;如果发现是伪造的就坚决封杀。剩余的正常UserAgent的访问则通过限制IP并发请求次数来限制。
那么问题就出现了,如何才能正确识别搜索引擎爬虫的真伪,其实一些大型的搜索引擎商都已经提供了相关的方法,那就是反向DNS验证(Reverse DNS Lookup)。
拿baidu Spider举个例子:
您可以使用host ip命令反解ip来判断Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。
$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.
-------------------------------------------------------------------------
Google:http://www.google.com/support/webmasters/bin/answer.py?answer=80553
Yahoo:http://www.ysearchblog.com/2007/06/05/yahoo-search-crawler-slurp-has-a-new-address-and-signature-card/
Bing(MSN):http://cn.bing.com/community/blogs/search/archive/2006/11/29/search-robots-in-disguise.aspx
可喜可贺的是baidu的2个月前爬虫也开始遵守这一“潜规则”,虽然没有在任何网页公开此消息,但经过测试,实际上是可行的。
分享到:
相关推荐
搜索引擎爬虫是网络数据抓取的关键工具,它们自动地遍历互联网上的网页,收集信息,以便于搜索引擎构建索引,从而提高搜索效率和准确性。在这个特定的案例中,"搜索引擎爬虫(支持自定目录)" 提供了定制化的目标...
EngineCrawler 主要用于抓取国内外一些主流搜索引擎搜索返回的url内容,目前支持以下的搜索引擎: baidu,google,yahoo,ecosia,teoma,360,hotbot,脚本支持直接使用百度或者谷歌的高级搜索语法来进行搜索,谷歌...
网络爬虫和搜索引擎是互联网数据挖掘与信息处理的两个重要技术。它们在现代信息技术中扮演着不可或缺的角色,尤其是在大数据分析、市场研究、竞争对手分析、内容推荐系统等方面。 网络爬虫,也称为网络蜘蛛或Web...
爬虫搜索,简单的搜索引擎,java爬虫,搜索引擎例子,爬虫demo,java实现互联网内容抓取,搜索引擎大揭密.java爬虫程序。web搜索。爬虫程序。sigar搜索,定时搜索互联网内容信息。
标题中的“使用C++语言编写的搜索引擎爬虫源码”是指一种特定的程序设计实践,其目的是通过C++编程语言来实现一个能够自动抓取互联网上信息的工具,即网络爬虫。网络爬虫,也被称为网页蜘蛛或网络机器人,是自动化地...
HTTrack 模拟搜索引擎爬虫 HTTrack 是一个网站镜像工具,通过模拟搜索引擎爬虫,可以检测网站的坏链接和测试搜索引擎对网站可能面临的抓取问题。同时,也可以用来探知一些 SEO 做法的由来。 HTTrack 的爬虫特性和...
垂直搜索引擎爬虫系统的研究与实现 论文 PDF
混合搜索引擎一种混合搜索引擎以传统的文字为导向,如谷歌搜索引擎,如雅虎目录搜索为基础的搜索引擎,其中每个爬虫程序被分配到64个站点进行检索,並没有网站被分配到一个以上的爬虫。 网络爬虫的工作原理是通过...
介绍了一种垂直搜索引擎的爬虫设计方案,这是主题搜索引擎的核心部分。
搜索引擎中网络爬虫的研究 论文 武汉理工大学硕士学位论文 第1章引言 1.1选题背景 人类社会的发展离不开知识的获取与发现,进入互联网时代以后,信息出现 了飞速地增长,对于网络上不断涌现的各种信息,人们的接受...
Z-blog搜索引擎爬虫管理插件(RobotsMng)v1.0 插件简介:搜索引擎爬虫管理插件(RobotsMng)是一款可以帮助新手管理你的Robots.txt文件的插件,如果你还不知道什么是Robots.txt请百度一下先。写这个插件的初衷在于帮助...
综上所述,搜索引擎中的爬虫设计是一门涉及网络爬取策略、网页解析、数据处理、编码识别、动态内容抓取、法律合规等多个领域的复杂技术。在实际应用中,需要根据具体需求和环境,灵活调整和优化爬虫算法,以实现高效...
垂直搜索引擎网络爬虫的研究与实现.pdf垂直搜索引擎网络爬虫的研究与实现.pdf垂直搜索引擎网络爬虫的研究与实现.pdf垂直搜索引擎网络爬虫的研究与实现.pdf
在IT领域,搜索引擎和网络爬虫是两个非常关键的技术,它们是互联网信息获取与处理的基础。搜索引擎用于高效地检索和返回互联网上的相关信息,而网络爬虫则是搜索引擎获取数据的先驱,负责抓取和更新网页内容。下面...
HTTrack 模拟搜索引擎爬虫 HTTrack 是一个网站镜像工具,可以模拟搜索引擎爬虫的行为,对网站进行抓取和存储。该工具的爬虫特性和搜索引擎爬虫非常相似,可以应用于 SEO 工作中,检测网站的坏链接和测试搜索引擎对...
计算机领域中的爬虫协议(Robots 协议)是一种网络服务商可以设立的电子文件,旨在向搜索引擎示明哪些内容可以抓取,而搜索引擎则可以读取该文件来识别所在页面是否允许被抓取。然而,由于爬虫协议本身存在着非强制...
搜索引擎中主题爬虫 来自CNKI
基于爬虫系统的搜索引擎
1. **搜索引擎工作原理**:搜索引擎首先通过爬虫程序(如Googlebot、BingBot等)自动抓取互联网上的网页,然后对抓取的网页进行索引,以便用户在搜索时快速找到相关信息。对于ASP网站,确保爬虫能顺利访问和理解页面...
"JAVA基于网络爬虫的搜索引擎设计与实现" 本文档主要讨论了基于Java的网络爬虫搜索引擎的设计和实现。以下是从该文档中提炼出的相关知识点: 一、搜索引擎概述 * 搜索引擎是指通过网络爬虫或蜘蛛来收集、处理和...