`
Ryee
  • 浏览: 276520 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

如何识别搜索引擎爬虫的真伪

阅读更多

相信不少网站对搜索引擎爬虫都是又爱又恨,因为其中不仅有些爬虫不守规矩,还有人冒充爬虫对网站进行疯狂的扫描。

做的比较好的爬虫抓取频率都比较合理,对网站资源消耗比较少,Google Spider会根据网页的下载速度等因素进行抓取速度的动态调整,你可以通过Webmaster Tools来调整Spider的抓取速度。

Google_Webmaster_Tools_Settings

很多糟糕的网络爬虫,经常并发几十上百个请求循环重复抓取。一个“爬虫”先是将PageNo递增到无穷大——被封,过了4个小时,“爬虫”又回来了,这次程序倒是改进了不少,通过分析网页内部的链接进行抓取,可是没过多久发现总是抓取那几个特定的页面,原来被网页内部链接套住,程序进入了死循环,只能封杀。

网上也出现了很多如何封杀恶意爬虫的方法。常见的就是根据UserAgent中的标识进行识别封杀,但是道高一尺魔高一丈,接下来就有人伪造User-Agent,伪装成各大搜索引擎的爬虫进行抓取。

目前的做法是根据UserAgent进行判断,如果是真正的搜索引擎爬虫,那么就放过;如果发现是伪造的就坚决封杀。剩余的正常UserAgent的访问则通过限制IP并发请求次数来限制。

那么问题就出现了,如何才能正确识别搜索引擎爬虫的真伪,其实一些大型的搜索引擎商都已经提供了相关的方法,那就是反向DNS验证(Reverse DNS Lookup)。

拿baidu Spider举个例子:

您可以使用host ip命令反解ip来判断Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。

$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.

-------------------------------------------------------------------------
Google:http://www.google.com/support/webmasters/bin/answer.py?answer=80553

Yahoo:http://www.ysearchblog.com/2007/06/05/yahoo-search-crawler-slurp-has-a-new-address-and-signature-card/

Bing(MSN):http://cn.bing.com/community/blogs/search/archive/2006/11/29/search-robots-in-disguise.aspx

可喜可贺的是baidu的2个月前爬虫也开始遵守这一“潜规则”,虽然没有在任何网页公开此消息,但经过测试,实际上是可行的。


分享到:
评论

相关推荐

    搜索引擎爬虫(支持自定目录)

    搜索引擎爬虫是网络数据抓取的关键工具,它们自动地遍历互联网上的网页,收集信息,以便于搜索引擎构建索引,从而提高搜索效率和准确性。在这个特定的案例中,"搜索引擎爬虫(支持自定目录)" 提供了定制化的目标...

    国内外主流搜索引擎爬虫

    EngineCrawler 主要用于抓取国内外一些主流搜索引擎搜索返回的url内容,目前支持以下的搜索引擎: baidu,google,yahoo,ecosia,teoma,360,hotbot,脚本支持直接使用百度或者谷歌的高级搜索语法来进行搜索,谷歌...

    网络爬虫+搜索引擎+C#源码

    网络爬虫和搜索引擎是互联网数据挖掘与信息处理的两个重要技术。它们在现代信息技术中扮演着不可或缺的角色,尤其是在大数据分析、市场研究、竞争对手分析、内容推荐系统等方面。 网络爬虫,也称为网络蜘蛛或Web...

    爬虫搜索,简单的搜索引擎,java爬虫,搜索引擎例子,爬虫demo,java实现互联网内容抓取,搜索引擎大揭密

    爬虫搜索,简单的搜索引擎,java爬虫,搜索引擎例子,爬虫demo,java实现互联网内容抓取,搜索引擎大揭密.java爬虫程序。web搜索。爬虫程序。sigar搜索,定时搜索互联网内容信息。

    使用C++语言编写的搜索引擎爬虫源码

    标题中的“使用C++语言编写的搜索引擎爬虫源码”是指一种特定的程序设计实践,其目的是通过C++编程语言来实现一个能够自动抓取互联网上信息的工具,即网络爬虫。网络爬虫,也被称为网页蜘蛛或网络机器人,是自动化地...

    httrack模拟搜索引擎爬虫.docx

    HTTrack 模拟搜索引擎爬虫 HTTrack 是一个网站镜像工具,通过模拟搜索引擎爬虫,可以检测网站的坏链接和测试搜索引擎对网站可能面临的抓取问题。同时,也可以用来探知一些 SEO 做法的由来。 HTTrack 的爬虫特性和...

    垂直搜索引擎爬虫系统的研究与实现

    垂直搜索引擎爬虫系统的研究与实现 论文 PDF

    搜索引擎爬虫外文翻译文献.docx

    混合搜索引擎一种混合搜索引擎以传统的文字为导向,如谷歌搜索引擎,如雅虎目录搜索为基础的搜索引擎,其中每个爬虫程序被分配到64个站点进行检索,並没有网站被分配到一个以上的爬虫。 网络爬虫的工作原理是通过...

    垂直搜索引擎聚焦爬虫技术研究

    介绍了一种垂直搜索引擎的爬虫设计方案,这是主题搜索引擎的核心部分。

    搜索引擎中网络爬虫的研究

    搜索引擎中网络爬虫的研究 论文 武汉理工大学硕士学位论文 第1章引言 1.1选题背景 人类社会的发展离不开知识的获取与发现,进入互联网时代以后,信息出现 了飞速地增长,对于网络上不断涌现的各种信息,人们的接受...

    搜索引擎爬虫管理插件 for Z-blog.rar

    Z-blog搜索引擎爬虫管理插件(RobotsMng)v1.0 插件简介:搜索引擎爬虫管理插件(RobotsMng)是一款可以帮助新手管理你的Robots.txt文件的插件,如果你还不知道什么是Robots.txt请百度一下先。写这个插件的初衷在于帮助...

    搜索引擎中爬虫设计

    综上所述,搜索引擎中的爬虫设计是一门涉及网络爬取策略、网页解析、数据处理、编码识别、动态内容抓取、法律合规等多个领域的复杂技术。在实际应用中,需要根据具体需求和环境,灵活调整和优化爬虫算法,以实现高效...

    垂直搜索引擎网络爬虫的研究与实现.pdf

    垂直搜索引擎网络爬虫的研究与实现.pdf垂直搜索引擎网络爬虫的研究与实现.pdf垂直搜索引擎网络爬虫的研究与实现.pdf垂直搜索引擎网络爬虫的研究与实现.pdf

    自己动手写搜索引擎和网络爬虫

    在IT领域,搜索引擎和网络爬虫是两个非常关键的技术,它们是互联网信息获取与处理的基础。搜索引擎用于高效地检索和返回互联网上的相关信息,而网络爬虫则是搜索引擎获取数据的先驱,负责抓取和更新网页内容。下面...

    httrack模拟搜索引擎爬虫.pdf

    HTTrack 模拟搜索引擎爬虫 HTTrack 是一个网站镜像工具,可以模拟搜索引擎爬虫的行为,对网站进行抓取和存储。该工具的爬虫特性和搜索引擎爬虫非常相似,可以应用于 SEO 工作中,检测网站的坏链接和测试搜索引擎对...

    计算机-爬虫-搜索引擎爬虫协议的竞争法分析.pdf

    计算机领域中的爬虫协议(Robots 协议)是一种网络服务商可以设立的电子文件,旨在向搜索引擎示明哪些内容可以抓取,而搜索引擎则可以读取该文件来识别所在页面是否允许被抓取。然而,由于爬虫协议本身存在着非强制...

    搜索引擎中主题爬虫的研究

    搜索引擎中主题爬虫 来自CNKI

    基于爬虫系统的搜索引擎

    基于爬虫系统的搜索引擎

    ASP搜索引擎抓取ASP搜索引擎抓取

    1. **搜索引擎工作原理**:搜索引擎首先通过爬虫程序(如Googlebot、BingBot等)自动抓取互联网上的网页,然后对抓取的网页进行索引,以便用户在搜索时快速找到相关信息。对于ASP网站,确保爬虫能顺利访问和理解页面...

    JAVA基于网络爬虫的搜索引擎设计与实现.pdf

    "JAVA基于网络爬虫的搜索引擎设计与实现" 本文档主要讨论了基于Java的网络爬虫搜索引擎的设计和实现。以下是从该文档中提炼出的相关知识点: 一、搜索引擎概述 * 搜索引擎是指通过网络爬虫或蜘蛛来收集、处理和...

Global site tag (gtag.js) - Google Analytics