`
Ryee
  • 浏览: 285572 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

如何识别搜索引擎爬虫的真伪

阅读更多

相信不少网站对搜索引擎爬虫都是又爱又恨,因为其中不仅有些爬虫不守规矩,还有人冒充爬虫对网站进行疯狂的扫描。

做的比较好的爬虫抓取频率都比较合理,对网站资源消耗比较少,Google Spider会根据网页的下载速度等因素进行抓取速度的动态调整,你可以通过Webmaster Tools来调整Spider的抓取速度。

Google_Webmaster_Tools_Settings

很多糟糕的网络爬虫,经常并发几十上百个请求循环重复抓取。一个“爬虫”先是将PageNo递增到无穷大——被封,过了4个小时,“爬虫”又回来了,这次程序倒是改进了不少,通过分析网页内部的链接进行抓取,可是没过多久发现总是抓取那几个特定的页面,原来被网页内部链接套住,程序进入了死循环,只能封杀。

网上也出现了很多如何封杀恶意爬虫的方法。常见的就是根据UserAgent中的标识进行识别封杀,但是道高一尺魔高一丈,接下来就有人伪造User-Agent,伪装成各大搜索引擎的爬虫进行抓取。

目前的做法是根据UserAgent进行判断,如果是真正的搜索引擎爬虫,那么就放过;如果发现是伪造的就坚决封杀。剩余的正常UserAgent的访问则通过限制IP并发请求次数来限制。

那么问题就出现了,如何才能正确识别搜索引擎爬虫的真伪,其实一些大型的搜索引擎商都已经提供了相关的方法,那就是反向DNS验证(Reverse DNS Lookup)。

拿baidu Spider举个例子:

您可以使用host ip命令反解ip来判断Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。

$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.

-------------------------------------------------------------------------
Google:http://www.google.com/support/webmasters/bin/answer.py?answer=80553

Yahoo:http://www.ysearchblog.com/2007/06/05/yahoo-search-crawler-slurp-has-a-new-address-and-signature-card/

Bing(MSN):http://cn.bing.com/community/blogs/search/archive/2006/11/29/search-robots-in-disguise.aspx

可喜可贺的是baidu的2个月前爬虫也开始遵守这一“潜规则”,虽然没有在任何网页公开此消息,但经过测试,实际上是可行的。


分享到:
评论

相关推荐

    php 判断访客是否为搜索引擎蜘蛛的函数代码

    同时,也要定期更新搜索引擎蜘蛛的识别列表,以适应搜索引擎爬虫的不断变化。此外,网站管理员需要意识到,一些智能爬虫程序可能会故意隐藏或伪造HTTP_USER_AGENT头部信息,以避免被追踪或限制,这也会给准确判断...

    电子商务网络信息检索.pptx

    目录式搜索引擎依赖人工分类,而全文搜索引擎则依赖爬虫技术进行网页级的索引。 搜索引擎的工作原理包括全文搜索引擎的网络蜘蛛技术和目录索引的工作机制。前者通过爬虫抓取网页,建立索引数据库;后者则依赖人工...

    网络信息检索与利用考察题.doc

    【网络信息检索与利用】是网络教育学院考核的一项重要内容,主要涉及信息检索的原理、搜索引擎的分类及其特点、不同层次文献的功能以及信息真伪的鉴别方法。以下是对这些知识点的详细说明: 1. **信息检索原理**:...

    高一信息技术上学期11月段考试题(含解析) 试题.doc

    - 全文搜索引擎:如Google,通过爬虫技术抓取网页内容进行搜索。 - 元搜索引擎:结合多个搜索引擎的结果。 - 关键词搜索引擎:基于关键词的搜索工具。 12. 搜索技巧: - 使用精确关键词:如“周华健 朋友 歌曲...

    真伪静态区别方法分析

    2. 伪静态无法解决死循环问题:搜索引擎爬虫在爬取带有查询参数的URL时会担心进入死循环,因此,即使伪静态解决了URL的静态化显示问题,搜索引擎爬虫依旧可能会避免爬取带有查询参数的URL,尤其是当网站内容大量重复...

    网络信息检索课程11

    学生将首先学习搜索引擎的三大部分:网络爬虫、索引系统和排名算法。网络爬虫负责在互联网上“爬行”收集信息,索引系统则对这些信息进行整理归类,而排名算法则是决定哪些网页能够排在搜索结果前列的关键。以谷歌的...

    UserAgent.txt

    4. **SEO优化**:搜索引擎根据用户代理信息决定是否索引网页内容,以及如何排名,这在一定程度上影响了网站的搜索引擎优化策略。 #### 三、User-Agent在爬虫中的应用 爬虫程序通常模仿浏览器进行网络数据抓取。...

    (山科)信息检索模拟试题

    9. **搜索引擎的工作原理**:理解索引、爬虫、排名算法等,有助于更高效地利用搜索引擎。 文件列表中的“信息检索模拟试题一 新(貌似是完整版)1[1].doc”可能是第一套完整的模拟试题,而“《信息检索》.doc”可能...

    数学之完美

    通过使用布尔运算符(如AND、OR、NOT),搜索引擎能够高效地处理用户的查询请求,并返回最相关的文档集合。此外,布尔代数还用于设计搜索引擎的索引结构,以加快文档检索的速度。 #### 图论和网络爬虫 图论是一门...

    Fact-Checking-Survey-main-源码.rar

    - 证据搜索:通过搜索引擎或知识图谱,查找支持或反驳所述事实的证据。 - 真实性评估:运用逻辑推理、概率模型等方法,对事实进行可信度评估。 - 结果呈现:将查证结果以可视化方式展示,便于用户理解和判断。 3. ...

    企业防伪正品等查询系统

    - **安全文件**:`robots.txt`通常用于指导搜索引擎爬虫的抓取行为,防止敏感信息被过度曝光。 3. **技术实现** - **服务器端语言**:系统可能使用PHP(如`install.php`、`index.php`所示)作为主要开发语言,...

    离散数学完整版课件全套ppt教学教程最全整套电子讲义幻灯片.ppt

    在计算机科学中,图论广泛应用于网络分析,例如在网页搜索引擎的设计中,网页可以被视为图中的节点,链接则作为连接它们的边。通过图论,可以解决类似哥尼斯堡七桥问题的实际问题,同时也对网络爬虫技术有指导意义,...

Global site tag (gtag.js) - Google Analytics