网站经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任意的UserAgent。
所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫(蜘蛛)的方式是不靠谱的,更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断。
要获得ip的host,在windows下可以通过nslookup命令,在linux下可以通过host命令来获得,例如:
这里我在windows下执行了nslookup ip 的命令,从上图可以看到这个ip的主机名是crawl-66-249-64-119.googlebot.com。 这说明这个ip是一个google爬虫,google爬虫的域名都是 xxx.googlebot.com.
我们也可以通过python程序的方式来获得ip的host信息,代码如下:
import socket def getHost(ip): try: result=socket.gethostbyaddr(ip) if result: return result[0], None except socket.herror,e: return None, e.message
上述代码使用了socket模块的gethostbyaddr的方法获得ip地址的主机名。
常用蜘蛛的域名都和搜索引擎官网的域名相关,例如:
- 百度的蜘蛛通常是baidu.com或者baidu.jp的子域名
- google爬虫通常是googlebot.com的子域名
- 微软bing搜索引擎爬虫是search.msn.com的子域名
- 搜狗蜘蛛是crawl.sogou.com的子域名
基于以上原理,我写了一个工具页面提供判断ip是否是真实搜索引擎的工具页面,该页面上提供了网页判断的工具和常见的google和bing的搜索引擎爬虫的ip地址。
页面地址:http://outofmemory.cn/tools/is-search-engine-spider-ip/
本文提供的代码是python代码,通过JAVA代码也是可以实现的,原理是一样的。
相关推荐
### 如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求 在当今互联网时代,网站管理者经常面临的一个问题是如何区分访问其网站的请求是来自真实的用户还是搜索引擎爬虫(也称为蜘蛛)。这个问题对于网站优化(SEO...
**蜘蛛爬虫搜索引擎** 在互联网世界中,搜索引擎是获取信息的关键工具,而“蜘蛛爬虫”(也称为网络爬虫或网页爬虫)是搜索引擎背后的重要技术之一。它通过自动地遍历和抓取互联网上的网页,为搜索引擎提供丰富的...
网站搜索引擎蜘蛛爬虫日志分析是一项关键的SEO(搜索引擎优化)技术,它涉及到对网站访问记录的深入理解和解析,以了解搜索引擎如何与你的网站互动。本文将深入探讨这个主题,帮助你理解爬虫的工作原理、如何分析...
在IT领域,爬虫搜索和搜索引擎是至关重要的技术,它们为获取、整理和提供网络上的海量信息提供了有效手段。本文将深入探讨这些概念,并通过一个简单的Java爬虫程序实例进行说明。 首先,让我们理解什么是爬虫。爬虫...
网络爬虫和搜索引擎是互联网数据挖掘与信息处理的两个重要技术。它们在现代信息技术中扮演着不可或缺的角色,尤其是在大数据分析、市场研究、竞争对手分析、内容推荐系统等方面。 网络爬虫,也称为网络蜘蛛或Web...
总结,ASP搜索引擎蜘蛛爬行日志生成程序是一个强大的工具,它可以帮助网站管理员监控搜索引擎爬虫的活动,以改进SEO策略,提高网站的搜索引擎可见性。通过分析这些日志,你可以发现潜在的问题,如低效的URL结构、...
搜索引擎网络蜘蛛,也被称为网络爬虫或Web抓取器,是互联网上的一种自动化程序,用于遍历和索引网页内容。这些程序对于构建和维护搜索引擎的索引至关重要,因为它们负责发现新的网页、更新现有信息并删除已不存在的...
标题中的“使用C++语言编写的搜索引擎爬虫源码”是指一种特定的程序设计实践,其目的是通过C++编程语言来实现一个能够自动抓取互联网上信息的工具,即网络爬虫。网络爬虫,也被称为网页蜘蛛或网络机器人,是自动化地...
搜索引擎蜘蛛访问记录器是一款专门用于监测和记录搜索引擎爬虫活动的工具。在互联网世界中,搜索引擎如百度,通过他们的“蜘蛛”或“爬虫”程序,自动遍历网页以更新索引,提供用户搜索结果。这款工具可以帮助网站...
这个程序可以帮助网站管理员监控和分析搜索引擎爬虫的行为,从而改进网站的可抓取性和搜索引擎排名。 首先,我们需要了解ASP。ASP是微软推出的一种服务器端脚本环境,用于创建动态交互式网页。它允许开发者使用...
在IT领域,搜索引擎蜘蛛(也称为网络爬虫)是用于自动遍历互联网并抓取网页内容的程序。这个"Delphi模拟搜索引擎蜘蛛抓取网页内容.rar"文件提供了一个使用Delphi编程语言实现的简单示例,帮助我们理解搜索引擎蜘蛛的...
标题中的“搜索引擎强引蜘蛛程序易语言”表明这是一个关于利用易语言编程实现搜索引擎优化(SEO)的技巧,尤其是针对搜索引擎爬虫(也称蜘蛛程序)的引导策略。易语言是一种中文编程语言,它以直观的汉字编程语法为...
泊君多功能搜索引擎蜘蛛模拟器是一款专门用于模拟搜索引擎爬虫行为的工具,它可以帮助用户了解搜索引擎如何抓取和索引网页,以及如何优化网站以提高其在搜索结果中的排名。在这个数字化时代,搜索引擎优化(SEO)...
* 搜索引擎是指通过网络爬虫或蜘蛛来收集、处理和存储网络数据,以便用户快速地检索和获取所需信息的系统。 * 搜索引擎的应用非常广泛,如Google、Bing、Yahoo等都是搜索引擎的典型代表。 二、网络爬虫(Web Spider...
"搜索引擎蜘蛛捕捉asp.net版"这个标题暗示了我们将探讨如何在ASP.NET环境中实现搜索引擎爬虫的功能。 搜索引擎蜘蛛,也称为网络爬虫或Web机器人,是自动遍历互联网并抓取网页的程序。它们是搜索引擎索引网页内容的...