搜索引擎收录工作主要由搜索引擎蜘蛛来完成,每个主流的搜索引擎都有自己的蜘蛛爬虫,例如: Googlebot(Google蜘蛛)、baiduspider(百度蜘蛛)、Yahoo Slurp(Yahoo蜘蛛)、Msnbot(MSN蜘蛛)、Scooter(Altavista蜘蛛)、Lycos_Spider_(T-Rex) 、FAST-WebCrawler(Alltheweb蜘蛛)、ia_archiver(alexa蜘蛛)Slurp(INKTOMI蜘蛛)等。想做搜索引擎的隐形人,可以通过以下三种方法来实现。
1、rel=nofollow
这种不识别链接的搜索标签,可以告诉搜索引擎蜘蛛直接跳过而不索引。具体的介绍请见“如何做付费链接而不被Google惩罚”,对Google 、Yahoo 、MSN(Live search)有效,对百度无效。
2、robots.txt
只需在你的网站根目录下建一个robots.txt文件,文件中输入:Disallow: 字符串即可,例如:
Disallow:newsunday.html 意思是要求蜘蛛爬虫不要下载该文件,不收录,不索引。
Disallow:/newsunday/ 意思是对newsunday文件夹中的所有文件不收录,不索引,不下载。
如果你想看一个具体的例子,可以看一下Google robots.txt是什么样的。
3、利用代码来实现
这是本文重点介绍的,但首先声明不要将此种用法用于对搜索引擎zuobi方面,不能将其用于违返搜索引擎相关规则、欺骗搜索引擎的用途上。代码实现的效果是,用户在浏览经过代码定义过的内容,正常显示,而搜索引擎蜘蛛抓取时会不显示用户浏览的内容,本文以百度蜘蛛为例:
ASP
$userAgent = Server.GetVariables("HTTP_USER_AGENT");
If Not InStr(LCASE($userAgent), "baiduspider") Then
‘用户正常浏览时所能见到的内容代码
Else
‘搜索引擎蜘蛛能看到的代码及链接
End If
PHP
$userAgent = $_SERVER['HTTP_USER_AGENT'];
if(stristr(strtolower($userAgent), 'baiduspider') === FALSE) {
//用户正常浏览时所能见到的内容
//
}
else {
//搜索引擎蜘蛛能看到的代码及链接
}
JSP
<%
String userAgent = request.getHeader( "User-Agent" );
if(userAgent.toLowerCase().indexOf("baiduspider") != -1) {
//用户正常浏览时所能见到的内容代码
}
else {
//搜索引擎蜘蛛能看到的代码及链接
}
%>
JAVASCRIPT
if(navigator.userAgent.toLowerCase().indexOf("baiduspider") <= -1) {
//用户正常浏览时所能见到的内容
}
else {
//搜索引擎蜘蛛能看到的代码及链接
}
当你看完本文时,也许你会觉得这篇文章中的代码做得没有意义,其实如果你细琢磨一下,能想出不少东西来。具体我就不说了,如果你觉得有用可以收藏下来,如果觉得没有太大用就当了解一点儿搜索引擎的常识吧。
http://blog.tianya.cn/blogger/post_read.asp?BlogID=1783669&PostID=14847578
分享到:
相关推荐
ASP搜索引擎蜘蛛爬行日志生成程序是一个用于监测和记录搜索引擎机器人(也称为“蜘蛛”或“爬虫”)访问网站活动的工具。该程序通过分析HTTP请求,收集关于搜索引擎如何索引和抓取网站信息的数据,这对于SEO(搜索...
搜索引擎蜘蛛访问记录器是一款专门用于监测和记录搜索引擎爬虫活动的工具。在互联网世界中,搜索引擎如百度,通过他们的“蜘蛛”或“爬虫”程序,自动遍历网页以更新索引,提供用户搜索结果。这款工具可以帮助网站...
百度蜘蛛爬行跟踪统计.0版本新增功能:对比1.0版本,我们增加了其它搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,雅虎,Bing搜索引擎蜘蛛,能准确抓取并记录。 为了防止数据库占用空间,同时新增了清空...
Spider是搜索引擎的一个自动程序。它的作用是访问互联网上的...搜索引擎的“蜘蛛”同一天会对某些网站或同一网页进行多次爬行,知道蜘蛛的运动规律,对于更新网页、了解搜索引擎收录的收录情况等等有相当重要的作用。
ASP搜索引擎蜘蛛爬行日志生成程序是一个专门针对ASP(Active Server Pages)开发的工具,用于记录和分析搜索引擎的爬虫活动。在网站优化和搜索引擎优化(SEO)中,理解搜索引擎蜘蛛如何访问和索引网页至关重要。这个...
总之,这个工具是网站优化和搜索引擎友好性提升的重要助手,它集成了ASP技术,可以适应不同的网站环境,通过监控搜索引擎蜘蛛的活动,为网站提供有价值的反馈,帮助提升网站在百度和谷歌等搜索引擎中的可见性。
泊君多功能搜索引擎蜘蛛模拟器是一款专门用于模拟搜索引擎爬虫行为的工具,它可以帮助用户了解搜索引擎如何抓取和索引网页,以及如何优化网站以提高其在搜索结果中的排名。在这个数字化时代,搜索引擎优化(SEO)...
该程序采用ASP编写,使用Access数据库,主要功能是记录常用搜索引擎蜘蛛最近来访时间、IP、来访次数、抓取页面地址。 经过2周的亲自测试,截至2009.8.30,本系统可统计95种蜘蛛。由于搜索引擎抓取网页不抓取JS代码,...
这个软件可以查看搜索引擎的蜘蛛访问记录,根据这些记录可以看到蜘蛛什么时候来访问过你的站,抓取了什么内容。 使用方法: ----插入asp页面调用 ----插入html页面JS调用 bot.mdb 记录数据库 访问 zhizhu.asp ...
在IT行业中,搜索引擎蜘蛛捕捉(也称为网页抓取或网络爬虫)是搜索引擎技术的关键组成部分。这个主题主要涉及如何利用编程语言,如ASP.NET,来创建一个能够模拟搜索引擎爬虫的程序,以便抓取和索引互联网上的网页...
标题 "搜索引擎蜘蛛跟踪器.zip" 暗示了一个用于监测和记录搜索引擎爬虫活动的工具。这个工具的主要目的是帮助网站管理员了解哪些搜索引擎的蜘蛛正在访问他们的网站,以及这些蜘蛛的活动频率和行为模式。让我们详细...
泊君多功能搜索引擎蜘蛛模拟器2.0
对比1.0版本,我们增加了其它搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,雅虎,Bing搜索引擎蜘蛛,能准确抓取并记录。 为了防止数据库占用空间,同时新增了清空数据的功能。 同时增加了搜索引擎蜘蛛...
基于PHP的扎鸟搜索引擎蜘蛛爬行查询(wordpress专用)php版源码.zip 基于PHP的扎鸟搜索引擎蜘蛛爬行查询(wordpress专用)php版源码.zip 基于PHP的扎鸟搜索引擎蜘蛛爬行查询(wordpress专用)php版源码.zip 基于PHP...
本文将深入探讨“最新仿百度搜索引擎,带蜘蛛”这一主题,包括搜索引擎的基本原理、蜘蛛爬虫的工作方式,以及与百度搜索引擎的相似之处。 首先,搜索引擎的核心功能是为用户提供信息检索服务。它通过抓取、索引和...
搜索引擎网络蜘蛛,也被称为网络爬虫或Web抓取器,是互联网上的一种自动化程序,用于遍历和索引网页内容。这些程序对于构建和维护搜索引擎的索引至关重要,因为它们负责发现新的网页、更新现有信息并删除已不存在的...
搜索引擎蜘蛛爬行分析器是一款基于ASP编程语言开发的工具,主要功能是对搜索引擎的爬虫活动进行监测和分析。在SEO(Search Engine Optimization)优化中,理解蜘蛛爬行的行为至关重要,因为这直接影响到网站的索引、...
该程序采用ASP编写,使用Access数据库,主要功能是记录常用搜索引擎蜘蛛最近来访时间、IP、来访次数、抓取页面地址。 经过2周的亲自测试,截至2009.8.30,本系统可统计95种蜘蛛。由于搜索引擎抓取网页不抓取JS代码...