浅谈:如何屏蔽百度谷歌蜘蛛?
方法一、创建robots.txt文本
对于robots.txt文本的相关概念或者是协议我就不提了,主要是直接告诉大家这个文件的写法。
文件应该同时包含2个域,“User-agent:”和“Disallow:”,每条指令独立一行。
(1)User-agent:
指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:
User-agent: Googlebot
只允许Google的蜘蛛抓取;
User-agent: *
允许所有蜘蛛抓取。
注意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。
(2)Disallow:
指定禁止蜘蛛抓取的目录或文件,如:
Disallow: /help.php
禁止抓取根目录下help.php文件;
Disallow: /admin/
禁止抓取根目录下的admin子目录中任何内容;
Disallow:
值为空时,表示不限制,蜘蛛可以抓取站内任何内容。
Disallow: /
禁止了蜘蛛抓取根目录下的所有内容。
如果需要指定多个目录或文件,可以用多个“Disallow: 文件或目录名”来指定,但必须每一项单独一行。
示例:
禁止百度蜘蛛:
User-agent: baiduspider
Disallow: /
禁止谷歌蜘蛛:
User-agent: Googlebot
Disallow: /
禁止所有蜘蛛:
User-agent: *
Disallow: /
方法二、robots Meta标签
robots.txt是放在网站中,文件级的网络蜘蛛授权;而robots Meta标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。
Meta robots标签必须放在<head>和</head>之间,格式:
<meta name=”robots” content=”index,follow” />
content中的值决定允许抓取的类型,必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。共有4个参数可选,组成4个组合:
index,follow:允许抓取本页,允许跟踪链接。
index,nofollow:允许抓取本页,但禁止跟踪链接。
noindex,follow:禁止抓取本页,但允许跟踪链接。
noindex,nofllow:禁止抓取本页,同时禁止跟踪本页中的链接。
以上1和4还有另一种写法:
index,follow可以写成all,如:
<meta name=”robots” content=”all” />
noindex,nofollow可以写成none,如:
<meta name=”robots” content=”none” />
需要注意的是,robots Meta标签很多搜索引擎是不支持的,只有少数搜索引擎能够识别并按给定的值抓取。所以,尽可能的使用robots.txt文件来限制抓取。 http://www.020bdf.com
分享到:
相关推荐
在这个特定的场景中,我们讨论的是一个针对 Destoon 7.0 的蜘蛛访问统计插件,主要关注搜索引擎爬虫的活动情况,如百度蜘蛛、搜狗蜘蛛、360蜘蛛和谷歌蜘蛛。 SEO(搜索引擎优化)是网站运营中的关键部分,通过优化...
标题中的“适用于asp/html/动态静态网站百度谷歌所有搜索引擎蜘蛛查看器”指的是一个工具或软件,它被设计用于监测和分析来自不同搜索引擎如百度和谷歌的网络爬虫(也称作蜘蛛)对ASP(Active Server Pages)和HTML...
【PHP版网站百度谷歌所有搜索引擎蜘蛛查看器】是一款专门针对网站搜索引擎优化(SEO)而设计的工具,主要用于监测和分析网站被搜索引擎蜘蛛抓取的情况。这个工具能够帮助网站管理员了解哪些搜索引擎的爬虫(蜘蛛)...
### 禁止搜索引擎/蜘蛛抓取的规则文件:robots.txt模板详解 #### 一、概述 `robots.txt` 文件是网站与网络爬虫(包括搜索引擎蜘蛛)之间的一种通信方式,用于告诉爬虫哪些页面可以抓取,哪些页面不可以抓取。通过...
更新频率与蜘蛛抓取频率的关系 网站内容的更新频率与搜索引擎蜘蛛的抓取频率密切相关。通常情况下,更新频率较高的网站会吸引蜘蛛更频繁地访问,以捕捉最新的内容变化。因此,定期更新网站内容不仅有助于提高用户...
- 搜索引擎:如百度、谷歌等,通过爬虫程序抓取互联网上的网页,建立索引,并根据一定的算法对搜索结果进行排序。 - 爬虫:也称为蜘蛛或机器人,是搜索引擎用来自动抓取网页的程序。 - SEO策略:包括关键词优化、...
1. **模拟爬取**:该插件能够模拟多种搜索引擎的爬虫,如百度、谷歌、360等,对网站进行全面爬取,分析爬取过程中可能遇到的问题。 2. **抓取日志分析**:记录并分析爬虫访问网站的轨迹,包括哪些页面被成功抓取,...
在压缩包中的文件"要想不让google找到你网站保密内容,得在网站根目录下设置robots.txt文件,让保密的目录不让蜘蛛来爬.txt"中,提到了创建和使用`robots.txt`文件的方法。以下是创建这样一个文件的基本步骤: 1. ...
"DEDE各大蜘蛛爬行记录插件"是针对DEDE系统设计的一款辅助工具,主要目的是帮助网站管理员监控和分析搜索引擎蜘蛛(如百度、谷歌、搜狗等)对网站的抓取情况。 此插件的核心功能包括: 1. **爬行日志记录**:插件...
1. **爬虫识别**:能够识别出访问网站的不同类型的爬虫,如百度、谷歌、Bing等,通过分析HTTP请求头中的User-Agent字段,识别出不同搜索引擎的爬虫。 2. **爬行频率分析**:记录并分析爬虫访问网站的频率,了解爬虫...
在"ASP源码—记录百度 GG 蜘蛛访问痕迹 v1.0.zip"这个压缩包中,我们可以推测它包含了一个ASP源代码项目,其主要功能是记录搜索引擎爬虫,特别是百度和Google(通常简称为GG)的蜘蛛对网站的访问行为。 在ASP编程中...
这个插件目前支持的主要搜索引擎包括百度、谷歌、搜狗、360搜索以及必应,能够帮助网站管理员了解这些搜索引擎的爬虫何时访问了网站,抓取了哪些页面,从而优化网站的SEO策略。 苹果CMS是一款开源的内容管理系统,...
这款插件是针对百度搜索引擎优化(SEO)的一款工具,它能够帮助网站管理员更快地向百度提交新内容或者更新内容的通知,从而加速百度蜘蛛对网页的抓取,提升网站的收录速度。 **一、百度PING服务原理** 百度PING...
搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 因为知识兴趣爱好,不是程序员的原因,修改程序花费不少精力,让大家见笑了。 此程序...
网站搜索引擎蜘蛛爬虫日志分析是一项关键的SEO(搜索引擎优化)技术,它涉及到对网站访问记录的深入理解和解析,以了解搜索引擎如何与你的网站互动。本文将深入探讨这个主题,帮助你理解爬虫的工作原理、如何分析...
标题中的“织梦蜘蛛爬行痕迹记录工具”指的是一个针对织梦(DedeCMS)内容管理系统设计的工具,用于追踪和记录搜索引擎蜘蛛(如百度、谷歌等)在网站上的活动轨迹。织梦(DedeCMS)是一个广泛使用的开源CMS,帮助...
搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 因为知识兴趣爱好,不是程序员的原因,修改程序花费不少精力,让大家见笑了。 此程序你...
5. **百度喜欢**:在中国市场,百度是主要的搜索引擎,其算法与Google等国际搜索引擎有所不同。该程序可能特别针对百度的算法进行了优化,比如重视Baidu Spider的行为和偏好。 6. **标签优化**:正确的使用标题标签...
当蜘蛛抓取网页时,服务器会记录这些请求,包括请求的URL、时间戳、状态码(如200表示成功,404表示未找到)等信息。这些数据经过分析,可以揭示哪些页面被频繁访问,哪些页面可能存在问题,比如加载速度慢或者链接...
本程序支持的搜索引擎蜘蛛跟踪记录主要有百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 安装使用说明: 您的域名/zhizhu/install 填写相应的配置信息即可自动完成安...