robots.txt是个很简单的文本文件,您只要标明“谁不能访问哪些链接”即可。
在文件的第一行写:
User-Agent: YodaoBot
这就告诉了爬虫下面的描述是针对名叫YodaoBot的爬虫。您还可以写:
User-Agent: *
这就意味着向所有的爬虫开放。需要注意的是一个robots.txt文件里只能有一个"User-Agent: *"。
接下来是不希望被访问的链接前缀。例如:
Disallow: /private
这就告诉爬虫不要抓取以"/private"开头的所有链接。包括/private.html,/private/some.html,/private/some/haha.html。如果您写成:
Disallow: /
则表明整个站点都不希望被访问。您也可以分多行来指定不希望被抓取的链接前缀,例如:
Disallow: /tmp
Disallow: /disallow
那么所有以"/tmp"和"/disallow"开头的链接都不会被访问了。
最后形成的robots.txt文件如下:
User-Agent: YodaoBot
Disallow: /tmp
Disallow: /private
下面是一个访问一个博客的robots.txt文件的内容:
User-agent: *
Allow:/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category
Disallow: /author
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /alipay
Disallow: /archives
Disallow: /bbs/read.php
Disallow: /bbs/forumcp.php
Disallow: /bbs/u.php
Disallow: /bbs/search.php
Disallow: /bbs/apps.php
Disallow: /bbs/admin.php
Disallow: /bbs/message.php
Disallow: /bbs/profile.php
Disallow: /bbs/login.php
Disallow: /bbs/new.php
Disallow: /bbs/job.php
Disallow: /bbs/simple
Disallow: /bbs/wap
Disallow: /bbs/admin
如果robots.txt文件配置不当,让好多网站失去被搜索引擎收录良机;在 国外有一个的检查robots.txt文件合法性的在线验证工具,其地址是:http://tool.motoricerca.info/robots-checker.phtml。不过要注意,使用这个工具,请把robots.txt里的汉字注释清除,它识别不了汉字;如果有汉字在里面的话,它就不认为这是一个robots.txt文件了。
如果robots文件验证通过的话,一般会显示以下结果:
Analyzing file http://www.XXX.org/robots.txt
No errors found in this robots.txt file
Hide empty and comments lines:
The following block of code DISALLOWS the crawling of the following files and directories: /inc/ to all spiders/robots.
Line 1 # robots.txt for www.gz-kongtiao.cn
Line 2 User-agent: *
Line 3 Disallow: /inc/
另外,Google网站管理员工具也可以在线验证robots文件,google是支持中文注释的。要分析网站的 robots.txt 文件,请按以下步骤操作:
(1)使用 Google 帐户登录 Google 网站管理员工具。
(2)在"控制台"中,点击所需网站的网址。
(3)点击工具,然后点击分析 robots.txt。
分享到:
相关推荐
nopCommerce 插件来管理 robots.txt 文件。 安装 从下载最新的 nopCommerce 源代码,如果您已有 nopCommerce 源代码,则跳过此步骤。 下载插件源代码。 将 Nop.Plugin.Misc.CustomRobotsTxt 文件夹复制到 ...
搜索引擎爬虫管理插件(RobotsMng)是一款可以帮助新手管理你的Robots.txt文件的插件,如果你还不知道什么是Robots.txt请百度一下先。写这个插件的初衷在于帮助不懂Robots.txt写作规范和语法的同学们,通过这个插件,...
插件简介:搜索引擎爬虫管理插件(RobotsMng)是一款可以帮助新手管理你的Robots.txt文件的插件,如果你还不知道什么是Robots.txt请百度一下先。写这个插件的初衷在于帮助不懂Robots.txt写作规范和语法的同学们,通过...
3. **设置robots.txt**:在完成以上步骤后,需要更新您网站的robots.txt文件。这是一个文本文件,用于告诉搜索引擎哪些页面可以抓取,哪些不可以。在robots.txt文件中,您可以添加禁止搜索引擎抓取特定页面的规则,...
4. robots.txt协议:文档提到了robots.txt文件以及爬虫对它的处理方式。robots.txt是位于网站根目录下的一个文件,用于告知爬虫哪些页面可以抓取,哪些不可以。代码中涉及到了解析robots.txt文件,以及基于其中定义...
该文件可以通过互联网访问,例如,如果您的网站地址是http://xuexuexi.com/,那么,该文件可以通过http://xuexuexi.com/robots.txt访问。 二、Robots协议的格式 Robots协议的格式主要包括两个部分:User-agent和...
5. **文档和说明**:`说明.htm`、`下载说明.txt`和`robots.txt`等文件提供了关于如何使用和维护网站的指南,`robots.txt`则告诉搜索引擎哪些页面可以抓取,哪些应被禁止。 6. **其他辅助文件**:`robots.txt`是网站...
`模板使用说明.txt`提供了关于如何安装和使用这个模板的指南。用户可以通过阅读这份文档了解如何将模板导入到他们的PHP环境中,以及如何自定义模板的颜色、字体、布局等设置。 `robots.txt`是一个重要的文件,它...
robots.txt文件告诉搜索引擎哪些页面可以抓取,哪些不能,而sitemap.xml则帮助搜索引擎更好地索引网站内容。 五、文件结构解析 - `web.config`:ASP.NET应用程序的配置文件。 - `.htaccess`:Apache服务器的配置...
在抓取过程中,程序可能会遵循robots.txt文件的规则,这是一个网站管理员用来告诉爬虫哪些页面可以抓取,哪些不能。此外,它可能还会排除重复的链接,确保网站地图的准确性和效率。 "软件说明.txt"文件通常包含了...
4. **robots.txt禁止**:网站的robots.txt文件明确禁止了爬虫或某些URL的访问。 5. **过于频繁的请求**:服务器认为请求过于频繁,可能是为了防止DDoS攻击。 对于上述情况,GoHTTP库可以提供以下解决方案: 1. **...
robots.txt文件是网站的搜索引擎优化(SEO)的一部分,它告诉搜索引擎哪些页面可以抓取,哪些不能。.txt文件可能是一个文本文件,可能包含了额外的说明或注释。织梦CMS整站源码通用安装说明.url可能是指向织梦内容...
【标题】"PHP易优乐器古筝书画培训类网站源码.zip" ...同时,`.htaccess`和`robots.txt`等文件的设置对于优化网站的搜索引擎表现和安全性也起着关键作用。在实际使用前,需按照`说明.htm`中的指示进行正确安装和配置。
2. `说明.htm`:通常包含项目的基本介绍、使用指南或安装步骤。 3. `favicon.ico`:网站的图标,显示在浏览器地址栏和收藏夹中,增强网站的识别度。 4. `login.php`:用户登录页面的PHP脚本,处理用户登录请求,验证...
这个页面通常包含一些与robots.txt文件相关的信息,以及一些关于浏览器如何遵循和处理robots.txt规则的说明。robots.txt文件是网站服务器根目录下的一个纯文本文件,它告诉网络爬虫哪些目录或页面可以被爬取,哪些应...
6. `robots.txt`:这个文件告诉搜索引擎哪些页面可以抓取,哪些禁止抓取,对SEO策略有直接影响。 7. `新手必读.url`:这可能是一个链接文件,指向新用户需要阅读的重要文档或教程。 8. `sitemap.xml`:站点地图...
【标题】"PHP易优游戏竞技公司网站源码"指的是基于PHP编程语言开发...`.htaccess`和`robots.txt`则帮助优化网站的SEO和安全性。对于熟悉PHP和Web开发的人员来说,这个源码提供了一个快速搭建和定制游戏竞技网站的基础。
“织梦CMS整站源码通用安装说明.url”表明这个项目可能基于织梦内容管理系统(DedeCMS)。织梦CMS是一款广泛使用的开源PHP CMS,它提供了一个便捷的方式来构建和管理网站内容。安装说明通常会引导用户进行数据库配置...
5. **新手必读.url**:这可能是一个链接文件,指向一份新手指南或者使用说明文档,帮助用户理解如何安装和使用这个网站模板。 6. **sitemap.xml**:站点地图文件,列出网站的所有页面,方便搜索引擎爬虫理解和索引...