今天看一本关于爬虫的书,直到了关于robots.txt的约定。
Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
目前所有的搜索引擎都遵循robots.txt的规则。
一.robots.txt的语法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC整个目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片robots.txt文件用法举例
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2. 禁止某个搜索引擎的访问 User-agent: BadBot
Disallow: /
二.用robots.txt的好处
1. 用robots屏蔽网站重复页
很多网站一个内容提供多种浏览版本,虽然很方便用户却对蜘蛛造成了困难,因为它分不清那个是主,那个是次,一旦让它认为你在恶意重复,兄弟你就惨了
User-agent: *
Disallow: /sitemap/ 《禁止蜘蛛抓取 文本网页》
2. 用robots保护网站安全
很多人纳闷了,robots怎么还和网站安全有关系了?其实关系还很大,不少低级黑客就是通过搜索默认后台登陆,以达到入侵网站的目标
User-agent: *
Disallow: /admin/ 《禁止蜘蛛抓取admin目录下所有文件》
3. 防止盗链
一般盗链也就几个人,可是一旦被搜索引擎“盗链”那家伙你100M宽带也吃不消,如果你做的不是图片网站,又不想被搜索引擎“盗链”你的网站图片
User-agent: *
Disallow: .jpg$
4. 提交网站地图
现在做优化的都知道做网站地图了,可是却没几个会提交的,绝大多数人是干脆在网页上加个链接,其实robots是支持这个功能的
Sitemap: http://www.010wangzhanyouhua.com/sitemaps/sitemaps_1.xml
5. 禁止某二级域名的抓取
一些网站会对VIP会员提供一些特殊服务,却又不想这个服务被搜索引擎检索到
User-agent: *
Disallow: /
分享到:
相关推荐
在探讨如何通过robots.txt文件来优化网站之前,我们首先需要了解什么是robots.txt以及它在搜索引擎优化(SEO)中的作用。 **robots.txt**是一种文本文件,用于指示网络爬虫(如搜索引擎机器人)哪些页面或文件应被...
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果...
在探讨如何编写`robots.txt`之前,我们首先需要了解这个文件的基本概念及其在网站管理和搜索引擎优化(SEO)中的作用。`robots.txt`是一个放置在网站根目录下的文本文件,用于告诉网络爬虫(也称为搜索引擎机器人或...
1. **定义**:`robots.txt`是网站服务器根目录下的一个纯文本文件,用于告知搜索引擎哪些页面可以抓取,哪些禁止抓取。这有助于保护网站隐私,控制搜索引擎流量,并优化网站的SEO(搜索引擎优化)。 2. **结构**:`...
为了更好地控制哪些页面被搜索引擎收录,哪些页面不被收录,就需要用到一个非常重要的文件——robots.txt。这个文件能够帮助网站管理员有效地管理搜索引擎对网站的抓取行为。 #### robots.txt简介 robots.txt是一...
本文将深入探讨robots.txt的工作原理、重要性以及如何编写有效的robots.txt规则,以优化搜索引擎优化(SEO)策略。 ### 一、robots.txt基础 robots.txt是基于文本的文件,通常放置在网站的根目录下(例如:`...
### robots.txt 文件详解 #### 一、概述 ...总之,通过合理配置 `robots.txt` 文件,不仅可以帮助网站管理员更好地管理网站内容在搜索引擎中的表现,还能有效避免搜索引擎过度抓取导致服务器资源浪费。
在Web开发中,`robots.txt` 文件是网站与搜索引擎爬虫之间的一种通信方式,指示哪些页面可以被爬取,哪些禁止访问。针对这个需求,Vuepress 提供了一个插件——"用来生成robotstxt文件的Vuepress插件",用于自动化...
### 禁止搜索引擎/蜘蛛抓取的规则文件:robots.txt模板详解 #### 一、概述 `robots.txt` 文件是网站与网络爬虫(包括搜索引擎蜘蛛)之间的一种通信方式,用于告诉爬虫哪些页面可以抓取,哪些页面不可以抓取。通过...
robots.txt可以告诉搜索引擎您的网站哪些页面可以被收录,哪些页面不可以被收录,如果您不想让搜索引擎收录您网站的某些内容,请用robots.txt文件指定搜索引擎在您网站上的抓取范围。 此工具本人找了很久,源码...
在帝国CMS中,`robots.txt`文件是一个至关重要的元素,它用于指导搜索引擎爬虫如何抓取网站的内容。本文将详细探讨`robots.txt`文件的原理、作用以及在帝国CMS中的具体应用。 **robots协议的原理** `robots协议`,...
而robots.txt是网站与搜索引擎爬虫之间的一种通信协议,用于指导爬虫哪些页面可以抓取,哪些应该被禁止。 首先,让我们理解`robots.txt`的作用。robots.txt文件位于网站的根目录下,它的主要功能是定义搜索引擎爬虫...
4. **设置规则**:在`config/robotstxt.php`配置文件中,你可以根据环境(如`production`、`development`等)定义一组规则。规则包括允许(`User-agent: *`)和禁止(`Disallow: /`)爬虫访问特定路径。 5. **...
`robots.txt` 是一个用于指示搜索引擎爬虫哪些页面可以抓取,哪些页面禁止抓取的纯文本文件。对于网站管理员来说,正确设置 `robots.txt` 文件至关重要,因为它能帮助控制搜索引擎收录的内容,保护隐私信息,以及...
综上所述,"易优cms robots文件生成器插件"是易优CMS系统中提高SEO效率的重要工具,它简化了robots.txt的管理和维护,对于优化网站的搜索引擎可见性和用户体验有着显著的帮助。通过熟练掌握和使用这款插件,可以更好...
`robots.txt`文件对于任何网站来说都是至关重要的,它告诉搜索引擎爬虫哪些页面可以抓取,哪些应该被禁止。Gatsby是一个基于React的静态站点生成器,它允许开发者快速构建高性能的网页应用。这个插件简化了在Gatsby...
`robots.txt`文件是一种标准的协议文件,用于告诉网络爬虫(如搜索引擎机器人)哪些页面可以抓取、哪些页面不能抓取。这对于网站管理员来说非常重要,因为它可以帮助控制搜索引擎如何索引自己的网站。 #### 一、`...
在视图文件中,你可以使用`@robotstxt`指令来输出这些元标签,它们会根据你为路由定义的规则自动调整内容。 ```blade <!DOCTYPE html> <meta name="robots" content="{{ \Spatie\Robots\Facades\Robots::tags...
在互联网上,`robots.txt` 是一个非常重要的文件,它用于告知搜索引擎爬虫哪些页面可以抓取,哪些页面应被禁止。本篇文章将深入探讨如何使用 Go 语言来实现 `robots.txt` 排除协议。我们将主要关注以下几个关键知识...
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以...