在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。
robots.txt基本介绍
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
robots.txt写作语法
首先,我们来看一个robots.txt范例:
robots.txt
访问以上具体地址,我们可以看到robots.txt的具体内容如下:
# Robots.txt file from http://www.heremore.cn
# All robots will spider the domain
User-agent: *
Disallow:
以上文本表达的意思是允许所有的搜索机器人访问
www.heremore.cn站点下的所有文件。
具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。
下面,我将列举一些robots.txt的具体用法:
允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file
禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
只允许某个搜索引擎的访问(下例中的Crawler)
User-agent: Crawler
Disallow:
User-agent: *
Disallow: /
另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:
Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots META标签的写法:
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
其中
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
<META NAME="googlebot" CONTENT="index,follow,noarchive">
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。
分享到:
相关推荐
### 搜索蜘蛛:什么是robots.txt,要怎么写? 在探讨如何编写`robots.txt`之前,我们首先需要了解这个文件的基本概念及其在网站管理和搜索引擎优化(SEO)中的作用。`robots.txt`是一个放置在网站根目录下的文本...
5. **注释**: 在文件中添加注释可以帮助其他管理员理解robots.txt中的设置。 - 示例:`# 这是一个注释` #### 示例解析 假设我们有一个网站http://www.seovip.cn/,并且想要阻止所有爬虫访问网站的根目录以及特定...
通过合理设置 `robots.txt` 文件,可以帮助网站管理者更好地控制网站内容被搜索引擎收录的方式与范围。 #### 二、基本语法 `robots.txt` 文件主要包含以下几种指令: - **User-agent**:指定该规则适用于哪个或...
针对这个需求,Vuepress 提供了一个插件——"用来生成robotstxt文件的Vuepress插件",用于自动化生成 `robots.txt` 文件,以确保网站的SEO优化和隐私保护。 这个插件的使用主要是为了方便 Vuepress 用户自定义他们...
在帝国CMS中,`robots.txt`文件是一个至关重要的元素,它用于指导搜索引擎爬虫如何抓取网站的内容。本文将详细探讨`robots.txt`文件的原理、作用以及在帝国CMS中的具体应用。 **robots协议的原理** `robots协议`,...
这段代码会检查请求路径是否为`/robots.txt`,如果是,则返回一个基本的robots.txt内容,允许所有爬虫访问`/about`页面,但禁止访问`/admin`页面。如果请求路径不是`/robots.txt`,则调用`next()`函数继续处理其他...
百度爬虫同样遵循robots.txt协议,所以通过设置User-agent为“Baiduspider”,可以专门控制百度爬虫的抓取行为。 ```text User-agent: Baiduspider Disallow: /baidu_only/ ``` 以上代码禁止百度爬虫访问`/baidu_...
4. **设置规则**:在`config/robotstxt.php`配置文件中,你可以根据环境(如`production`、`development`等)定义一组规则。规则包括允许(`User-agent: *`)和禁止(`Disallow: /`)爬虫访问特定路径。 5. **...
1. **自动生成**:插件能根据网站的结构和设置,自动生成robots.txt文件,避免手动编写时可能出现的错误。 2. **权限控制**:允许用户指定哪些目录或页面对搜索引擎开放,哪些进行屏蔽。例如,可以隐藏后台管理页面...
通过合理设置 `robots.txt` 文件,可以有效地控制网站内容的曝光度,保护隐私信息,同时也有助于优化搜索引擎的索引效率。 #### 二、文件结构与语法 `robots.txt` 文件的格式非常简单,主要包括两个关键字:`User-...
标题中的“自动为您的站点创建robots.txt的Gatsby插件”指的是一个专为Gatsby构建的JavaScript插件,它的主要功能是自动生成`robots.txt`文件。`robots.txt`文件对于任何网站来说都是至关重要的,它告诉搜索引擎爬虫...
对于网站管理员来说,正确设置 `robots.txt` 文件至关重要,因为它能帮助控制搜索引擎收录的内容,保护隐私信息,以及优化网站的SEO表现。 **基本结构与语法** `robots.txt` 文件通常包含以下两个主要部分: 1. *...
下面我们将通过一个具体的例子来详细了解ZenCart `robots.txt`文件中的各项设置: ```plaintext User-agent: * Disallow: /cache/ Disallow: /contrib/ Disallow: /docs/ Disallow: /extras/ Disallow: /htmlarea/ ...
在视图文件中,你可以使用`@robotstxt`指令来输出这些元标签,它们会根据你为路由定义的规则自动调整内容。 ```blade <!DOCTYPE html> <meta name="robots" content="{{ \Spatie\Robots\Facades\Robots::tags...
在本文中,我们将详细探讨如何在Nginx服务器配置中关闭对`favicon.ico`和`robots.txt`的错误日志记录,以及如何阻止对隐藏文件的访问。这有助于优化服务器性能,避免不必要的资源消耗。 首先,让我们了解`favicon....
这对于SEO(搜索引擎优化)至关重要,因为合理的robots.txt设置可以帮助网站更好地被搜索引擎收录,提高可见性和排名。 **1. 什么是 robots.txt?** - **定义**:robots.txt 是一种标准文件,用于告诉网络爬虫哪些...
4. 设置完成后,点击“保存”按钮,插件会自动生成符合你设置的robots.txt文件,并将其上传到网站根目录下。 5. 为了验证效果,你可以直接在浏览器中输入"http://你的域名/robots.txt"查看生成的文件内容,也可以...
dokku robots.txt 为应用程序创建 ,可以将其设置为允许或禁止对该应用程序进行网络抓取。 这对于部署您不希望被搜索引擎索引的网站很有用。 例如,您可能想部署一个允许使用机械手的生产应用程序,以及一个不允许...
即使在 `robots.txt` 中设置禁止某个搜索引擎抓取的规则,如果其他网站有链接指向这些页面,这些页面仍可能出现在搜索引擎的搜索结果中。不过,页面内容不会被展示,仅显示其他网站对这些页面的描述。 4. **控制...
Nuxt.js模块,该模块注入了中间件以生成robots.txt文件 设置 将@nuxtjs/robots依赖项添加到您的项目中 yarn add @nuxtjs/robots # or npm install @nuxtjs/robots 添加@nuxtjs/robots的modules的部分nuxt.config....