`

第一课:有关Robots.txt文档的编写

    博客分类:
  • SEO
阅读更多

 

robots.txt基本介绍

 

  robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

 

  当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

  另外,robots.txt必须放置在一个站点的根目录 下,而且文件名必须全部小写

 

robots.txt语法

 

  首先,我们来看一个robots.txt范例:

   # Robots.txt file from http://www.seovip.cn
   # All robots will spider the domain

    User-agent: *
    Disallow:

    以上文本表达的意思是允许所有的搜索机器人访问本站点下的所有文件。

     具体语法分析:

             其中#后面文字为说明信息;

            User-agent: 后面为搜索机器人的名称,后面如果是*, 则泛指所有的搜索机器人;

           Disallow: 后面为不允许访问的文件目录。

 

  下面,我将列举一些robots.txt的具体用法:

 

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 "/robots.txt" file

 

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

 

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

 

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot
Disallow: /

 

只允许某个搜索引擎的访问(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

 

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

 

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

 

Robots META标签的写法:

 

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX: 指令告诉搜索机器人抓取该页面;

FOLLOW: 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

NOINDEX :告诉Google不要索引含此标签的网页。但根据实际经验,Google并非100%遵守。
NOFOLLOW :告诉Google不要关注含此标签的网页里的特定链接。这是为了解决链接spam而设计的Meta标签。
NOARCHIVE :告诉Google不要保存含此标签的网页的快照(网页快照就是搜索引擎在收录网页时,都会做一个备份,大多是文本的,保存了这个网页的主要文字内容,这样当这个网页被删除或连接失效时,用户可以使用网页快照来查看这个网页的主要内容,由于这个快照以文本内容为主,所以会加快访问速度。)。
NOSNIPPET :告诉Google不要在搜索结果页的列表里显示含此标签的网站的描述语句,并且不要在列表里显示快照链接。

 

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

 

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

 

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以 限制GOOGLE是否保留网页快照。例如:

<META NAME="googlebot" CONTENT="index,follow,noarchive">

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

分享到:
评论

相关推荐

    搜索蜘蛛:什么是robots.txt,要怎么写?

    ### 搜索蜘蛛:什么是robots.txt,要怎么写? 在探讨如何编写`robots.txt`之前,我们首先需要了解这个文件的基本概念及其在网站管理和...理解并掌握`robots.txt`的编写技巧对于每一位SEO专业人士来说都是非常必要的。

    robots.txt解析器_Ruby_下载.zip

    这个压缩包“robots.txt解析器_Ruby_下载.zip”显然包含了一个使用Ruby编程语言编写的用于解析`robots.txt`文件的工具。让我们深入探讨一下`robots.txt`文件、Ruby编程语言以及解析器的相关知识。 `robots.txt` ...

    搜索引擎机器人文件robots.txt让你的网站得到更好的优化

    **robots.txt**是一种文本文件,用于指示网络爬虫(如搜索引擎机器人)哪些页面或文件应被爬取或忽略。这个文件通常放置在网站的根目录下,并命名为`robots.txt`。正确配置的robots.txt文件可以帮助提高网站的索引...

    robots.txt用法与写法

    robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果...

    robots.js:用于robots.txt的用于node.js的解析器

    robots.js robots.js —是node.js的文件的解析器。 安装 建议通过安装: $ npm install -g robots 用法 这是使用robots.js的示例: var robots = require ( 'robots' ) , parser = new robots . RobotsParser ( ...

    如何写robots.txt?

    ### 如何编写robots.txt文件 在互联网世界里,搜索引擎蜘蛛(也称为爬虫或机器人)是网站流量的重要来源之一。为了更好地控制哪些页面被搜索引擎收录,哪些页面不被收录,就需要用到一个非常重要的文件——robots....

    robots写法.txt

    `robots.txt` 是一个位于网站根目录下的文本文件,用于告诉搜索引擎爬虫哪些页面可以抓取、哪些页面不可以抓取。通过合理设置 `robots.txt` 文件,可以帮助网站管理者更好地控制网站内容被搜索引擎收录的方式与范围...

    一个经典的zencart的robots.txt的写法

    ### 一个经典的ZenCart的robots.txt的写法详解 在探讨经典的ZenCart的`robots.txt`文件之前,我们首先需要了解`robots.txt`的基本概念及其作用。`robots.txt`文件是一种标准的协议文件,用于告诉网络爬虫(如搜索...

    RobotsRider:浏览robots.txt文件并访问不允许的条目,记录结果并显示多汁的URL

    该工具的第一步(1)是搜索有关目标Web中安装的CMS的信息。 这可以通过以下三种方法完成: 在网络中搜索标签“ generator”:它为我们提供CMS名称,有时还提供确切的版本。 在页面中搜索“ Powered By”文本:它为...

    machina-policy:用于robots.txt文件的通用Lisp解析器

    为了方便地查询robots.txt文件以获取有关是否允许特定漫游器访问特定URL的信息。 因此,它的范围比略小:它仅处理robots.txt文件。 特征 machina-policy支持robots.txt文件的以下基本元素: 允许:行 禁止:行 ...

    禁止搜索引擎/蜘蛛抓取的规则文件 robots.txt模板

    - 不同的搜索引擎可能对 `robots.txt` 的解析有所不同,因此最好查阅目标搜索引擎的官方文档。 - 定期检查并更新 `robots.txt` 文件,以适应网站结构的变化或搜索引擎算法的更新。 3. **错误处理**: - 如果发现...

    一个经典的wordpress的robots.txt的写法

    一个经典的wordpress的robots.txt的写法 下载后直接复制就行了 略微调一下也行的 文件来自:www.52jiwai.com 分享时请注明来处!

    用来生成robotstxt文件的Vuepress插件

    在JavaScript开发中,特别是与Vue.js相关的项目,这个插件能够集成到Vuepress的构建流程中,帮助开发者节省手动编辑 `robots.txt` 的时间。 以下是关于这个插件的一些关键知识点: 1. **Vuepress 插件系统**:Vue...

    robots.txt在SEO中作用

    本文将深入探讨robots.txt的工作原理、重要性以及如何编写有效的robots.txt规则,以优化搜索引擎优化(SEO)策略。 ### 一、robots.txt基础 robots.txt是基于文本的文件,通常放置在网站的根目录下(例如:`...

    robots-module:用于robots.txt的NuxtJS模块

    Nuxt.js模块,该模块注入了中间件以生成robots.txt文件 设置 将@nuxtjs/robots依赖项添加到您的项目中 yarn add @nuxtjs/robots # or npm install @nuxtjs/robots 添加@nuxtjs/robots的modules的部分nuxt.config....

    robots.txt使用方法 反爬虫 SEO.zip

    robots.txt使用方法 反爬虫 SEO.zip

    易优cms robots文件生成器插件.zip

    1. **自动生成**:插件能根据网站的结构和设置,自动生成robots.txt文件,避免手动编写时可能出现的错误。 2. **权限控制**:允许用户指定哪些目录或页面对搜索引擎开放,哪些进行屏蔽。例如,可以隐藏后台管理页面...

    Go语言的robots.txt排除协议实现_Go_Shell_下载.zip

    在互联网上,`robots.txt` 是一个非常重要的文件,它用于告知搜索引擎爬虫哪些页面可以抓取,哪些页面应被禁止。本篇文章将深入探讨如何使用 Go 语言来实现 `robots.txt` 排除协议。我们将主要关注以下几个关键知识...

    robots.io:Robots.txt 解析库

    Robots.io 是一个 Java 库,旨在简化网站“robots.txt”文件的解析。 如何使用 类提供了使用 robots.io 的所有功能。 例子 连接 要使用 User-Agent 字符串“test”解析 Google 的 robots.txt: RobotsParser ...

    robots.txt的NuxtJS模块_TypeScript_JavaScript_下载.zip

    这段代码会检查请求路径是否为`/robots.txt`,如果是,则返回一个基本的robots.txt内容,允许所有爬虫访问`/about`页面,但禁止访问`/admin`页面。如果请求路径不是`/robots.txt`,则调用`next()`函数继续处理其他...

Global site tag (gtag.js) - Google Analytics