`
zfsgz
  • 浏览: 8379 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

robots 设置(zz)

阅读更多

在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。


robots.txt基本介绍

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt写作语法

首先,我们来看一个robots.txt范例:robots.txt

访问以上具体地址,我们可以看到robots.txt的具体内容如下:

# Robots.txt file from http://www.heremore.cn
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问www.heremore.cn 站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

下面,我将列举一些robots.txt的具体用法:

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 "/robots.txt" file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以 限制GOOGLE是否保留网页快照。例如:

<META NAME="googlebot" CONTENT="index,follow,noarchive">

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

 

来源:http://jasonjar.iteye.com/blog/538785

分享到:
评论

相关推荐

    Laravel开发-robots

    在`routes/web.php`中,为`/robots.txt`路径设置中间件,确保只有当这个路由被请求时,才会执行中间件逻辑。 ```php Route::get('robots.txt', ['middleware' => 'generateRobots', function () { return ...

    易优cms robots文件生成器插件.zip

    1. **自动生成**:插件能根据网站的结构和设置,自动生成robots.txt文件,避免手动编写时可能出现的错误。 2. **权限控制**:允许用户指定哪些目录或页面对搜索引擎开放,哪些进行屏蔽。例如,可以隐藏后台管理页面...

    如何写robots教程

    robots.txt是一个重要的文本文件,它告诉搜索引擎哪些页面可以被爬取,哪些禁止访问。这篇教程将深入探讨如何编写有效的robots.txt,以便优化你的网站SEO并保护敏感信息。 首先,了解robots.txt的基础结构至关重要...

    如何写robots.txt?

    5. **注释**: 在文件中添加注释可以帮助其他管理员理解robots.txt中的设置。 - 示例:`# 这是一个注释` #### 示例解析 假设我们有一个网站http://www.seovip.cn/,并且想要阻止所有爬虫访问网站的根目录以及特定...

    Universal-Robots CB2_Universal-Robots_

    1. **文件管理**:解释如何在CB2机器人的操作系统中创建、打开、编辑、保存和删除文件,这些文件可能包含程序、配置设置或数据记录。 2. **程序存储**:说明如何保存和加载机器人程序,这在调试、备份或切换不同...

    robots写法.txt

    通过合理设置 `robots.txt` 文件,可以帮助网站管理者更好地控制网站内容被搜索引擎收录的方式与范围。 #### 二、基本语法 `robots.txt` 文件主要包含以下几种指令: - **User-agent**:指定该规则适用于哪个或...

    Laravel开发-robots-sitemap

    我们需要设置一个或多个路由来处理对robots.txt和sitemap.xml的请求。 6. **生成策略**:为了生成robots.txt和sitemap.xml,我们需要定义策略来决定哪些页面应该包含在robots.txt中,哪些URL应该在sitemap.xml中列...

    Laravel开发-laravel-robots-txt

    此外,你还可以设置默认的robots策略,如允许所有或禁止所有。 然后,在`app/Providers/AppServiceProvider.php`的`boot`方法中,引入并注册`RobotsMiddleware`中间件。这使得每次请求时都会检查并生成robots.txt...

    Laravel开发-laravel-robotstxt

    在Laravel项目中,我们通常会为生产环境和开发环境设置不同的`robots.txt`策略。例如,在生产环境中,我们希望搜索引擎抓取所有公开内容以提高可见性;而在开发环境中,由于内容可能不稳定或包含敏感数据,我们可能...

    用来生成robotstxt文件的Vuepress插件

    例如,你可以指定自定义的 `robots.txt` 内容,或者设置特定的规则,如下所示: ```javascript module.exports = { plugins: [ ['robots', { file: 'path/to/robots.txt', // 可选,自定义生成文件路径 ...

    mobile robots

    mobile robots mobile robots mobile robots mobile robots

    robots.txt用法与写法

    robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果...

    易优robots文件生成器插件.zip

    4. 设置完成后,点击“保存”按钮,插件会自动生成符合你设置的robots.txt文件,并将其上传到网站根目录下。 5. 为了验证效果,你可以直接在浏览器中输入"http://你的域名/robots.txt"查看生成的文件内容,也可以...

    网站robots

    网站服务器根目录蜘蛛访问权限,已经设置好了爬行目录robots

    Creating Cool MINDSTORMS NXT Robots

    《Creating Cool MINDSTORMS NXT Robots》是一本由Daniele Benedettelli编写的经典LEGO书籍,该书于2008年出版。Daniele Benedettelli是一位著名的LEGO爱好者和工程师,他在书中分享了如何利用LEGO MINDSTORMS NXT...

    robots.txt解析器_Ruby_下载.zip

    在IT行业中,`robots.txt` 文件是一个非常重要的概念,它被用来指导网络爬虫如何抓取网站内容。这个压缩包“robots.txt解析器_Ruby_下载.zip”显然包含了一个使用Ruby编程语言编写的用于解析`robots.txt`文件的工具...

    Simultaneous Localization and Mapping for Mobile Robots

    Simultaneous Localization and Mapping for Mobile Robots: Introduction and Methods Simultaneous Localization and Mapping for Mobile Robots: Introduction and Methods

    Introduction to Autonomous Mobile Robots

    1. 自主移动机器人简介:文档开头提到了“Introduction to Autonomous Mobile Robots”,即自主移动机器人的介绍,这是本书的主题。自主移动机器人(Autonomous Mobile Robots)是能够独立进行导航、移动,并完成...

Global site tag (gtag.js) - Google Analytics