`
izuoyan
  • 浏览: 9223443 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

通过Robots.txt禁止搜索引擎收录的方法

阅读更多
  1. 什么是robots.txt文件?
    搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
    您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

  2. robots.txt文件放在哪里?
    robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站(比如http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
    网站 URL 相应的 robots.txt的 URL
    http://www.w3.org/ http://www.w3.org/robots.txt
    http://www.w3.org:80/ http://www.w3.org:80/robots.txt
    http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
    http://w3.org/ http://w3.org/robots.txt

  3. robots.txt文件的格式
    "robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
    "<field>:<optionalspace><value><optionalspace>"。

    在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

    User-agent:
      该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。

    Disallow:
      该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。例如"Disallow:/help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow:/help/"则允许robot访问/help.html,而不能访问/help/index.html。任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

  4. robots.txt文件用法举例
    例1. 禁止所有搜索引擎访问网站的任何部分 User-agent: *
    Disallow: /
    例2. 允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt" file) User-agent: *
    Disallow:
    例3. 禁止某个搜索引擎的访问 User-agent: BadBot
    Disallow: /
    例4. 允许某个搜索引擎的访问 User-agent: baiduspider
    Disallow:


    User-agent: *
    Disallow: /
    例5.一个简单例子
      在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
      需要注意的是对每一个目录必须分开声明,而不要写成 "Disallow: /cgi-bin/ /tmp/"。
      User-agent:后的*具有特殊的含义,代表"any robot",所以在该文件中不能有"Disallow: /tmp/*" or "Disallow:*.gif"这样的记录出现.
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /~joe/

  5. robots.txt文件参考资料
    robots.txt文件的更具体设置,请参看以下链接:
    · Web Server Administrator's Guide to the Robots Exclusion Protocol
    · HTML Author's Guide to the Robots Exclusion Protocol
    · The original 1994 protocol description, as currently deployed
    · The revised Internet-Draft specification, which is not yet completed or implemented
<!--End-->
分享到:
评论

相关推荐

    搜索蜘蛛:什么是robots.txt,要怎么写?

    这样做可以防止管理后台被搜索引擎收录,提高安全性。 2. **排除非重要内容**: ```txt User-agent: * Disallow: /old/ Disallow: /news/archives/ ``` 例如,可以将过时的新闻归档等非关键内容从索引中排除...

    如何写robots.txt?

    为了更好地控制哪些页面被搜索引擎收录,哪些页面不被收录,就需要用到一个非常重要的文件——robots.txt。这个文件能够帮助网站管理员有效地管理搜索引擎对网站的抓取行为。 #### robots.txt简介 robots.txt是一...

    robots写法.txt

    通过合理设置 `robots.txt` 文件,可以帮助网站管理者更好地控制网站内容被搜索引擎收录的方式与范围。 #### 二、基本语法 `robots.txt` 文件主要包含以下几种指令: - **User-agent**:指定该规则适用于哪个或...

    robots.txt在SEO中作用

    1. **谨慎使用**:误用或过度使用`Disallow`可能导致重要页面不被搜索引擎收录,影响SEO。 2. **定期检查**:确保robots.txt文件始终保持最新,避免误封重要页面。 3. **非强制性**:不是所有搜索引擎都遵循robots....

    如何写robots,robots.txt是一个纯文本文件

    对于网站管理员来说,正确设置 `robots.txt` 文件至关重要,因为它能帮助控制搜索引擎收录的内容,保护隐私信息,以及优化网站的SEO表现。 **基本结构与语法** `robots.txt` 文件通常包含以下两个主要部分: 1. *...

    帝国CMS中robots.txt文件用法

    3. **百度官方建议**:只有当网站包含不想被搜索引擎收录的内容时,才需要创建`robots.txt`文件。如果希望所有内容都能被搜索引擎索引,就不需要创建此文件。 总之,正确理解和使用帝国CMS中的`robots.txt`文件,...

    一个经典的zencart的robots.txt的写法

    `/product_reviews_write.html`, `/tell_a_friend.html`: 这些都是用户登录、隐私政策、联系方式等敏感页面,通常不需要被搜索引擎收录。 4. **动态URL禁止访问**: - `/index.php?main_page=*`: 这类动态URL通常...

    Robots 限制搜索引擎蜘蛛抓取哪些文件

    5. **注意事项**:误配置的robots.txt可能导致重要的网页无法被搜索引擎收录,或者暴露敏感信息。因此,定期检查和测试robots.txt是非常必要的。 6. **搜索引擎的尊重程度**:虽然大多数搜索引擎都会遵守robots.txt...

    SEO技术,如何禁止搜索引擎百度收录你的网页,指定禁止百度爬蜘蛛访问的网站目录路径.zip

    总的来说,禁止搜索引擎收录特定网页或目录主要依赖于`robots.txt`文件的使用。正确配置这个文件可以有效地防止百度等搜索引擎爬虫访问您不想公开的部分,从而保护您的隐私和信息安全。然而,为了更全面的保护,网站...

    robots文件.docx

    要禁止搜索引擎追踪网页上的链接,但允许对网页本身进行索引,可以使用 `meta` 标签 `name=robots content=nofollow`。若只想针对百度阻止追踪,可以使用 `name=Baiduspider content=nofollow`。对于特定链接的控制...

    屏蔽一切搜索引擎的robots

    3. **法律要求**:某些情况下,根据法律法规的要求,网站可能需要暂时不被搜索引擎收录。 #### 四、实现方式 要屏蔽所有搜索引擎的爬虫,只需在网站根目录下创建一个`robots.txt`文件,并按照以下格式编写内容即可...

    如何禁止网站内容被搜索引擎收录的几种方法讲解

    通常做网站的目标就是让搜索引擎收录,扩大推广面,...第一种、robots.txt方法 搜索引擎默认的遵守robots.txt协议(不排除某些耍流氓的引擎),创建robots.txt文本文件放至网站根目录下,编辑代码如下: User-agent: *

    搜索引擎原理

    ### 搜索引擎原理详解 #### 一、搜索引擎与搜索机器人 搜索引擎是互联网上提供信息查询服务的一种工具,它通过特定的...正确的理解和应用这些技术可以帮助网站更好地被搜索引擎收录和排名,从而提升其在线可见度。

    robots使用例子

    它通过一个名为`robots.txt`的纯文本文件来定义网站哪些部分允许被搜索引擎收录,哪些部分禁止收录。这对于网站管理员来说非常重要,因为可以通过这一协议控制网站内容在搜索引擎中的展现形式。 #### 二、Robots....

    网站不收录代码

    要禁止搜索引擎访问某些特定目录,比如 `/cgi-bin/`, `/tmp/` 和 `/~joe/`,每个目录需要单独列出: ``` User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ ``` 除了基本的 `Disallow` ...

    PHP版网站百度谷歌所有搜索引擎蜘蛛查看器

    robots.txt是网站告诉爬虫哪些页面可以抓取,哪些禁止抓取的规则文件。该PHP脚本可能用于检查或更新网站的robots.txt设置,以适应SEO需求。 5. **del.php**:根据命名推测,这可能是一个删除功能的PHP文件,用于...

    WEB开发必备知识,SEO优化,让搜索引擎收录你的网站

    - **Robots.txt**:编写并更新robots.txt文件,告诉搜索引擎哪些页面可以抓取,哪些禁止抓取。 - **URL结构**:简洁、有意义的URL结构易于理解和抓取。 4. **百度收录指南**: - **百度站长平台**:注册并验证...

    Robots是什么意思.docx

    在网站中,Robots 协议是一个记事本文件,我们只要将 Robots.txt 文件放置在网站跟目录,里边可以标注,哪些网站目录不希望被搜索引擎抓取即可,其格式如下图所示: 知识点6:Robots 协议的案例 百度为什么称 360 ...

    搜索引擎营销-为什么百度快照会倒退.docx

    4. **robots.txt文件被修改**:robots.txt文件用于指示搜索引擎哪些页面可以抓取,哪些禁止抓取。如果该文件被误修改,禁止了百度蜘蛛的访问,会导致快照回档。因此,检查并确保robots.txt文件设置正确是必要的。 5...

Global site tag (gtag.js) - Google Analytics