`
fengzl
  • 浏览: 216356 次
  • 性别: Icon_minigender_1
  • 来自: 宁波
社区版块
存档分类
最新评论

使用robots.txt控制搜索引擎抓取

阅读更多
搜索引擎数据库中的所有网页,都是由Robot程序自动抓取收录的。但我们网站上总会有部分私密性数据不希望被搜索引擎抓取,这时候,就需要robots.txt。

  robots.txt 是一个标准文档,意在阻止搜索引擎的Spider(蜘蛛)从您的 Web 服务器下载某些或全部信息,控制Spider的搜索范围。robots.txt的设置很简单,只要用记事本或其他文本编辑器,依照自己的网站需求,设定一系列选项,然后将其上传到网站根目录即可。robots.txt的设置如下:

User-agent: 搜索引擎的spider代号
Disallow: 输入数据夹或文件名的路径

  如设定所有的spider都能够搜索及抓取整个网站。

User-agent: *
Disallow:

  如拒绝Google搜索及抓取整个网站,但允许其它的

User-agent: Googlebot
Disallow:

  如拒绝所有的Spider

User-agent: *
Disallow: /

  如拒绝所有的Spider搜索及抓取protect目录及seo目录下abc.html文件

User-agent: *
Disallow: /protect/
Disallow: /seo/abc.html

  如拒绝google搜索及抓取protect目录及seo目录下abc.html文件,但允许其他的

User-agent: Googlebot
Disallow: /protect/
Disallow: /seo/abc.html

  很简单吧?另有一点请记住,搜索引擎不会立即对robots.txt 文件所作的更改作出反应,必须等到搜索引擎下一次读取该文件。这段时间,依搜索引擎及具体网站情况,从几小时到几天不等。

http://seo.highdiy.com/index.php/seo/view-link-details/
分享到:
评论

相关推荐

    搜索引擎机器人文件robots.txt让你的网站得到更好的优化

    3. **避免过度使用**:虽然robots.txt可以用来隐藏某些页面,但过度使用可能会导致搜索引擎无法索引重要的内容。建议仅对确实需要保护的页面进行限制。 4. **结合使用其他方法**:例如,使用元标签(如`noindex`和`...

    搜索蜘蛛:什么是robots.txt,要怎么写?

    - **控制爬虫行为**:通过`robots.txt`文件,网站管理员可以指定不允许爬虫访问的URL,从而保护敏感信息或限制搜索引擎抓取某些特定页面。 - **提高索引效率**:通过合理设置,可以使搜索引擎更高效地抓取网站的重要...

    robots.txt解析器_Ruby_下载.zip

    1. **定义**:`robots.txt`是网站服务器根目录下的一个纯文本文件,用于告知搜索引擎哪些页面可以抓取,哪些禁止抓取。这有助于保护网站隐私,控制搜索引擎流量,并优化网站的SEO(搜索引擎优化)。 2. **结构**:`...

    如何写robots.txt?

    为了更好地控制哪些页面被搜索引擎收录,哪些页面不被收录,就需要用到一个非常重要的文件——robots.txt。这个文件能够帮助网站管理员有效地管理搜索引擎对网站的抓取行为。 #### robots.txt简介 robots.txt是一...

    禁止搜索引擎/蜘蛛抓取的规则文件 robots.txt模板

    ### 禁止搜索引擎/蜘蛛抓取的规则文件:robots.txt模板详解 #### 一、概述 `robots.txt` 文件是网站与网络爬虫(包括搜索引擎蜘蛛)之间的一种通信方式,用于告诉爬虫哪些页面可以抓取,哪些页面不可以抓取。通过...

    用来生成robotstxt文件的Vuepress插件

    这个插件的使用主要是为了方便 Vuepress 用户自定义他们的 `robots.txt` 文件,从而更好地控制搜索引擎的行为。在JavaScript开发中,特别是与Vue.js相关的项目,这个插件能够集成到Vuepress的构建流程中,帮助开发者...

    robots.txt文件在线生成工具.zip

    robots.txt可以告诉搜索引擎您的网站哪些页面可以被收录,哪些页面不可以被收录,如果您不想让搜索引擎收录您网站的某些内容,请用robots.txt文件指定搜索引擎在您网站上的抓取范围。 此工具本人找了很久,源码...

    robots写法.txt

    通过合理设置 `robots.txt` 文件,可以帮助网站管理者更好地控制网站内容被搜索引擎收录的方式与范围。 #### 二、基本语法 `robots.txt` 文件主要包含以下几种指令: - **User-agent**:指定该规则适用于哪个或...

    Robots 限制搜索引擎蜘蛛抓取哪些文件

    虽然描述部分为空,但我们可以通过常规理解来补充:robots.txt文件通常位于网站的根目录下(例如,www.example.com/robots.txt),它通过使用一系列的"Allow"和"Disallow"指令,帮助网站管理员控制搜索引擎对站点...

    robots.txt的NuxtJS模块_TypeScript_JavaScript_下载.zip

    而robots.txt是网站与搜索引擎爬虫之间的一种通信协议,用于指导爬虫哪些页面可以抓取,哪些应该被禁止。 首先,让我们理解`robots.txt`的作用。robots.txt文件位于网站的根目录下,它的主要功能是定义搜索引擎爬虫...

    robots.txt在SEO中作用

    本文将深入探讨robots.txt的工作原理、重要性以及如何编写有效的robots.txt规则,以优化搜索引擎优化(SEO)策略。 ### 一、robots.txt基础 robots.txt是基于文本的文件,通常放置在网站的根目录下(例如:`...

    易优cms robots文件生成器插件.zip

    在SEO优化方面,robots.txt文件扮演着至关重要的角色,它是搜索引擎爬虫访问网站时首先查看的文件,用于告知爬虫哪些页面可以抓取,哪些应禁止抓取。"易优cms robots文件生成器插件"就是为了方便用户自定义和管理这...

    帝国CMS中robots.txt文件用法

    1. **不要过度依赖`robots.txt`**:虽然`robots.txt`能有效防止搜索引擎抓取特定页面,但它不能阻止其他非搜索引擎的爬虫或恶意用户访问这些目录。因此,网站的安全措施应更为全面,包括但不限于SSL加密、访问权限...

    Laravel开发-laravel-robotstxt

    例如,在生产环境中,我们希望搜索引擎抓取所有公开内容以提高可见性;而在开发环境中,由于内容可能不稳定或包含敏感数据,我们可能希望阻止搜索引擎的访问。 `laravel-robotstxt`包的安装和配置过程如下: 1. **...

    如何写robots,robots.txt是一个纯文本文件

    总结,`robots.txt` 和 `robots` 元标签是网站管理员管理搜索引擎抓取行为的重要工具。正确配置这些指令有助于确保网站的可见性和隐私保护,同时优化搜索引擎结果的展示。在创建和更新这些文件时,务必清楚了解各个...

    自动为您的站点创建robots.txt的Gatsby插件_JavaScript_下载.zip

    `robots.txt`文件对于任何网站来说都是至关重要的,它告诉搜索引擎爬虫哪些页面可以抓取,哪些应该被禁止。Gatsby是一个基于React的静态站点生成器,它允许开发者快速构建高性能的网页应用。这个插件简化了在Gatsby...

    Go语言的robots.txt排除协议实现_Go_Shell_下载.zip

    在互联网上,`robots.txt` 是一个非常重要的文件,它用于告知搜索引擎爬虫哪些页面可以抓取,哪些页面应被禁止。本篇文章将深入探讨如何使用 Go 语言来实现 `robots.txt` 排除协议。我们将主要关注以下几个关键知识...

    一个经典的zencart的robots.txt的写法

    `robots.txt`文件是一种标准的协议文件,用于告诉网络爬虫(如搜索引擎机器人)哪些页面可以抓取、哪些页面不能抓取。这对于网站管理员来说非常重要,因为它可以帮助控制搜索引擎如何索引自己的网站。 #### 一、`...

    Laravel开发-laravel-robots-txt

    robots.txt文件对于搜索引擎优化(SEO)至关重要,因为它指导爬虫哪些页面可以抓取,哪些应被禁止。而HTML元标签则能提供关于网页内容的额外信息,如关键词、描述等,同样影响着搜索引擎的索引和展示。 首先,让...

    Robots_txt-Specifications.pdf

    Google的Robots.txt协议是互联网上用于控制...这对于网站管理员来说是一个重要的参考,帮助他们在维护网站的同时,能更好地利用robots.txt来控制搜索引擎的爬取行为,从而保护网站的数据安全和优化搜索引擎的抓取策略。

Global site tag (gtag.js) - Google Analytics