`

【转】Robots.txt和Robots META

阅读更多
Robots Text File Robots.txt
robots.txt是一套指示搜索引擎(蜘蛛)如何抓取你的网页内容的一张地图,他告诉蜘蛛哪些需要抓取,哪些不要抓取(当然,这只是针对那些遵守这个协定的搜索引擎)。robots.txt文件必须存放在网站的根目录下。
robots.txt中包括两部分主要内容:
User-agent:*
Disallow:
User-agent代表搜索引擎,可以指定特定的搜索引擎,星号表示所有;
Disallow,如果用不带/路径表示搜索引擎可以索引整个文件夹,如果带了/则表示对文件夹下的所有内容都不进行索引;
例如:/private/表示对于private文件夹下的所有内容不进行索引,/pulic表示索引所有public下的内容;
两种robots.txt的典型用法:
一、对所有搜索引擎完全开放:
User-agent:*
Disallow:
二、对所有搜索引擎关闭:
User-agent:*
Disallow:/
Robots Meta Tag
对于不能上传Robots.txt文件的用户,我们仍可以通过Robots Meta Tag来实现对于搜索引擎的屏蔽。
<meta name="robots" content="robots-term" />
robots-term是一系列逗号分隔的字符,主要有以下几个值:noindex,nofollow,index,follow,all
下面来简单解释一下各自的含义:
noindex:搜索引擎不会为页面建立索引,但是允许页面上的链接被追踪;
nofollow:搜索引擎不会追踪页面中的链接,但是允许搜索引擎收录该页面;
index:搜索引擎将把该页面加入到搜索服务中;
follow:搜索引擎会从该页面去查找其他的页面;
all:搜索引擎会执行上面两种操作;
如果Meta标签缺失,或者robots-term没有指定明确的值,那么默认是index,follow,如果在meta中指定了all,那么其他的所有值都将被覆盖,不管all出现在什么位置

最后,再贴一个比较规范的robots.txt来,以供学习:
# robots.txt for http://www.SEOConsultants.com/

# Last modified: 2008-10-19T02:30:00-0700
User-agent: googlebot
Disallow: /js/
Disallow: /webservices/
User-agent: slurp
Disallow: /js/
Disallow: /webservices/
User-agent: msnbot
Disallow: /js/
Disallow: /webservices/
User-agent: teoma
Disallow: /js/
Disallow: /webservices/
User-agent: Mediapartners-Google*
Disallow:
User-agent: *
Disallow: /
分享到:
评论

相关推荐

    如何写robots.txt?

    ### 如何编写robots.txt文件 在互联网世界里,搜索引擎蜘蛛(也称为爬虫或机器人)是网站流量的重要来源之一。为了更好地控制哪些页面被搜索引擎收录,哪些页面不被收录,就需要用到一个非常重要的文件——robots....

    如何写robots,robots.txt是一个纯文本文件

    总结,`robots.txt` 和 `robots` 元标签是网站管理员管理搜索引擎抓取行为的重要工具。正确配置这些指令有助于确保网站的可见性和隐私保护,同时优化搜索引擎结果的展示。在创建和更新这些文件时,务必清楚了解各个...

    Laravel开发-laravel-robots-txt

    在本文中,我们将深入探讨Laravel框架中的"laravel-robots-txt"组件,以及它如何在Laravel 5.x版本中实现对robots.txt文件和HTML元标签的半自动化管理。robots.txt文件对于搜索引擎优化(SEO)至关重要,因为它指导...

    robots.txt详细介绍

    robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以...

    robots文件.docx

    `robots.txt` 是一个纯文本文件,位于网站的根目录下,其主要作用是告诉搜索引擎的爬虫哪些部分的网页可以被访问和抓取,以及哪些区域应保持隐私不被收录。例如,如果网站包含敏感信息或测试页面,可以通过 `robots...

    robots使用例子

    ### Robots使用例子与详解 ...综上所述,通过合理设置`robots.txt`文件以及利用HTML中的`&lt;meta&gt;`标签,可以有效地管理搜索引擎对网站内容的抓取和索引,这对于提高网站的SEO效果和用户体验具有重要意义。

    HTML中小meta的大作用.txt

    本文将深入探讨`&lt;meta&gt;`标签及其相关属性的应用,帮助读者更好地理解如何利用这些标签来优化网页的表现和功能。 #### 一、`&lt;meta&gt;`标签概述 `&lt;meta&gt;`标签位于HTML文档的`&lt;head&gt;`部分,主要用于定义页面的元数据...

    Robots Exclusion Checker-crx插件

    UGC,Sponsored和Nofollow属性值* NEW *-Robots.txt如果是URL您访问的网站受到robots.txt中“允许”或“禁止”的影响,该扩展程序将为您显示扩展程序中的特定规则,从而使复制或访问实时robots.txt变得容易。...

    Robots Meta插件

    Robots Meta这款插件可以添加适当的Meta到页面,禁用未使用的页面以及设置不允许网页索引,总之,Robots Meta插件就是做一些搜索引擎优化相关的设置。 Robots Meta 插件安装: 1.下载Robots Meta插件,将压缩包...

    网站中屏蔽蜘蛛定义.pdf

    对于Google,可以通过Google Search Console中的“robots.txt测试器”来测试和修改`robots.txt`文件,确保规则正确无误。 总的来说,屏蔽蜘蛛是一种精细控制搜索引擎如何处理网站内容的方法。正确地配置这些设置能...

    SEO网站优化测试题及答案.pdf

    本文档提供了一份SEO网站优化测试题及答案,涵盖了SEO的多个方面,包括网页标题、关键字密度、meta标签、图片优化、内容生成、链接建设、网站结构、搜索引擎营销、robots.txt、HTTP状态码、URL结构、PR值、友情链接...

    禁止搜索引擎 爬网站网页

    ### 禁止搜索引擎爬取网站网页:使用robots.txt与META标签 在互联网时代,网站所有者或管理员可能出于各种原因需要控制搜索引擎对其网站的抓取行为,比如保护隐私、优化搜索结果展示或是减少服务器负担等。对于这些...

    教你如何在asp中禁用搜索

    总的来说,禁用ASP网站的搜索主要是通过`robots.txt`文件管理和HTML`&lt;meta&gt;`标签来实现的,这两种方法结合使用能更有效地保护网站免受不必要的搜索引擎索引。确保正确设置这些机制,有助于保持网站的私密性,提升...

    网络营销教程—SEO.txt

    - **robots.txt**:正确设置robots.txt文件,指导搜索引擎爬虫的抓取行为。 - **移动友好性**:确保网站在移动设备上的访问体验良好。 - **加载速度**:优化图片大小、减少HTTP请求等措施来提高页面加载速度。 ####...

    SEO优化推广方案.pdf

    8. robots.txt:robots.txt 文件的设置对搜索引擎的爬虫爬取和网站的可见性有重要影响。 二、网站基本状况诊断 1. 域名信息:包括 Whois 信息、域名历史、PR 等。 2. 网站结构框架:包括网站的布局、框架、代码的...

    google模拟抓取工具

    1. 检查robots.txt:确保你的robots.txt文件没有误封禁重要的网页,防止Google爬虫无法访问。 2. 分析Meta标签:查看网页的Title和Meta描述标签,确保它们准确反映了网页内容,吸引用户点击。 3. 验证HTML代码:检查...

    分析一下SEO优化中的搜索引擎蜘蛛技术[总结].pdf

    1. Robots.txt:当蜘蛛访问网站时,首先会查找Robots.txt文件,这是一个指示蜘蛛哪些页面可抓取、哪些禁止抓取的文本文件。并非所有蜘蛛都会严格遵循这些规则,但合理使用Robots.txt可以帮助管理搜索引擎对网站的...

    Digging into WordPress.pdf

    9.3.1 Monitoring and Fixing Errors ...............................350 9.3.2 Alex King’s 404 Notifier Plugin .....................................................351 9.3.3 Broken Link Checker Plugin ....

Global site tag (gtag.js) - Google Analytics