网站优化攻略:Robots.txt使用指南 - - ITeye博客

`

zl198751

浏览: 280411 次
性别:
来自: 上海

最近访客更多访客>>

lost-java

sshcainiao

huohoo

solguo

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

付小忠：牛逼,解释到了点子上.
JAVA CAS原理深度分析
yhxf_ie： csdn那些鬼转载都不注明出处的，这应该是原文了。
JAVA CAS原理深度分析
qq569349370：终于找到一篇说得比较清楚的了，其他好多都是扰乱视听
JAVA CAS原理深度分析
lovemelong： nice
JAVA CAS原理深度分析
Tyrion：写的不错！
JAVA CAS原理深度分析

网站优化攻略:Robots.txt使用指南

阅读更多

【简介】
搜索引擎访问一个网站时，它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围，即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。

　　搜索引擎访问一个网站时，它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围，即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在上常看到的“拒绝Robots访问标准”(Robots Exclusion Standard)。下面我们简称RES。 Robots.txt文件的格式：Robots.txt文件的格式比较特殊，它由记录组成。这些记录通过空行分开。其中每条记录均由两个域组成：

　　1) 一个User-Agent(用户代理)字符串行；

　　2) 若干Disallow字符串行。

　　记录格式为： ":"

　　下面我们分别对这两个域做进一步说明。

　　User-agent(用户代理)：

　　User-agent行(用户代理行) 用于指定搜索引擎robot的名字，以Google的检索程序Googlebot为例，有：User-agent: Googlebot

　　一个robots.txt中至少要有一条User-agent记录。如果有多条User-agent记录，则说明有多个robot会受到RES标准的限制。当然了，如果要指定所有的robot，只需用一个通配符"*"就搞定了，即：User-agent: * Disallow(拒绝访问声明)：

　　在Robots.txt文件中，每条记录的第二个域是Disallow:指令行。这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如"Disallow: email.htm"对文件的访问进行了声明，禁止Spiders下载网站上的email.htm文件。而"Disallow: /cgi-bin/"则对cgi-bin目录的访问进行了声明，拒绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。例如上例中"Disallow: /cgi-bin/"声明了拒绝搜索引擎对cgi-bin目录及其子目录的访问，而"Disallow:/bob"则拒绝搜索引擎对/bob.html和 /bob/indes.html的访问(即无论是名为bob的文件还是名为bob的目录下的文件都不允许搜索引擎访问)。Disallow记录如果留空，则说明该网站的所有部分都向搜索引擎开放。

　　空格 & 注释

　　在robots.txt文件中，凡以"#"开头的行，均被视为注解内容，这和UNIX中的惯例是一样的。但大家需要注意两个问题：

　　1) RES标准允许将注解内容放在指示行的末尾，但这种格式并不是所有的Spiders都能够支持。譬如，并不是所有的Spiders都能够正确理解"Disallow: bob #comment"这样一条指令。有的Spiders就会误解为Disallow的是"bob#comment"。最好的办法是使注解自成一行。

　　2) RES标准允许在一个指令行的开头存在空格，象"Disallow: bob #comment"，但我们也并不建议大家这么做。

　　Robots.txt文件的创建：

　　需要注意的是，应当在UNIX命令行终端模式下创建Robots.txt纯文本文件。好的文本编辑器一般都能够提供UNIX模式功能，或者你的FTP客户端软件也“应该”能够替你转换过来。如果你试图用一个没有提供文本编辑模式的HTML编辑器来生成你的robots.txt纯文本文件，那你可就是瞎子打蚊子——白费力气了。

　　对RES标准的扩展：

　　尽管已经提出了一些扩展标准，如Allow行或Robot版本控制(例如应该忽略大小写和版本号)，但尚未得到RES工作组的正式批准认可。

　　附录I. Robots.txt用法举例：

　　使用通配符"*"，可设置对所有robot的访问权限。

　　User-agent: *

　　Disallow:

　　表明：允许所有搜索引擎访问网站下的所有内容。

　　User-agent: *

　　Disallow: /

　　表明：禁止所有搜索引擎对网站下所有网页的访问。

　　User-agent: *

　　Disallow: /cgi-bin/Disallow: /images/

　　表明：禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。

　　User-agent: Roverdog

　　Disallow: /

　　表明：禁止Roverdog访问网站上的任何文件。

　　User-agent: Googlebot

　　Disallow: cheese.htm

　　表明：禁止Google的Googlebot访问其网站下的cheese.htm文件。

　　上面介绍了一些简单的设置，对于比较复杂的设置，可参看一些大型站点如CNN或Looksmart的robots.txt文件

　　附录II. 相关robots.txt文章参考：

　　1. Robots.txt常见问题解析

　　2. Robots Meta Tag的使用

　　3. Robots.txt检测程序

分享到：

让apache产生cookie并记录到日志 | Storm 流计算

2012-04-26 00:25
浏览 1160
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

robots的写法: 这对于SEO（搜索引擎优化）至关重要，因为合理的robots.txt设置可以帮助网站更好地被搜索引擎收录，提高可见性和排名。 **1. 什么是 robots.txt？** - **定义**：robots.txt 是一种标准文件，用于告诉网络爬虫哪些...

仿分销王2 没有版权版版本:2.0.0.70621: 9. **robots.txt**：搜索引擎爬虫的指南，告诉它们哪些页面可以抓取，哪些禁止抓取，有助于网站SEO策略。 10. **version.txt**：这个文件很可能包含了软件的版本信息，2.0.0.70621，与标题描述一致。通过这些文件...

支持通配符()匹配的NodeJSrobots.txt解析器。_JavaScript_下载.zip: `robots.txt`是一个纯文本文件，位于网站根目录下，其主要目的是为网络爬虫提供指南，告诉它们哪些URL应该被访问，哪些应该被禁止。`robots.txt`遵循一系列简单的规则，包括`User-Agent`（定义爬虫名称）和`Disallow...

robots.txt详细介绍: 理解并正确使用robots.txt，对于优化网站的搜索引擎优化（SEO）和保护隐私信息至关重要。当一个搜索引擎的爬虫访问网站时，它会首先查找位于网站根目录下的robots.txt文件。如果找到，爬虫会遵循文件中的指令来...

seo必须知道的结构优化.docx: 6. robots.txt 和 nofollow 的使用：robots.txt 文件可以告诉搜索引擎蜘蛛哪些页面不应该被爬取，而 nofollow 链接可以告诉搜索引擎蜘蛛该链接不应该被跟踪。 7. 不要复制别人的网站，镜像站点对搜索引擎不友好，...

第六章-网站结构优化.pptx: 综上，优化网站结构涉及多个方面，包括避免蜘蛛陷阱、选择合适的二级域名或目录、编写有效的robots.txt文件等。这些策略的实施有助于提升网站的SEO表现，增加搜索引擎对网站的友好度，从而提高网站的排名和流量。

网上搜集的wordpress教程，从入门到高手: 知识点：robots.txt 文件对于搜索引擎优化非常重要，可以使用 WordPress 的选项来创建一个。 9. 设计：博客网站的设计对于读者的第一印象非常重要，注意好的设计应该包括重要的元素。知识点：博客网站的设计非常...

Google网站管理员指南(最新).pdf: 1. **文本浏览器兼容**：使用如Lynx这样的文本浏览器检查网站，确保搜索引擎能顺利抓取。 2. **动态网页处理**：尽量减少动态URL中的参数，以便于搜索引擎处理。 3. **会话ID和跟踪参数**：避免使用会话ID和复杂的...

Google搜索引擎优化指南.pdf: 《Google 搜索引擎优化指南》是一份由谷歌官方发布的指南，旨在帮助网站所有者和开发者更好地理解如何优化他们的网站以获得更高的搜索引擎排名。SEO（搜索引擎优化）是提升网站在搜索引擎结果页面中的可见度的一种...

关于大型网站的优化建议.docx: 【大型网站优化建议】在构建和优化大型网站时，SEO（搜索引擎优化）是不可或缺的一环。这涉及到一系列技术、内容和策略的综合运用，旨在提高网站的搜索引擎排名，吸引更多的有机流量。以下是一些关键的优化操作： ...

cso中国seo优化html整站 -ASP源码.zip: 4. **URL结构**：使用简洁、描述性强的URL结构，方便搜索引擎理解页面主题。 5. **内链优化**：合理设置内部链接，引导搜索引擎抓取全站内容，提高页面权重传递。 6. **网页速度**：优化代码、压缩图片、使用CDN等...

婚庆网站源码: 5. **文档和说明**：`说明.htm`、`下载说明.txt`和`robots.txt`等文件提供了关于如何使用和维护网站的指南，`robots.txt`则告诉搜索引擎哪些页面可以抓取，哪些应被禁止。 6. **其他辅助文件**：`robots.txt`是网站...

世界上最优秀的网站系统ASP: 4. **SEO优化**：robots.txt文件用于指示搜索引擎爬虫哪些页面可以抓取，哪些不能，对网站的搜索引擎优化至关重要。 5. **资源链接**："更多精品网站源码.url"、"慧谷动力288元极速建站.url"和"中国第一家云空间....

joomla3.1.1_chinese_v1__1.zip: 8. `htaccess.txt`：重写规则文件，通常用于优化URL结构，提升网站SEO和安全性能，需根据服务器环境启用并更名为`.htaccess`。 9. `web.config.txt`：针对IIS服务器的配置文件，与Apache的`.htaccess`类似，用于...

【T855】家庭家装装修装饰类企业网站模板.zip: 10. **SEO优化**：robots.txt文件是搜索引擎爬虫的指南，告诉它们哪些页面可以抓取，哪些禁止抓取。对于提升网站在搜索引擎中的排名至关重要。 11. **元数据**：虽然不在文件列表中，但HTML文件通常包含元数据（如`...

黑色企业展示网站带后台: 3. `系统使用.txt`和`说明.txt`：这些文本文件可能包含了网站的使用指南和操作说明，帮助用户了解如何配置和管理网站。 4. `robots.txt`：这是一个标准的Web文件，用于指示搜索引擎爬虫哪些页面可以抓取，哪些应被...

PHP版网站百度谷歌所有搜索引擎蜘蛛查看器: 6. **使用方法.txt**：这是一个文本文件，通常会包含工具的使用指南和操作步骤，帮助用户理解如何安装、配置和使用这个PHP版搜索引擎蜘蛛查看器。内容可能包括环境配置、数据库连接、日志文件位置、脚本调用方法等...

响应式手游游戏APP下载类网站模板.zip: 7. **SEO优化**：.htaccess和robots.txt文件涉及到搜索引擎优化（SEO）。.htaccess可能用于设置重定向、URL美化，而robots.txt则告诉搜索引擎哪些页面可以抓取，提升网站在搜索结果中的排名。 8. **新手引导**：...

aboutrobots:我一个，欢迎我们的新机器人霸主: 在互联网上，"robots.txt"文件是网站管理员用来指导搜索引擎爬虫如何抓取网站内容的指南。描述部分提到：“关于：机器人该附加组件将about：robots页面恢复为Pale Moon。”这表明有一个浏览器扩展或插件，它的...

Global site tag (gtag.js) - Google Analytics