《Google官方SEO入门指南》九：有效使用robots.txt

wangdei

浏览: 378733 次

最近访客更多访客>>

u012363178

陈民刚

limuzi13

halloffame

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Google 搜索引擎互联网 PHP 浏览器

一个robots.txt文件可以告诉搜索引擎你网站的哪些部分允许它去抓取。而这个文件不旦必须命名成”robots.txt”,还得放在你网站的根目录上。

我们网站robots.txt文件的路径。

点击在新窗口中浏览此图片
 http://www.bloghuman.com/attachment.php?fid=62

所有的遵循这一规则的搜索引擎爬虫（按照通配符*指示的那样）不应该进入并抓取/images/或者任何以/search开头的url里的内容。

你也许并不希望你网站的一些页面被抓取到，因为如果它们出现在搜索结果里对用户可能是没多大意义的。如果你想阻止搜索引擎爬取你的网页，Google网站管理员工具有一个很好用的robots.txt生成器来帮助你创建这个文件。另外如果你希望子域名里的一些内容不被爬取，你需要在子域名的目录下再新建一个robots.txt文件。你也可以在我们的网站管理员帮助中心获得更多关于robots.txt的信息。

这里也有其它更便捷的方式来阻止你的内容出现在搜索结果里，比如说在robots meta标签里添加”NOINDEX”，使用htaccess来为一些目录加密或者使用Google网站管理员工具来移除某些已经被索引的内容。Google工程师 Matt Cutts一个帮助视频里粗略地介绍了各种URL排除原理的注意事项。

robots.txt实践经验

1、为那些敏感的内容使用更加安全的方案——通过robots.txt来阻止一些敏感或者机密的内容。之所以这样做的是因为如果那些你在robots.txt里阻止的链接出现互联网上（比如说来源记录），搜索引擎就很可能引用这些URLs（不过仅难是URL，不会含有标题或者内容片段）。还有一些不遵守机器人排除标准的流氓搜索引擎则会违背robots.txt上的指令。最后一些好奇的用户就会去查看你robots.txt是声明阻止的目录或者子目录，并猜测那些你不想被看到的内容。所以对内容加密或者通过 .htaccess实现密码保护会是更安全的选择。当然你需要避免：
    ·允许看起来像搜索结果一样的页面被爬取。（用户并不喜欢扔给自己一张搜索页面，全是一些没有多大意义的结果。）
    ·允许大量的自动生成的页面被抓取，而里面大多都是相同或者差异甚微的内容。“像这些100000张几乎像复制的页面被搜索引擎索引了有多大意义呢？”
    ·允许代理服务器创建的URLs被爬取。

分享到：

《Google官方SEO入门指南》八：网页图片优 ... | 《Google官方SEO入门指南》十：为链接添加 ...

2008-11-27 16:21
浏览 977
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论