`
wangdei
  • 浏览: 374570 次
社区版块
存档分类
最新评论

《Google官方SEO入门指南》九:有效使用robots.txt

    博客分类:
  • SEO
阅读更多

一个robots.txt文件可以告诉搜索引擎你网站的哪些部分允许它去抓取。而这个文件不旦必须命名成”robots.txt”,还得放在你网站的根目录上。


我们网站robots.txt文件的路径。


点击在新窗口中浏览此图片
http://www.bloghuman.com/attachment.php?fid=62


所有的遵循这一规则的搜索引擎爬虫(按照通配符*指示的那样)不应该进入并抓取/images/或者任何以/search开头的url里的内容。

你也许并不希望你网站的一些页面被抓取到,因为如果它们出现在搜索结果里对用户可能是没多大意义的。如果你想阻止搜索引擎爬取你的网页,Google网站管理员工具有一个很好用的robots.txt生成器来帮助你创建这个文件。另外如果你希望子域名里的一些内容不被爬取,你需要在子域名的目录下再新建一个robots.txt文件。你也可以在我们的网站管理员帮助中心获得更多关于robots.txt的信息

这里也有其它更便捷的方式来阻止你的内容出现在搜索结果里,比如说在robots meta标签里添加”NOINDEX”,使用htaccess来为一些目录加密或者使用Google网站管理员工具来移除某些已经被索引的内容。Google工程师 Matt Cutts一个帮助视频里粗略地介绍了各种URL排除原理的注意事项

robots.txt实践经验

1、为那些敏感的内容使用更加安全的方案——通过robots.txt来阻止一些敏感或者机密的内容。之所以这样做的是因为如果那些你在robots.txt里阻止的链接出现互联网上(比如说来源记录),搜索引擎就很可能引用这些URLs(不过仅难是URL,不会含有标题或者内容片段)。还有一些不遵守机器人排除标准的流氓搜索引擎则会违背robots.txt上的指令。最后一些好奇的用户就会去查看你robots.txt是声明阻止的目录或者子目录,并猜测那些你不想被看到的内容。所以对内容加密或者通过 .htaccess实现密码保护会是更安全的选择。当然你需要避免:
    ·允许看起来像搜索结果一样的页面被爬取。(用户并不喜欢扔给自己一张搜索页面,全是一些没有多大意义的结果。)
    ·允许大量的自动生成的页面被抓取,而里面大多都是相同或者差异甚微的内容。“像这些100000张几乎像复制的页面被搜索引擎索引了有多大意义呢?”
    ·允许代理服务器创建的URLs被爬取。

分享到:
评论

相关推荐

    百度_谷歌官方seo指导手册

    接下来,我们转向谷歌的SEO入门指南。谷歌在全球范围内的影响力不容忽视,其优化策略同样值得学习: 1. **理解用户意图**:谷歌致力于提供最符合用户查询意图的结果,因此优化时应关注关键词的语境和相关性。 2. *...

    google搜索引擎优化入门指南

    更加有效地使用robots.txt文件** robots.txt文件指导搜索引擎爬虫哪些页面可以索引,哪些应被忽略。合理设置可以避免爬虫浪费资源在不重要的页面上,确保关键页面得到更多关注。 **10. 谨慎使用rel="nofollow"** ...

    Google SEO 中文入门教程 更新版

    #### 十、更加有效地使用 robots.txt 文件 robots.txt 文件是用来指导搜索引擎爬虫如何访问和索引网站的文件。 - **禁止访问**:明确指定哪些页面或目录不允许搜索引擎爬虫访问。 - **允许访问**:确保重要的页面...

    SEO基础指南

    23. **robots.txt文件使用**:通过robots.txt文件告诉搜索引擎哪些页面不应该被索引。 #### 十二、专业名词解释篇 1. **ALT-代替属性**:图像元素`<img>`中的`alt`属性用于提供图片的替代文本。 2. **Anchor Text...

    搜索引擎优化入门指南(search-engine-optimization-starter-guide)

    本入门指南重点讲解了如何通过SEO提高网站在Google搜索结果中的排名。 首先,SEO的基础是创建独特且准确的页面标题。页面标题通过HTML文档的标签内的标签来定义,这个标签向用户和搜索引擎展示了特定页面的主题。...

    SEO搜索引擎入门教程免费电子版

    - **定义**:Robots.txt文件告诉搜索引擎哪些页面是可以被抓取的,哪些页面是禁止抓取的。 - **语法格式**:包含User-agent(指定哪个搜索引擎的机器人)、Disallow(禁止抓取的路径)和Allow(允许抓取的路径)等...

    2010年Google SEO 入门教程中文图文版

    Google SEO入门教程中文版提供了基础指南,帮助网站所有者理解如何优化网站以获得更好的可见性。 **Google机器人** Google机器人(也称为爬虫或蜘蛛)持续抓取互联网上的内容,构建和更新Google的索引。了解这些...

    SEO Secrets 搜索优化英文正版教程

    1. **robots.txt**:这是一个文件,告诉搜索引擎哪些页面可以抓取,哪些不应抓取。 2. **sitemap**:网站地图帮助搜索引擎更好地理解和索引网站结构。 3. **nofollow**:这是一条指令,用于告诉搜索引擎不要追踪或...

    百度谷歌排名的秘密

    - **robots.txt和robots meta标签**:用于告诉搜索引擎哪些页面不应被抓取。 ##### 3. 对搜索引擎排名不利的因素 - **框架网页**:不支持框架结构。 - **Flash网页**:难以被搜索引擎抓取。 - **不可见的导航**:...

    cards-jekyll-theme:响应式列卡

    robots.txt ads.txt Google Adsense支持() Cookie通知 您可以从此处分叉并使用此主题,随时删除页脚功劳。 但是,如果您下载了该主题,并且希望在不使用fork的情况下删除页脚信用,则可以我,或者直接向我的...

Global site tag (gtag.js) - Google Analytics