和robots和sitemap

FutureInHands

浏览: 430064 次
性别:
来自: 深圳

最近访客更多访客>>

u012363178

wangyy

rentuo52

mointor

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎

Google 搜索引擎 XML 百度 IE

这是google网站管理员工具提供的最新报告。 robots.txt文件内容可当一个robots的参考范例：

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/

几乎所有搜索引擎都尊从robots协议，并按网站根目录下的robots.txt文件进行网站的抓取。这个例子的意思是：允许所有搜索引擎抓取，并且/wp-admin/、/wp-content/、 /wp-includes/这三个目录不可以抓取。有关 robots.txt 语法的更多信息，请参阅 robotstxt.org。谷歌对有关robots.txt的设置信息请参考：http://www.google.com/support/webmasters/bin/answer.py?answer=40364&topic=8846&hl=zh_CN

在robots.txt文件无法访问或按要求验证时，提交的sitemap都会提示有相关错误，比如：robots.txt文件无法访问等。我提交了两次都失败了，可能是不存在robots.txt文件的问题，后来一查这个文件是存在的，又提交了一次终于成功了。不知道这个robots.txt文件是不是YO2后来生成的，这个问题无法考证了。

按谷歌帮助文档的说法，robots.txt文件是可以不存在的，但在提交sitemap时又必须先检查robots.txt文件，如果返回404错误，则会在以后重新访问网站并开始抓取。后来我要检查时robots.txt又存在了，sitemap才通过。如果这个文件真的不存，那谷歌是不是按照帮助文档的说法呢？不得而知了。
看到一些网友搜索”如何写sitemap文件”进入本站，有些奇怪，本之前并未写过这样的文章，竟然在百度和谷歌中排名第一，搜索结果是这篇文章：sitemap和robots的关系,robots如何写？

为了不负众望吧，本文解释一些与sitemap相关的知识与大家分享。

什么是 Sitemap 文件？为什么网站需要它？

通过Sitemap 文件，您可以告诉谷歌关于您网站上的所有网页；另外，还可以选择是否告诉谷歌关于这些网页的信息，如哪些网页最重要以及更改频率。Sitemap 有助于加速网页的查找，这也是抓取网页和编制索引重要的第一步，但还有其他很多因素会影响抓取/编制索引过程。Sitemap 可让您告诉google关于您网页的信息（您认为哪些网页最重要，这些网页的更改频率如何）。

Sitemap是对原来robots.txt的扩展，它使用XML格式来记录整个网站的信息并供Google读取，使搜索引擎能更快更全面的收录网站的内容。Sitemap的作用就好像为网站提供了整站的RSS，而Google就是这些RSS的订阅者，只要网站有更新就会自动通知Google。这样一来，搜索引擎的收录由被动的Pull变成了主动的Push。

更多sitemap的帮助信息请参考：http://www.google.com/support/webmasters/bin/topic.py?topic=8476

另外谷歌希望网站所有者只创建一个 Sitemaps 文件供所有搜索引擎使用。这与很多有关Sitemaps 文件最好只包含100个以内的网址的说法并不相符，所以我们尽可相信谷歌官方的说法：您可以提供多个 Sitemap 文件，但每个 Sitemap 文件包含的网址不得超过 50,000 个，并且未压缩时不能大于 10MB。Sitemap 索引文件最多可以列出 1,000 个 Sitemap。

sitemap文件可以通过第三方程序自动生成，地图生成工具页面： http://www.sitemapspal.com/

1、在这个网站可以自动生成sitemap文件，进入这个网站后找到如下图中的黄色选框,输入要添加Google Sitemap的网站地址，例如: www.whsjsoft.com(前面“http://”默认显示，不要删掉。)，然后回车。

2、回车后，第一屏页面下方的文本框中，会生成一段代码。用鼠标全部选中文本框中的代码，打开记事本等工具，复制上去。然后，把这个文件保存为:Sitemap.xml.

3、把保存的Sitemap.xml文件上传到你的站点的根目录下。

4、在谷歌网站管理员工具中提交sitemap文件。

当然，除了用工具生成sitemap.xml文件，也可以自己动手写，以弥补工具可能产生的错误。范例：本博客的sitemap为http://soft.whsjsoft.com/sitemap.xml
手动写sitemap文件需要尊守如下规则：

Sitemaps 协议格式由 XML 标记组成。Sitemaps 的所有数据数值应为实体转义过的。文件本身应为 UTF-8 编码的。

以下是只包含一个网址并使用所有可选标记的 Sitemaps 示例。可选标记为斜体。简单范例：

< ?xml version="1.0" encoding="UTF-8"?>
< urlset xmlns=”http://www.google.com/schemas/sitemap/0.84″>
< url>
< loc>http://www.example.com/< /loc>
< lastmod>2005-01-01< /lastmod>
< changefreq>monthly< /changefreq>
< priority>0.8< /priority>
< /url>
< /urlset>
Sitemaps 应：

以 < urlset> 开始标记开始，以 < /urlset> 结束标记结束。
每个网址包含一个作为父标记的 < url> 条目。
每一个 < url> 父标记包括一个 < loc> 子标记条目。
请参考相关信息：XML 标记定义，Sitemaps 索引 XML 标记定义

要验证手工写的sitemap.xml文件是否正确，可以用个简单的方法，用IE打开它，如果不报错，基本上正确了，然后才可以上传到网站根目录下并提交给谷歌。注意：sitemap.xml文件中一定不能包含纯汉字，否则一定会报错。

相关文章：Google网站管理员工具为什么要重复验证?

来自：首佳管理软件博客，转载请注明！

分享到：

SNMP v1，v2，v3 的比较 | heritrix学习总结

2010-09-04 08:28
浏览 1712
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论