转载自:http://soft.whsjsoft.com/go/477812.html
这是google网站管理员工具提供的最新报告。 robots.txt文件内容可当一个robots的参考范例:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
几乎所有搜索引擎都尊从robots协议,并按网站根目录下的robots.txt文件进行网站的抓取。 这个例子的意思是:允许所有搜索引擎抓取,并且/wp-admin/、/wp-content/、 /wp-includes/这三个目录不可以抓取。有关 robots.txt 语法的更多信息,请参阅 robotstxt.org。谷歌对有关robots.txt的设置信息请参考:http://www.google.com/support/webmasters/bin/answer.py?answer=40364&topic=8846&hl=zh_CN
在robots.txt文件无法访问或按要求验证时,提交的sitemap都会提示有相关错误,比如:robots.txt文件无法访问等。我提交了两次都失败了,可能是不存在robots.txt文件的问题,后来一查这个文件是存在的,又提交了一次终于成功了。不知道这个robots.txt文件是不是YO2后来生成的,这个问题无法考证了。
按谷歌帮助文档的说法,robots.txt文件是可以不存在的,但在提交sitemap时又必须先检查robots.txt文件,如果返回404错误,则会在以后重新访问网站并开始抓取。后来我要检查时robots.txt又存在了,sitemap才通过。如果这个文件真的不存,那谷歌是不是按照帮助文档的说法呢?不得而知了。
看到一些网友搜索”如何写sitemap文件”进入本站,有些奇怪,本之前并未写过这样的文章,竟然在百度和谷歌中排名第一,搜索结果是这篇文章:sitemap和robots的关系,robots如何写?
为了不负众望吧,本文解释一些与sitemap相关的知识与大家分享。
什么是 Sitemap 文件?为什么网站需要它?
通过Sitemap 文件,您可以告诉谷歌关于您网站上的所有网页;另外,还可以选择是否告诉谷歌关于这些网页的信息,如哪些网页最重要以及更改频率。Sitemap 有助于加速网页的查找,这也是抓取网页和编制索引重要的第一步,但还有其他很多因素会影响抓取/编制索引过程。Sitemap 可让您告诉google关于您网页的信息(您认为哪些网页最重要,这些网页的更改频率如何)。
Sitemap是对原来robots.txt的扩展,它使用XML格式来记录整个网站的信息并供Google读取,使搜索引擎能更快更全面的收录网站的内容。Sitemap的作用就好像为网站提供了整站的RSS,而Google就是这些RSS的订阅者,只要网站有更新就会自动通知Google。这样一来,搜索引擎的收录由被动的Pull变成了主动的Push。
更多sitemap的帮助信息请参考:http://www.google.com/support/webmasters/bin/topic.py?topic=8476
另外谷歌希望网站所有者只创建一个 Sitemaps 文件供所有搜索引擎使用。这与很多有关Sitemaps 文件最好只包含100个以内的网址的说法并不相符,所以我们尽可相信谷歌官方的说法:您可以提供多个 Sitemap 文件,但每个 Sitemap 文件包含的网址不得超过 50,000 个,并且未压缩时不能大于 10MB。Sitemap 索引文件最多可以列出 1,000 个 Sitemap。
sitemap文件可以通过第三方程序自动生成,地图生成工具页面: http://www.sitemapspal.com/
1、在这个网站可以自动生成sitemap文件,进入这个网站后找到如下图中的黄色选框,输入要添加Google Sitemap的网站地址,例如: www.whsjsoft.com(前面“http://”默认显示,不要删掉。),然后回车。
2、回车后,第一屏页面下方的文本框中,会生成一段代码。用鼠标全部选中文本框中的代码,打开记事本等工具,复制上去。然后,把这个文件保存为:Sitemap.xml.
3、把保存的Sitemap.xml文件上传到你的站点的根目录下。
4、在谷歌网站管理员工具中提交sitemap文件。
当然,除了用工具生成sitemap.xml文件,也可以自己动手写,以弥补工具可能产生的错误。范例:本博客的sitemap为http://soft.whsjsoft.com/sitemap.xml
手动写sitemap文件需要尊守如下规则:
Sitemaps 协议格式由 XML 标记组成。Sitemaps 的所有数据数值应为实体转义过的。文件本身应为 UTF-8 编码的。
以下是只包含一个网址并使用所有可选标记的 Sitemaps 示例。可选标记为斜体。简单范例:
< ?xml version="1.0" encoding="UTF-8"?>
< urlset xmlns=”http://www.google.com/schemas/sitemap/0.84″>
< url>
< loc>http://www.example.com/< /loc>
< lastmod>2005-01-01< /lastmod>
< changefreq>monthly< /changefreq>
< priority>0.8< /priority>
< /url>
< /urlset>
Sitemaps 应:
以 < urlset> 开始标记开始,以 < /urlset> 结束标记结束。
每个网址包含一个作为父标记的 < url> 条目。
每一个 < url> 父标记包括一个 < loc> 子标记条目。
请参考相关信息:XML 标记定义,Sitemaps 索引 XML 标记定义
要验证手工写的sitemap.xml文件是否正确,可以用个简单的方法,用IE打开它,如果不报错,基本上正确了,然后才可以上传到网站根目录下并提交给谷歌。注意:sitemap.xml文件中一定不能包含纯汉字,否则一定会报错。
相关文章:Google网站管理员工具为什么要重复验证?
来自:首佳管理软件博客,转载请注明!
分享到:
相关推荐
在本文中,我们将深入探讨如何使用Laravel框架开发一个robots.txt和sitemap.xml生成器包,这个包被称为"robots-sitemap"。Laravel是一款流行的PHP框架,以其优雅的语法和强大的功能受到开发者的喜爱。robots.txt文件...
- **Sitemap指示**:在robots.txt中,你可以包含一个Sitemap行,指向你的站点地图XML文件,帮助搜索引擎更快地发现和索引你的网页。 - **注释**:使用井号(#)来添加注释,解释你的规则,这对于维护和理解robots.txt...
3. **Sitemap集成**:插件可将网站的Sitemap链接添加到robots.txt中,帮助搜索引擎更快地发现和索引新内容。 4. **规则设置**:提供多种预设规则,如禁止抓取特定后缀的文件,或者针对不同搜索引擎设置不同的规则。...
为所有静态/预渲染/动态/服务器端页面生成sitemap和robots.txt。 目录 入门 入门 安装 yarn add next-sitemap -D 创建配置文件 next-sitemap在您的项目根目录下需要一个基本的配置文件( next-sitemap.js ) ...
### 如何编写robots.txt文件 ...同时,了解和适当使用Robots META标签也是管理单个页面索引的重要手段。总之,合理利用这些工具,可以有效帮助网站管理员更好地控制搜索引擎的行为,从而达到优化SEO的效果。
标题 "站长 sitemap索引文件以及提交到百度" 涉及到的IT知识点主要集中在网站优化(SEO)和搜索引擎的交互方面。Sitemap是网站管理员用于向搜索引擎提供网站内容结构的重要工具,它有助于搜索引擎更好地理解和抓取...
网站的sitemap(站点地图)是帮助搜索引擎更好地理解和索引网站内容的重要工具。它是一个XML文件,其中包含了网站的所有页面URL,以及关于这些页面的一些额外信息,如更新频率和优先级。"网站sitemap自动生成器"是一...
4. **权限问题**:确保网站地图文件对百度蜘蛛是可访问的,即设置正确的robots.txt文件和服务器权限。 5. **URL过多**:单个网站地图文件不宜过大,否则可能影响抓取效率。若URL数量过多,可将其拆分为多个文件,...
在探讨如何编写`robots.txt`之前,我们首先需要了解这个文件的基本概念及其在网站管理和搜索引擎优化(SEO)中的作用。`robots.txt`是一个放置在网站根目录下的文本文件,用于告诉网络爬虫(也称为搜索引擎机器人或...
### 搜索引擎机器人文件robots.txt让你的网站得到更好的优化 #### robots.txt文件详解与...通过以上详细的分析和最佳实践指导,我们可以更好地理解和利用robots.txt文件来优化网站,使其在搜索引擎中表现得更加优秀。
网站地图(Sitemap)是网站优化的重要组成部分,它可以帮助搜索引擎更好地理解和索引网站的内容。`sitemap生成器2.0`是一款专为此目的设计的工具,能够快速高效地自动生成XML格式的网站地图,方便网站管理员提交给...
4. **Sitemap**:提供网站的网站地图URL,方便爬虫发现和抓取网页。 四、`Robots.txt`的设置注意事项 1. **权限设置**:确保`robots.txt`文件对公众可读,否则爬虫无法访问和遵循规则。 2. **精确路径**:`Disallow...
在本文中,我们将深入探讨如何在Laravel框架中开发和使用Sitemap功能。Sitemap是网站的一个重要组成部分,它帮助搜索引擎更好地理解和索引网站内容,从而提升网站的SEO排名。Laravel提供了一种简单的方式创建和管理...
- **robots.txt文件**:在robots.txt文件中添加Sitemap的URL,指示爬虫查找Sitemap。 5. **Sitemap维护**: - **定期更新**:随着论坛内容的更新,Sitemap也需要定期维护,确保新内容被及时收录。 - **监控和...
Robots Meta这款插件可以添加适当的Meta到页面,禁用未使用的页面以及设置不允许网页索引,总之,Robots Meta插件就是做一些搜索引擎优化相关的设置。 Robots Meta 插件安装: 1.下载Robots Meta插件,将压缩包...
文件内容由一系列的"User-agent"和"Sitemap"指令组成,其中"User-agent"指定特定的搜索引擎爬虫,而"Sitemap"则指示网站地图的位置。 ### 二、User-agent指令 `User-agent`指令用于定义要应用规则的爬虫。例如,...
4. **Sitemap指示**:robots.txt还可以包含"Sitemap"行,用于告知搜索引擎网站的网站地图位置,有助于提高搜索引擎的索引效率。 5. **注意事项**:误配置的robots.txt可能导致重要的网页无法被搜索引擎收录,或者...
在本文中,我们将深入探讨如何在NuxtJS框架中使用robots.txt,并结合TypeScript和JavaScript进行高效开发。NuxtJS是一个基于Vue.js的SSR(服务器端渲染)框架,它极大地简化了Vue应用的构建过程。而robots.txt是网站...
3. 生成的sitemap应上传到网站根目录,并在robots.txt文件中声明,以便搜索引擎找到。 4. 定期检查并更新sitemap,以反映网站的最新状态。 通过使用这个中文版的sitemap自动生成器,网站管理员可以有效地提升网站的...