`
siaslance
  • 浏览: 23742 次
文章分类
社区版块
存档分类
最新评论

请谨慎在robots.txt中增加sitemap链接

 
阅读更多
一直以来,大家都在寻找各种方式向搜索引擎提供自己网站的内容,其中就包括sitemap,甚至很多文章介绍说在robots.txt增加sitemap的指向效果非常明显。

是否真的有那么神奇呢?其实不然!

笔者因为工作的原因,有幸接触到了一次实战,而且是3个规模不一的站点同时向robots.txt中增加sitemap的链接指向。

sitemaps.org网站上有具体的sitemap的格式以及参数设置办法。

根据不同的站点规模,我们选择了不同的方式;


增加的格式如下:

站点1规模较大,使用的是sitemap的索引文件,索引文件再包含其他sitemap文件。

在robots.txt的最后一行增加 Sitemap:http://www.xxxxx.com/sitemap.xml

sitemap.xml索引文件的内容格式如下:


http://www.xxxx.com/sitemap1.xml2011-05-01T18:23:17+00:00http://www.xxxxx.com/sitemap2.xml2011-05-01

站点2和站点3规模都较小,采用的是直接指向具体的sitemap.xml

在robots.txt的最后一行增加 Sitemap:http://www.xxxxx.com/sitemap.xml

具体格式如下:

http://www.xxxxxx.com/2011-05-01monthly0.8

增加完毕3天后,就有了变化,情况并不像预期的那样好,具体表现如下:

1、百度:3个站的收录迅速变慢,尤其是站点1,从之前的每天收录2000多页变成了每天只收录10几页或者干脆不收录,分析日志发现百度的蜘蛛来了,但收录的内容极少,或者干脆只停留几分钟就走了,站点2和站点3的每天新收录数变成了0,之前是每天基本有10页左右。

2、google:整体来说,google的效果最好,站点1的收录迅速上升了,并且很多之前从不收录的页面也开始收录了,站点2和站点3的收录变化不是很大,排名有所上升,不知道是不是碰巧。

3、soso:所有站点的收录开始减少,基本没有收录新增加的页面,尽管站点1每天的更新量都在2000左右。

4、sogou:基本类似于百度。

5:bing:收录有小幅上升,但不是很明显。

出现这么糟糕的后果,使我们团队所有人员都不愿意看到的,于是果断的删除了所有的sitemap指向;

3天过后,百度收录开始正常,google变化不大,其他搜索引擎的收录基本恢复正常。


此可以推断,各个搜索引擎对于sitemap的理解和接受是不一样的,这里面的技术问题我们也无法去讨论,但是实践证明,如果你的站点结构合理,收录也正
常,完全没有必要去做什么sitemap,笔者个人认为,sitemap比较适合小规模的站点,并且是站点结构不太合理的小规模站点,如果你的网站结构合
理,搜索引擎均能自己完成收录。

另外比较重要的一点,如果你已经做了sitemap,就最好保持时刻更新,最好是程序自动化的更新。

以上只是笔者个人的一些实践体会,不能保证实验结果一定正确,也不具备指导性,只是和广大朋友探讨交流。


转载http://www.kkkdm.com
分享到:
评论

相关推荐

    网站改版时需要注意的事项 避免降权.docx

    9. **提交Sitemap和更新Robots.txt**:改版后,更新Sitemap并提交给搜索引擎,以便快速索引新的内容。同时,更新Robots.txt文件,指引爬虫抓取正确的页面。 10. **持续监控与优化**:改版后要密切关注网站的收录...

    为什么有的网站收录很少?.docx

    - **robots.txt文件设置**:误封禁搜索引擎爬虫,会导致网站部分或全部内容无法被收录。检查并确保robots.txt文件设置正确,允许搜索引擎抓取关键页面。 - **网站未提交给搜索引擎**:新站或改版后,应主动将网站...

    seo 专用仿站镜像软件.zip

    3. **隐藏标识**:为了防止被搜索引擎识别为重复内容,软件可能会有功能去除或修改源网站的元标签(如`<meta>`)、robots.txt文件和Sitemap,或者使用301重定向等技术。 4. **用户体验优化**:优化加载速度和页面...

    Thinkphp响应式木材板材公司模板

    6. `robots.txt`:告诉搜索引擎哪些页面可以抓取,哪些禁止抓取,对SEO有直接影响。 7. `新手必读.url`:可能是一个链接文件,引导新手阅读相关教程或文档。 8. `sitemap.xml`:网站地图,列出网站所有页面的链接,...

    最新蜘蛛支持代码

    9. **robots.txt**:正确配置robots.txt文件,告知爬虫哪些页面可以抓取,哪些应被禁止。 【标签】:“蜘蛛劫持代码” “蜘蛛劫持”是一种黑帽SEO技术,它使网站对搜索引擎蜘蛛展示一套内容,而对普通用户展示另...

    SEO基础-在建网站时就该注意的东西.docx

    总结来说,SEO基础工作在网站构建阶段就应着手进行,包括优化网站结构、URL设计以及设置好robots.txt和sitemap。这些基础工作不仅影响搜索引擎的抓取效率,还直接关乎网站的搜索排名和流量。因此,建站时务必重视SEO...

    【精华志】SEO网站优化教程+精简实用

    5. **技术SEO**:包括移动优化、HTTPS安全协议、网站可访问性、robots.txt的使用、Sitemap的创建等,这些都是现代SEO不可或缺的部分。 6. **数据分析与跟踪**:使用Google Analytics等工具来监控网站性能,分析...

    电子商务网站的快速SEO解决方案(EntLib.com)

    虽然通常不需要特别创建robots.txt文件,但在某些情况下,如阻止搜索引擎访问某些不必要的文件夹或页面时,它还是很有用的。正确配置robots.txt文件可以避免搜索引擎浪费爬行预算。 6. **Flash、Silverlight和其他...

    wordpress插件集合!

    20. **Robots.TXT**:提供简单的方法来编辑robots.txt文件,控制搜索引擎爬虫的抓取范围。 21. **Share This**:使用户可以轻松分享文章到各种社交网络,增加内容的传播力。 22. **Members Only**:仅允许注册用户...

    SEO面试题.pptx

    包括静态URL(利于搜索引擎抓取)、清晰的导航结构(帮助用户和搜索引擎理解网站结构)、301重定向(用于永久转移网页)、404错误页面(提供友好体验)、robots.txt(指示搜索引擎抓取规则)和sitemap(帮助搜索引擎...

    谷歌搜索引擎优化初学者指南

    - **功能介绍**:robots.txt文件告诉搜索引擎哪些页面可以爬取,哪些页面禁止爬取。 - **配置建议**: - 清晰指定允许和不允许爬取的路径。 - 定期检查robots.txt文件的有效性。 - 避免错误地阻止重要页面被索引...

    SEO搜索引擎优化

    - **定义**:Robots.txt文件是一个公开的文本文件,位于网站根目录下,用于指导搜索引擎爬虫哪些页面是可以访问的,哪些是禁止访问的。 - **语法格式**:包括`User-agent`、`Disallow`和`Allow`等指令。 - **使用...

    电子商务网站的快速SEO宝典

    - 使用robots.txt文件告诉搜索引擎哪些页面不应该被抓取。 - 对于大多数电子商务网站而言,除非有特定需求,否则无需使用。 6. **Flash、Silverlight和其他多媒体的应用** - 尽量减少使用这些技术,因为它们不...

    搜索引擎优化基础培训.pptx

    SEO,全称Search Engine Optimization,是通过调整网站结构、内容、代码等元素,提升网站在搜索引擎自然搜索结果中的排名,从而增加网站的可见度和流量。以下是一些关于SEO的基本知识: 1. **SEO常用术语解释** - ...

    discuz7目录文件解释

    - **robots.txt**:搜索引擎爬虫访问限制。 - **rss.php**:RSS 订阅功能。 - **search.php**:搜索功能实现。 - **seccode.php**:验证码生成。 - **sitemap.php**:站点地图生成。 - **space.php**:个人...

Global site tag (gtag.js) - Google Analytics