一直以来,大家都在寻找各种方式向搜索引擎提供自己网站的内容,其中就包括sitemap,甚至很多文章介绍说在robots.txt增加sitemap的指向效果非常明显。
是否真的有那么神奇呢?其实不然!
笔者因为工作的原因,有幸接触到了一次实战,而且是3个规模不一的站点同时向robots.txt中增加sitemap的链接指向。
sitemaps.org网站上有具体的sitemap的格式以及参数设置办法。
根据不同的站点规模,我们选择了不同的方式;
增加的格式如下:
站点1规模较大,使用的是sitemap的索引文件,索引文件再包含其他sitemap文件。
在robots.txt的最后一行增加 Sitemap:http://www.xxxxx.com/sitemap.xml
sitemap.xml索引文件的内容格式如下:
http://www.xxxx.com/sitemap1.xml2011-05-01T18:23:17+00:00http://www.xxxxx.com/sitemap2.xml2011-05-01
站点2和站点3规模都较小,采用的是直接指向具体的sitemap.xml
在robots.txt的最后一行增加 Sitemap:http://www.xxxxx.com/sitemap.xml
具体格式如下:
http://www.xxxxxx.com/2011-05-01monthly0.8
增加完毕3天后,就有了变化,情况并不像预期的那样好,具体表现如下:
1、百度:3个站的收录迅速变慢,尤其是站点1,从之前的每天收录2000多页变成了每天只收录10几页或者干脆不收录,分析日志发现百度的蜘蛛来了,但收录的内容极少,或者干脆只停留几分钟就走了,站点2和站点3的每天新收录数变成了0,之前是每天基本有10页左右。
2、google:整体来说,google的效果最好,站点1的收录迅速上升了,并且很多之前从不收录的页面也开始收录了,站点2和站点3的收录变化不是很大,排名有所上升,不知道是不是碰巧。
3、soso:所有站点的收录开始减少,基本没有收录新增加的页面,尽管站点1每天的更新量都在2000左右。
4、sogou:基本类似于百度。
5:bing:收录有小幅上升,但不是很明显。
出现这么糟糕的后果,使我们团队所有人员都不愿意看到的,于是果断的删除了所有的sitemap指向;
3天过后,百度收录开始正常,google变化不大,其他搜索引擎的收录基本恢复正常。
由
此可以推断,各个搜索引擎对于sitemap的理解和接受是不一样的,这里面的技术问题我们也无法去讨论,但是实践证明,如果你的站点结构合理,收录也正
常,完全没有必要去做什么sitemap,笔者个人认为,sitemap比较适合小规模的站点,并且是站点结构不太合理的小规模站点,如果你的网站结构合
理,搜索引擎均能自己完成收录。
另外比较重要的一点,如果你已经做了sitemap,就最好保持时刻更新,最好是程序自动化的更新。
以上只是笔者个人的一些实践体会,不能保证实验结果一定正确,也不具备指导性,只是和广大朋友探讨交流。
转载
http://www.kkkdm.com
分享到:
相关推荐
9. **提交Sitemap和更新Robots.txt**:改版后,更新Sitemap并提交给搜索引擎,以便快速索引新的内容。同时,更新Robots.txt文件,指引爬虫抓取正确的页面。 10. **持续监控与优化**:改版后要密切关注网站的收录...
- **robots.txt文件设置**:误封禁搜索引擎爬虫,会导致网站部分或全部内容无法被收录。检查并确保robots.txt文件设置正确,允许搜索引擎抓取关键页面。 - **网站未提交给搜索引擎**:新站或改版后,应主动将网站...
3. **隐藏标识**:为了防止被搜索引擎识别为重复内容,软件可能会有功能去除或修改源网站的元标签(如`<meta>`)、robots.txt文件和Sitemap,或者使用301重定向等技术。 4. **用户体验优化**:优化加载速度和页面...
6. `robots.txt`:告诉搜索引擎哪些页面可以抓取,哪些禁止抓取,对SEO有直接影响。 7. `新手必读.url`:可能是一个链接文件,引导新手阅读相关教程或文档。 8. `sitemap.xml`:网站地图,列出网站所有页面的链接,...
9. **robots.txt**:正确配置robots.txt文件,告知爬虫哪些页面可以抓取,哪些应被禁止。 【标签】:“蜘蛛劫持代码” “蜘蛛劫持”是一种黑帽SEO技术,它使网站对搜索引擎蜘蛛展示一套内容,而对普通用户展示另...
总结来说,SEO基础工作在网站构建阶段就应着手进行,包括优化网站结构、URL设计以及设置好robots.txt和sitemap。这些基础工作不仅影响搜索引擎的抓取效率,还直接关乎网站的搜索排名和流量。因此,建站时务必重视SEO...
5. **技术SEO**:包括移动优化、HTTPS安全协议、网站可访问性、robots.txt的使用、Sitemap的创建等,这些都是现代SEO不可或缺的部分。 6. **数据分析与跟踪**:使用Google Analytics等工具来监控网站性能,分析...
虽然通常不需要特别创建robots.txt文件,但在某些情况下,如阻止搜索引擎访问某些不必要的文件夹或页面时,它还是很有用的。正确配置robots.txt文件可以避免搜索引擎浪费爬行预算。 6. **Flash、Silverlight和其他...
20. **Robots.TXT**:提供简单的方法来编辑robots.txt文件,控制搜索引擎爬虫的抓取范围。 21. **Share This**:使用户可以轻松分享文章到各种社交网络,增加内容的传播力。 22. **Members Only**:仅允许注册用户...
包括静态URL(利于搜索引擎抓取)、清晰的导航结构(帮助用户和搜索引擎理解网站结构)、301重定向(用于永久转移网页)、404错误页面(提供友好体验)、robots.txt(指示搜索引擎抓取规则)和sitemap(帮助搜索引擎...
- **功能介绍**:robots.txt文件告诉搜索引擎哪些页面可以爬取,哪些页面禁止爬取。 - **配置建议**: - 清晰指定允许和不允许爬取的路径。 - 定期检查robots.txt文件的有效性。 - 避免错误地阻止重要页面被索引...
- **定义**:Robots.txt文件是一个公开的文本文件,位于网站根目录下,用于指导搜索引擎爬虫哪些页面是可以访问的,哪些是禁止访问的。 - **语法格式**:包括`User-agent`、`Disallow`和`Allow`等指令。 - **使用...
- 使用robots.txt文件告诉搜索引擎哪些页面不应该被抓取。 - 对于大多数电子商务网站而言,除非有特定需求,否则无需使用。 6. **Flash、Silverlight和其他多媒体的应用** - 尽量减少使用这些技术,因为它们不...
SEO,全称Search Engine Optimization,是通过调整网站结构、内容、代码等元素,提升网站在搜索引擎自然搜索结果中的排名,从而增加网站的可见度和流量。以下是一些关于SEO的基本知识: 1. **SEO常用术语解释** - ...
- **robots.txt**:搜索引擎爬虫访问限制。 - **rss.php**:RSS 订阅功能。 - **search.php**:搜索功能实现。 - **seccode.php**:验证码生成。 - **sitemap.php**:站点地图生成。 - **space.php**:个人...