搜索引擎三巨头打的不亦乐乎,但偶尔也合作一下。去年Google,雅虎,微软就合作,共同遵守统一的Sitemaps标准。前两天三巨头又同时宣布,共同遵守的robots.txt文件标准。Google,雅虎,微软各自在自己的官方博客上发了一篇帖子,公布三家都支持的robots.txt文件及Meta标签的标准,以及一些各自特有的标准。下面做一个总结。
三家都支持的robots文件记录包括:
Disallow – 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:
User-agent: *
Disallow: /
Allow – 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:
User-agent: *
Disallow: /ab/
Allow: /ab/cd
$通配符 – 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:
User-agent: *
Allow: .htm$
*通配符 – 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:
User-agent: *
Disallow: /*.htm
Sitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:
Sitemap: <sitemap_location>
三家都支持的Meta标签包括:
NOINDEX – 告诉蜘蛛不要索引某个网页。
NOFOLLOW – 告诉蜘蛛不要跟踪网页上的链接。
NOSNIPPET – 告诉蜘蛛不要在搜索结果中显示说明文字。
NOARCHIVE – 告诉蜘蛛不要显示快照。
NOODP – 告诉蜘蛛不要使用开放目录中的标题和说明。
上面这些记录或标签,现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。
只有Google支持的Meta标签有:
UNAVAILABLE_AFTER – 告诉蜘蛛网页什么时候过期。在这个日期之后,不应该再出现在搜索结果中。
NOIMAGEINDEX – 告诉蜘蛛不要索引页面上的图片。
NOTRANSLATE – 告诉蜘蛛不要翻译页面内容。
雅虎还支持Meta标签:
Crawl-Delay – 允许蜘蛛延时抓取的频率。
NOYDIR – 和NOODP标签相似,但是指雅虎目录,而不是开放目录。
Robots-nocontent – 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。
MSN还支持Meta标签:
Crawl-Delay
另外提醒大家注意的是,robots.txt文件可以不存在,返回404错误,意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时之类的错误,可能导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容,这与确认文件不存在是不一样的。
分享到:
相关推荐
Robots.txt是一种存放于网站根目录下的简单文本文件,它告诉搜索引擎爬虫哪些页面可以抓取,哪些页面不可以抓取。它通过规定User-agent(用户代理,即爬虫名称)和针对这些User-agent的Directives(指令)来实现对...
3. **非强制性**:不是所有搜索引擎都遵循robots.txt,因此不应依赖此文件作为唯一的隐私保护手段。 4. **不适用于用户**:robots.txt对实际用户没有作用,只针对爬虫。 ### 七、百度蜘蛛与robots.txt 在中文环境...
通过设置“扫描规则”和“搜寻”选项,可以模拟搜索引擎爬虫的行为,例如不收录.exe 文件、zip 文件等,取消“接收 cookie”,解析 java 文件等。 HTTrack 也可以识别并遵守 robots.txt 文件,处理 url hacks,例如...
robots.txt文件告诉搜索引擎哪些页面可以爬取,哪些不可以。有效使用robots.txt文件需注意: - **禁止爬取**:明确指出不希望被搜索引擎索引的页面或目录。 - **允许爬取**:默认情况下,应允许搜索引擎爬取网站的...
httrack会遵循robots.txt文件,这是搜索引擎爬虫的重要规范,用于指导爬虫哪些页面不应被抓取。对于URL统一性问题,httrack能处理www和非www,以及有无斜杠的情况,与搜索引擎处理方式一致。谷歌建议网站所有者在...
【标题】:豆瓣租房搜索引擎 【描述】:豆瓣租房搜索引擎是一个基于Python开发的项目,它旨在帮助用户更高效地在豆瓣平台上搜索并整理租房信息。这个搜索引擎能够抓取豆瓣租房板块的数据,对房源进行筛选、排序,以...
使用方法非常简单,在“Web 地址”里填上 URL 就可以了,然后点“选项”,先看“扫描规则”扫描规则搜索引擎也一定会有的,如不收录.exe 文件、zip 文件等等。 HTTrack 也可以探知一些 SEO 做法的由来,软件的使用...
8. 删除重复内容:统一URL,消除内容重复,有助于提升搜索引擎的友好性。 总的来说,搜索引擎惩罚的检查和解决需要细致入微的工作,关键在于遵守搜索引擎的规则,提供高质量的内容,并保持良好的外部链接策略。同时...
- **要点概述**:通过robots.txt文件告诉搜索引擎哪些页面可以索引,哪些不应被爬取。 - **技术实践**:编写正确的robots.txt规则,放置于网站根目录下。 #### 法则十三:合理的网站结构设计 - **要点概述**:根据...
16. **robots.txt** - 搜索引擎爬虫的限制配置,告诉爬虫哪些页面可以抓取,哪些禁止抓取。 17. **search.php** - 搜索入口文件,处理用户发起的论坛内容搜索。 18. **userapp.php** - 用户应用、游戏、漫游入口...
- **robots.txt**:搜索引擎爬虫规则文件。 - **search.php**:搜索页面处理文件。 - **userapp.php**:用户应用处理文件。 - **static**:静态资源文件夹,存放图片等资源。 - **template**:模板文件夹,存放模板...
robots.txt是一个公开的协议,用于告知网络爬虫(如搜索引擎机器人)哪些页面可以抓取,哪些页面不应被抓取。在这个案例中,robots.txt文件明确地对EmpireCMS系统的某些目录进行了禁止访问的设定。EmpireCMS,即帝国...
- **合规性**:尊重搜索引擎的robots.txt文件,遵循其抓取规则。 - **速率控制**:避免过于频繁的请求,防止被封IP。 - **数据清洗**:处理可能出现的编码问题,去除无关字符,统一格式。 - **持久化存储**:选择...
- `robots.txt`:用于阻止搜索引擎抓取特定页面。 - `search.php`:搜索功能入口。 - `userapp.php`:用户应用入口。 2. **API目录**:存放与Discuz!合作的第三方应用接口文件,通常不应修改。 3. **archiver...
10. `robots.txt`:这是一个告诉搜索引擎哪些页面可以抓取,哪些不能抓取的文件,对于站群管理和SEO策略制定至关重要。 总结起来,这个压缩包包含了一个完整的站群超级蜘蛛池系统的组成部分,涵盖了从网站配置、...
`robots.txt` 文件用于告诉搜索引擎哪些页面可以抓取,哪些不能。对于DZupload SEO论坛,这个文件可能已经配置好,指导搜索引擎专注于重要页面,避免抓取不必要的内容,节省爬虫资源。 `crossdomain.xml` 文件用于...
- 爬虫访问控制:通过robots.txt文件管理搜索引擎爬虫的访问权限。 综上所述,Magento SEO涉及多个层面,包括系统设置、URL结构、元信息、页面内容和外部因素。通过细致的优化,可以显著提升Magento店铺在搜索引擎...