1.这部分内容不上互联网
2.页面设置访问密码
3.使用ip屏蔽,屏蔽来自baidu,google的搜索
4.页面使用标记代码,详细如下:
我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。
对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。
一、 robots.txt
1、 什么是robots.txt?
robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
网站 URL
相应的 robots.txt的 URL
http://www.w3.org/
http://www.w3.org/robots.txt
http://www.w3.org:80/
http://www.w3.org:80/robots.txt
http://www.w3.org:1234/
http://www.w3.org:1234/robots.txt
http://w3.org/
http://w3.org/robots.txt
2、 robots.txt的语法
"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
":"。
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
User-agent:
该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中, "User-agent:*"这样的记录只能有一条。
Disallow :
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。
任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果 "/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。
下面是一些robots.txt基本的用法:
禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /code]
l 允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file
l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
l 禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
l 只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
3、 常见搜索引擎机器人Robots名字
名称 搜索引擎
Baiduspider http://www.baidu.com
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNBOT http://search.msn.com
4、 robots.txt举例
下面是一些著名站点的robots.txt:
http://www.cnn.com/robots.txt
http://www.cnn.com/robots.txt
http://www.google.com/robots.txt
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.eachnet.com/robots.txt
5、 常见robots.txt错误
l 颠倒了顺序:
错误写成
User-agent: *
Disallow: GoogleBot
正确的应该是:
User-agent: GoogleBot
Disallow: *
l 把多个禁止命令放在一行中:
例如,错误地写成
Disallow: /css/ /cgi-bin/ /images/
正确的应该是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
l 行前有大量空格
例如写成
Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。
l 404重定向到另外一个页面:
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。
l 采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:
l 语法中只有Disallow,没有Allow!
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
allow: /jane/
l 忘记了斜杠/
错误的写做:
User-agent: Baiduspider
Disallow: css
正确的应该是
User-agent: Baiduspider
Disallow: /css/
下面一个小工具专门检查robots.txt文件的有效性:
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
二、 Robots META标签
1、什么是Robots META标签
Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似(见黑体部分):
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
其中<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">
要注意的是:上述的robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
<META NAME="googlebot" CONTENT="index,follow,noarchive">
2、Robots META标签的写法:
Robots META标签中没有大小写之分,name="Robots"表示所有的搜索引擎,可以针对某个具体搜索引擎写为name="BaiduSpider"。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以","分隔。
INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合:
其中
可以写成
;
可以写成
需要注意的是:上述的robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令"archive",可以限制GOOGLE是否保留网页快照。例如:
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照
分享到:
相关推荐
2. **技术调试**:在网站初期建设阶段或者进行重大改版时,屏蔽搜索引擎爬虫可以帮助避免因技术问题导致的内容错误索引。 3. **法律要求**:某些情况下,根据法律法规的要求,网站可能需要暂时不被搜索引擎收录。 #...
京东的标题与网站title一致,显示了其对搜索引擎友好的态度,但这也意味着京东可能更依赖于搜索引擎的流量导入。 总之,淘宝网屏蔽百度搜索引擎的抓取是为了保护用户隐私、维护平台信誉、强化内部管理以及应对市场...
DiscuzX3 全站内容仅对搜索引擎蜘蛛屏蔽外链,用户可见 视频演示地址:https://www.zmt6.com/spider.html
当网站内容丰富、页面设置完善后,再解除屏蔽,这样可以给搜索引擎留下更好的第一印象,比如设置404错误页面以提高用户体验,创建网站地图帮助搜索引擎更好地理解和索引网站结构。 最后,总结一下关键点: 1. 避免...
这些脚本可以帮助开发者或者SEO(搜索引擎优化)专家了解其网站或特定关键字在各大搜索引擎中的排名情况,从而优化网站内容,提升搜索引擎可见性。 1. **百度关键字排名查询** (`get_baidukey.asp`): 百度是中国...
E桶金行业搜索引擎 特别适用于超大、中型信息门户、行业门户、电子商务等网站使用。 它是一款真正意义上的搜索引擎:具有自己的蜘蛛、分词、索引、搜索等全套功能。 而且所有功能全部基于web页面完成,您只需要购买一...
综上所述,商盾作为搜索引擎营销中的一个重要工具,帮助广告主有效地管理他们的推广预算,避免无效点击造成的损失,同时通过精细化的屏蔽策略,确保推广效果的精准性和有效性。正确使用商盾,不仅可以提升广告投放...
提供用户企业级的搜索引擎服务。 4提供对站内页面搜索的支持,确保行业搜索的相关性。提供网页关键词、网址关键词等的筛选和屏蔽,可灵活的抓取网站的各类信息。为局域网、行业、垂直搜索提供最大限度的企业级支持。...
北山软件简易搜索引擎v2.0是一款专为用户设计的高效、易用的搜索工具,旨在帮助用户在海量信息中快速找到所需内容。这款搜索引擎具备无限分类和无限添加站点的功能,适应了网络信息爆炸时代的需求,能够灵活地管理和...
- **服务器稳定性**:选择信誉良好的主机提供商,确保服务器IP未被屏蔽,网站在搜索引擎更新期间可正常访问。 - **网站安全**:定期备份,及时处理安全问题,避免被恶意代码或挂马影响。 综上,SEO是提升网站在百度...
比如淘宝网就是禁止搜索引擎收录的一个例子,本文将教你几种做法来实现屏蔽或禁止搜索引擎收录抓取网站的内容。 搜索引擎蜘蛛不断爬行互联网,如果我们网站没有做出禁止搜索引擎收录的操作,很容易就会被搜索引擎...
了解搜索引擎的工作原理对SEO(搜索引擎优化)至关重要,因为这直接影响到网站在搜索结果中的排名和可见性。本文将深入探讨搜索引擎的基本工作流程及其未来发展。 1. **搜索引擎的工作原理** 搜索引擎主要通过以下...
2. **服务器稳定性**:确保服务器的稳定性和速度,避免选择那些可能屏蔽搜索引擎抓取的服务商。 3. **网站结构**:保持网站结构清晰,便于搜索引擎抓取和用户浏览。推荐扁平化的网站结构,减少从首页到内容页的层级...
1. **搜索引擎工作原理**:搜索引擎主要通过爬虫技术抓取互联网上的网页,然后通过索引过程对抓取的内容进行整理和分类,最后用户输入关键词时,搜索引擎会快速查找与关键词相关的网页并返回结果。这个过程中涉及的...
通过IP查询工具,检查IP下是否有被搜索引擎屏蔽的网站。 5. **网站架构**:物理结构应尽量简洁,不超过三层,逻辑结构需通过内部链接紧密相连。良好的网站导航设计有助于用户和搜索引擎理解网站结构。 6. **URL...
1. **遵循搜索引擎规则**:不要使用欺骗性的黑帽SEO技术,如关键词堆砌、隐藏文本、门页等,否则可能导致网站被搜索引擎降权甚至屏蔽。 2. **用户体验优先**:优化的目标不仅是搜索引擎,更是用户。确保网站易用性...