用Robots.txt解决搜索引擎惩罚的问题。
引擎惩罚 --- 我们为获得在某一搜索引擎中的排名,会根据其排名规律设计页面,如果符合得很好,登记后会获得理想的排名。 但是由于各搜索引擎排名规则各异,某一页面只能在某一搜索引擎中的获得好的排名。 所以有人在站点中克隆页面,制定不同文件名,并修改页面原标记,以满足其他搜索引擎排名规则。 这样做被索引擎认为是异常克隆页面,会给予惩罚,不进行收录。
Robots.txt代码
User-agent: {SpiderNameHere}
Disallow: {FileNameHere}
*SpiderNameHere 指定的Spider名字
*FileNameHere 指定的页面名字
举例
不让Googlebot检索1.html和2.html页面:
User-agent: Googlebot
Disallow: /1.html
Disallow: /2.html
不让Googlebot的test目录下的1.html页面:
User-agent: Googlebot
Disallow: /test/1.htmt
不让Googlebot的test目录:
User-agent: Googlebot
Disallow: /test/
不让所有Spider检索1.html页面:
User-agent: *
Disallow: 1.html
不检索整个站点:
Disallow: /
User-Agent列表
AltaVista--------------Scooter
AOL Search-------------Slurp
DirectHit--------------Grabber
Excite-----------------ArchitextSpider
Fast-------------------Fast
Google-----------------Googlebot
Goto-------------------Slurp
Hotbot-----------------Slurp
Infoseek---------------Infoseek
Iwon-------------------Slurp
Lycos------------------Lycos
Looksmart Web Pages----Slurp
MSN--------------------Slurp
Netscape---------------Googlebot
NorthernLight----------Gulliver
WebCrawler-------------ArchitextSpider
Yahoo Web Pages--------Googlebot
分享到:
相关推荐
**robots.txt 文件详解** 在互联网世界中,搜索引擎的爬虫(Spider 或 Bot)扮演着重要角色,它们自动遍历网页并收集信息以构建搜索引擎的索引。为了规范爬虫的行为,网站管理员可以创建一个名为 `robots.txt` 的...
内容索引:脚本资源,Ajax/JavaScript,Robots 在线生成Robots.txt 的Js脚本,能帮助新手快速正确的建立 网站的Robots.txt文件,建立一个支持Google(谷歌) 、 Baidu(百度) baiduspider 、 Sogou(搜狗) sogou spider 、...
1如果允许所有搜索引擎访问网站的所有部分的话 我们可以建立一个空白的文本文档,命名为robots.txt放在网站的根目录下即可。 robots.txt写法如下: User-agent: * Disallow: 或者 User-agent: * Allow: / 2如果我们...
创建robots.txt文件,禁止不必要的内容被搜索引擎抓取,尽管该网站并无太多需要屏蔽的文件,但建立robots.txt文件可以避免因文件不存在产生的404错误。 内容更新是持续的工作,由于行业知识的限制,优化者选择从...
在这段代码中,首先通过`Server.CreateObject("Scripting.FileSystemObject")`创建了一个文件系统对象,然后获取了robots.txt文件的物理路径,并检查该文件是否存在。如果文件存在,则读取文件内容并检查是否符合...
3. 细节优化:包括标题、关键词和描述的撰写,建立Robots.txt文件,控制关键字密度等。 4. 使用网站地图,便于搜索引擎抓取和用户导航。 六、站外优化 1. 外部链接建设:通过各种途径获取高质量的外链,如博客、...
完整的robots.txt文件中突出显示了特定规则(如果适用)Cool eh!-Meta Robots Tag Any Robots将机器人引导至“ index”,“ noindex”,“ follow”或“ nofollow”的Meta标签会标记相应的红色,琥珀色或绿色图标。...
用户下载后,可以按照官方提供的安装指南进行安装和配置,以建立自己的PHPWind论坛站点。 关于PHPWind论坛的使用,有以下几个关键知识点: 1. **安装与配置**:首先,用户需要拥有一个支持PHP和MySQL的服务器环境...
robots.txt 文件列出了未公开的页面名称,用来告诉搜索引擎这些页面不在搜索范围之列。下面是一种方法: 1. 在浏览器地址栏中输入网站的 URL,例如“www.example.com”。 2. 在 URL 后面添加“/robots.txt”,例如...
对于Google,可以通过Google Search Console中的“robots.txt测试器”来测试和修改`robots.txt`文件,确保规则正确无误。 总的来说,屏蔽蜘蛛是一种精细控制搜索引擎如何处理网站内容的方法。正确地配置这些设置能...
robots.txt文件是用来告诉搜索引擎哪些页面可以抓取,哪些不可以。误用或滥用此文件可能导致整个网站被搜索引擎屏蔽。对于不熟悉robots.txt的人来说,应谨慎操作,以免无意间阻止了搜索引擎的正常爬取。如果不确定...
利用dirb工具扫描了80和443端口,找到了登录界面和robots.txt文件。在robots.txt中,我们发现了testingnotes.txt文件的线索,该文件包含了一些关键信息,比如用户名"terra"和加密密码的提示。通过观察testdata.txt...
在网站未完全准备好的时候,可以通过robots.txt文件阻止搜索引擎的抓取。当网站内容丰富、页面设置完善后,再解除屏蔽,这样可以给搜索引擎留下更好的第一印象,比如设置404错误页面以提高用户体验,创建网站地图...
- **robots.txt**:正确设置robots.txt文件,指导搜索引擎爬虫的抓取行为。 - **移动友好性**:确保网站在移动设备上的访问体验良好。 - **加载速度**:优化图片大小、减少HTTP请求等措施来提高页面加载速度。 ####...
此外,建立和维护有效的网站地图,合理配置robots.txt文件,运用站内外推荐策略,以及保持内容更新的频率和时效性,都是不可或缺的步骤。采取这些策略,不仅可以显著提高网站在搜索引擎中的可见性和收录率,而且对于...
6、建立网站地图与ROBOTS.txt文件 7、反向链接不等于关键词链接。网站要多做关键词反连接 8、一个网站最好一个关键词制定首页,多着容易让搜索引擎确定不了网站内容的主题 9、链接路径一定要是绝对路径并且是网站...
8. robots.txt:robots.txt 文件的设置对搜索引擎的爬虫爬取和网站的可见性有重要影响。 二、网站基本状况诊断 1. 域名信息:包括 Whois 信息、域名历史、PR 等。 2. 网站结构框架:包括网站的布局、框架、代码的...
1. **robots.txt.dist** - 这个文件是robots.txt文件的默认模板,用于指示搜索引擎爬虫哪些页面可以抓取,哪些应被禁止。用户应根据自己的需求进行编辑。 2. **index.php** - 这是网站的入口文件,它负责初始化...
5. `echo get robots.txt >> ftp.txt`:下载名为robots.txt的文件。 6. `echo bye >> ftp.txt`:完成FTP会话,断开连接。 这个批处理脚本可以通过运行`ftp -v -n < ftp.txt`来执行,其中`-v`选项用于显示详细的命令...
网站管理员通过robots.txt文件对爬虫行为进行限制,旨在保护个人隐私、避免不必要的网络流量负载、阻拦特定搜索引擎爬虫等。例如,一些社交媒体平台或内容分享网站可能禁止特定搜索引擎爬虫访问用户生成的内容,以...