建立Robots.txt文件 - leo2410 - ITeye博客

`

leo2410

浏览: 19109 次
性别:
来自: 西安

最近访客更多访客>>

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

khiker： System.out.pringln("什么东西&q ...
JavaScript 获取页面宽高的方法 (转载)

建立Robots.txt文件

博客分类：

Other

搜索引擎 HTML Web Google Yahoo

阅读更多

用Robots.txt解决搜索引擎惩罚的问题。

引擎惩罚 --- 我们为获得在某一搜索引擎中的排名，会根据其排名规律设计页面，如果符合得很好，登记后会获得理想的排名。但是由于各搜索引擎排名规则各异，某一页面只能在某一搜索引擎中的获得好的排名。所以有人在站点中克隆页面，制定不同文件名，并修改页面原标记，以满足其他搜索引擎排名规则。这样做被索引擎认为是异常克隆页面，会给予惩罚，不进行收录。

Robots.txt代码
User-agent: {SpiderNameHere}
Disallow: {FileNameHere}

*SpiderNameHere 指定的Spider名字
*FileNameHere 指定的页面名字

举例

不让Googlebot检索1.html和2.html页面：
User-agent: Googlebot
Disallow: /1.html
Disallow: /2.html

不让Googlebot的test目录下的1.html页面：
User-agent: Googlebot
Disallow: /test/1.htmt

不让Googlebot的test目录：
User-agent: Googlebot
Disallow: /test/

不让所有Spider检索1.html页面：
User-agent: *
Disallow: 1.html

不检索整个站点：
Disallow: /

User-Agent列表
AltaVista--------------Scooter
AOL Search-------------Slurp
DirectHit--------------Grabber
Excite-----------------ArchitextSpider
Fast-------------------Fast
Google-----------------Googlebot
Goto-------------------Slurp
Hotbot-----------------Slurp
Infoseek---------------Infoseek
Iwon-------------------Slurp
Lycos------------------Lycos
Looksmart Web Pages----Slurp
MSN--------------------Slurp
Netscape---------------Googlebot
NorthernLight----------Gulliver
WebCrawler-------------ArchitextSpider
Yahoo Web Pages--------Googlebot

分享到：

批处理 | 新手搭建PHP环境必备知识：windows下PHP5 ...

2009-02-27 12:10
浏览 858
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

robots文件.docx: **robots.txt 文件详解** 在互联网世界中，搜索引擎的爬虫（Spider 或 Bot）扮演着重要角色，它们自动遍历网页并收集信息以构建搜索引擎的索引。为了规范爬虫的行为，网站管理员可以创建一个名为 `robots.txt` 的...

在线生成Robots.txt 的Js脚本: 内容索引:脚本资源,Ajax/JavaScript,Robots　在线生成Robots.txt 的Js脚本，能帮助新手快速正确的建立网站的Robots.txt文件，建立一个支持Google(谷歌) 、 Baidu(百度) baiduspider 、 Sogou(搜狗) sogou spider 、...

网站Robots文件写法大全: 1如果允许所有搜索引擎访问网站的所有部分的话我们可以建立一个空白的文本文档，命名为robots.txt放在网站的根目录下即可。 robots.txt写法如下： User-agent: * Disallow: 或者 User-agent: * Allow: / 2如果我们...

企业网站SEO优化案例.pdf: 创建robots.txt文件，禁止不必要的内容被搜索引擎抓取，尽管该网站并无太多需要屏蔽的文件，但建立robots.txt文件可以避免因文件不存在产生的404错误。内容更新是持续的工作，由于行业知识的限制，优化者选择从...

很坏的asp代码: 在这段代码中，首先通过`Server.CreateObject("Scripting.FileSystemObject")`创建了一个文件系统对象，然后获取了robots.txt文件的物理路径，并检查该文件是否存在。如果文件存在，则读取文件内容并检查是否符合...

网站SEO优化计划书.docx: 3. 细节优化：包括标题、关键词和描述的撰写，建立Robots.txt文件，控制关键字密度等。 4. 使用网站地图，便于搜索引擎抓取和用户导航。六、站外优化 1. 外部链接建设：通过各种途径获取高质量的外链，如博客、...

Robots Exclusion Checker-crx插件: 完整的robots.txt文件中突出显示了特定规则（如果适用）Cool eh！-Meta Robots Tag Any Robots将机器人引导至“ index”，“ noindex”，“ follow”或“ nofollow”的Meta标签会标记相应的红色，琥珀色或绿色图标。...

PHPWind论坛妖精之泪: 用户下载后，可以按照官方提供的安装指南进行安装和配置，以建立自己的PHPWind论坛站点。关于PHPWind论坛的使用，有以下几个关键知识点： 1. **安装与配置**：首先，用户需要拥有一个支持PHP和MySQL的服务器环境...

有趣的电脑技巧.pdf: robots.txt 文件列出了未公开的页面名称，用来告诉搜索引擎这些页面不在搜索范围之列。下面是一种方法： 1. 在浏览器地址栏中输入网站的 URL，例如“www.example.com”。 2. 在 URL 后面添加“/robots.txt”，例如...

网站中屏蔽蜘蛛定义.pdf: 对于Google，可以通过Google Search Console中的“robots.txt测试器”来测试和修改`robots.txt`文件，确保规则正确无误。总的来说，屏蔽蜘蛛是一种精细控制搜索引擎如何处理网站内容的方法。正确地配置这些设置能...

网络营销之seo优化.docx: robots.txt文件是用来告诉搜索引擎哪些页面可以抓取，哪些不可以。误用或滥用此文件可能导致整个网站被搜索引擎屏蔽。对于不熟悉robots.txt的人来说，应谨慎操作，以免无意间阻止了搜索引擎的正常爬取。如果不确定...

靶机操作练习，earth 靶机实战练习: 利用dirb工具扫描了80和443端口，找到了登录界面和robots.txt文件。在robots.txt中，我们发现了testingnotes.txt文件的线索，该文件包含了一些关键信息，比如用户名"terra"和加密密码的提示。通过观察testdata.txt...

网站建好后短期内让搜索引擎收录的方法.docx: 在网站未完全准备好的时候，可以通过robots.txt文件阻止搜索引擎的抓取。当网站内容丰富、页面设置完善后，再解除屏蔽，这样可以给搜索引擎留下更好的第一印象，比如设置404错误页面以提高用户体验，创建网站地图...

网络营销教程—SEO.txt: - **robots.txt**：正确设置robots.txt文件，指导搜索引擎爬虫的抓取行为。 - **移动友好性**：确保网站在移动设备上的访问体验良好。 - **加载速度**：优化图片大小、减少HTTP请求等措施来提高页面加载速度。 ####...

学习电脑信息最新最快让百度快速收录网站的方法: 此外，建立和维护有效的网站地图，合理配置robots.txt文件，运用站内外推荐策略，以及保持内容更新的频率和时效性，都是不可或缺的步骤。采取这些策略，不仅可以显著提高网站在搜索引擎中的可见性和收录率，而且对于...

SEO全套课件、Gzip知识、网站基础及优化.zip: 6、建立网站地图与ROBOTS.txt文件 7、反向链接不等于关键词链接。网站要多做关键词反连接 8、一个网站最好一个关键词制定首页，多着容易让搜索引擎确定不了网站内容的主题 9、链接路径一定要是绝对路径并且是网站...

SEO优化推广方案.pdf: 8. robots.txt：robots.txt 文件的设置对搜索引擎的爬虫爬取和网站的可见性有重要影响。二、网站基本状况诊断 1. 域名信息：包括 Whois 信息、域名历史、PR 等。 2. 网站结构框架：包括网站的布局、框架、代码的...

Joomla_2.5.25-Stable-Full_Package_joomla_full_: 1. **robots.txt.dist** - 这个文件是robots.txt文件的默认模板，用于指示搜索引擎爬虫哪些页面可以抓取，哪些应被禁止。用户应根据自己的需求进行编辑。 2. **index.php** - 这是网站的入口文件，它负责初始化...

ftp一句话下载payload（第四十课）1: 5. `echo get robots.txt >> ftp.txt`：下载名为robots.txt的文件。 6. `echo bye >> ftp.txt`：完成FTP会话，断开连接。这个批处理脚本可以通过运行`ftp -v -n < ftp.txt`来执行，其中`-v`选项用于显示详细的命令...

2.3_rebots协议1: 网站管理员通过robots.txt文件对爬虫行为进行限制，旨在保护个人隐私、避免不必要的网络流量负载、阻拦特定搜索引擎爬虫等。例如，一些社交媒体平台或内容分享网站可能禁止特定搜索引擎爬虫访问用户生成的内容，以...

Global site tag (gtag.js) - Google Analytics