笔者的话:
Joomla有自己的robot.txt。撰写的规则,可以查看根目录下的robot.txt即可。关于robot的官方写作方法可以查看: http://www.robotstxt.org/
下面是网上转载的内容。
==================转载内容==============
在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。
robots.txt基本介绍
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
robots.txt写作语法
首先,我们来看一个robots.txt范例:http://www.seovip.cn/robots.txt
访问以上具体地址,我们可以看到robots.txt的具体内容如下:
# Robots.txt file from http://www.seovip.cn
# All robots will spider the domain
User-agent: *
Disallow:
以上文本表达的意思是允许所有的搜索机器人访问www.seovip.cn站点下的所有文件。
具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。
下面,我将列举一些robots.txt的具体用法:
允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file
禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
只允许某个搜索引擎的访问(下例中的Crawler)
User-agent: Crawler
Disallow:
User-agent: *
Disallow: /
另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:
Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots META标签的写法:
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
其中
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
<META NAME="googlebot" CONTENT="index,follow,noarchive">
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。
分享到:
相关推荐
### RobotFramework 安装配置详解 #### 一、概述 本文档主要介绍如何在Windows环境下进行RobotFramework及其相关组件的安装配置。RobotFramework是一种用于自动化测试的通用框架,支持多种编程语言,尤其适用于Web...
本主题聚焦于使用"robot模拟人"在Windows环境下实现文件的自动化下载与上传,这涉及到一系列的技术点,包括但不限于Windows API调用、事件模拟、网络请求以及文件操作。 首先,"robot模拟人"通常指的是自动化测试...
在IT领域,"robot 3d 可执行文件"是一个涉及到计算机图形学、软件工程以及机器人模拟技术的主题。从标题和描述中我们可以提取出几个关键的知识点: 1. **Robot 3D**: 这通常指的是在三维环境中模拟或展示机器人的...
Robot Framework 的测试报告和日志文件是由其内置的 `rebot` 工具生成的,这个工具使用特定的模板文件来呈现报告和日志的布局与内容。 描述中提到了两个关键文件:“report.html” 和 “view.js”,它们是 Robot ...
在 Vscode 中,读者可以创建一个新的文件,并选择 Robot Framework 作为语言。然后,读者可以编写测试用例,并使用 RobotFramework 的关键字来定义测试步骤。 测试 RobotFramework 项目 编写好测试用例之后,读者...
Java编写的Robot类是Java AWT(Abstract Window Toolkit)库中的一个关键组件,主要用于模拟用户与图形用户界面的交互。这个类允许程序自动化执行一系列键盘和鼠标操作,这对于自动化测试、屏幕录制或需要无人干预的...
标题中的“pycharm怎么运行robot文件”涉及到的是在PyCharm集成环境中运行使用Robot Framework编写的测试脚本。Robot Framework是一个基于Python的功能自动化测试框架,它具有高度的可扩展性和关键词驱动特性,使得...
登录测试用例.robot
本篇文章主要关注如何利用Robot Framework的ExcelLibrary来读取Excel文件的内容。 首先,为了在Python 3环境中使用Robot Framework的ExcelLibrary,我们需要手动安装这个库,因为它不直接支持Python 3的pip安装。你...
在Robot Framework中,变量文件是用于存储测试数据中变量的一种机制。变量文件可以动态地创建各种类型的变量,提供比直接在测试数据中创建或命令行设置变量更大的灵活性。 变量文件通常采用Python模块的形式实现,...
综上所述,使用 Robot Framework 上传 "data folder" 需要结合库操作、文件系统交互、Web 控件的模拟点击、数据驱动测试、验证机制以及异常处理等多个知识点。熟练掌握这些技能,可以实现高效且可靠的自动化测试流程...
基于Python的robot Framework环境搭建简单一个脚本就搞定!
RobotFramework远程执行自动化测试是一种策略,它允许在不同的物理机器上分布执行测试用例,尤其在面对跨平台或复杂依赖关系的场景时非常有用。这种技术的核心在于利用RobotFramework的Remote Library,这是一个内置...
在项目中,我们可能会看到一个名为`robot_vision.launch`的文件,该文件包含了启动整个视觉系统的指令。 接下来,OpenCV的运用。OpenCV库提供了大量的函数和算法,用于图像处理、特征检测、物体识别等。在这个项目...
在这个文件中,你可以看到`Robot`实例的创建,以及上述方法的具体实现。通过使用`RobotUtil`,开发者无需直接与复杂的`Robot`类交互,而是可以直接调用这些友好的方法,从而提高代码的可读性和可维护性。 在实际...
**使用pabot并行执行robotframework用例** 在测试自动化领域,特别是在使用Robot Framework进行自动化测试时,可能会遇到测试用例执行时间过长的问题,这会影响整个测试流程的效率。为了解决这一问题,我们可以利用...
delta_robot_support包含全局启动文件,URDF和网格的项目。 delta_robot_kinematics包运动学库 delta_robot_img_processor ROS图像处理器,用于检测圆圈。 delta_robot_firmware Arduino src代码 delta_robot_...
WebRobot是一款强大的网页自动化工具,它能够帮助用户自动执行一系列在网页上的操作,例如数据抓取、表单填写、点击按钮等,极大地提高了工作效率。在本教程中,我们将深入探讨WebRobot的安装、配置、基本操作以及...
robot Framework report报告汉化,这两个文件是输出报告时使用的模版,它们分别是report.html和view.js,在目录”Python home”\Lib\site-packages\robot\htmldata\rebot下面
IBM Rational.Robot注册文件