`
sbpya
  • 浏览: 621991 次
  • 性别: Icon_minigender_1
  • 来自: 杭州,长沙
社区版块
存档分类
最新评论

使用robots.txt文件控制对您网站的访问打印

阅读更多

第一部分:robots.txt基本介绍

 

robots.txt基本介绍

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt写作语法

首先,我们来看一个robots.txt范例:http://www.seovip.cn/robots.txt

访问以上具体地址,我们可以看到robots.txt的具体内容如下:

# Robots.txt file from http://www.seovip.cn
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问www.seovip.cn站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

下面,我将列举一些robots.txt的具体用法:

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 "/robots.txt" file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:

<META NAME="googlebot" CONTENT="index,follow,noarchive">

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

 

第二部分:使用 robots.txt 文件控制对您网站的访问

 

创建自己的 robots.txt 文件后,请用 robots.txt 作为文件名将其保存到网站域名的根目录下。 漫游器会在此位置对您的文件进行检查。 如果您将文件保存在其他位置,漫游器便无法找到文件。

您也可以使用任何文本编辑器手动创建此 robots.txt 文件。 该文件应为 ASCII 编码的文本文件,而非 HTML 文件。 文件名应使用小写字母。

语法

最简单的 robots.txt 文件使用两条规则:

  • User-agent:应用下列规则的漫游器
  • Disallow:要拦截的网址

这两行会视为文件中的一个条目。 您可根据需要包含任意多个条目。 您可在一个条目中包含多个 Disallow 行和多个 User-agent。

User-agent 行中应列出什么内容?

User-agent 是一种特定的搜索引擎漫游器。 网络漫游器数据库列出了许多常用的漫游器。 您可以将某一条目设置为应用于特定漫游器(通过列示名称)或应用于所有漫游器(通过列示星号)。 应用于所有漫游器的条目应与下列条目类似:

User-agent: *

Google 使用多种不同的漫游器 (user-agent)。 用于网络搜索的漫游器是 Googlebot。 Googlebot-Mobile 和 Googlebot-Image 等其他漫游器也遵循您为 Googlebot 设置的规则,但您也可以为这些特定漫游器设置特定的规则。

Disallow 行中应列出什么内容?

 

Disallow 行列出的是您要拦截的网页。 您可以列出某一具体网址或网址模式。 条目应以正斜杠 (/) 开头。

  • 要拦截整个网站,请使用正斜扛。
    Disallow: /
  • 要拦截目录及其中的所有内容,请在目录名后添加正斜杠。
    Disallow: /junk-directory/ 
  • 要拦截某个网页,请列出该网页。
    Disallow: /private_file.html
  • 要从 Google 图片搜索中删除特定图片,请添加如下内容:
    User-agent: Googlebot-Image
    Disallow: /images/狗.jpg 
  • 要从 Google 图片搜索中删除网站上的所有图片
    User-agent: Googlebot-Image
    Disallow: / 
  • 要拦截某一特定文件类型的文件(例如 .gif),请使用以下内容:
    User-agent: Googlebot
    Disallow: /*.gif$
  • 要在阻止网站页面被抓取的同时仍然在这些页面上显示 AdSense 广告,请禁止除 Mediapartners-Google 以外的所有漫游器。 这样可使页面不出现在搜索结果中,同时又能让 Mediapartners-Google 漫游器分析页面,从而确定要展示的广告。 Mediapartners-Google 漫游器并不与其他 Google User-agent 共享网页。 例如:
    User-agent: *
    Disallow: /folder1/
    
    User-agent: Mediapartners-Google
    Allow: /folder1/

请注意,指令区分大小写。 例如, Disallow: /junk_file.asp 会拦截 http://www.example.com/junk_file.asp,但会允许 http://www.example.com/Junk_file.asp。

模式匹配

Googlebot(但不是所有搜索引擎)遵循某些模式匹配。

  • 要匹配连续字符,请使用星号 (*)。例如,要拦截对所有以 private 开头的子目录的访问:
    User-agent: Googlebot
    Disallow: /private*/
  • 要拦截对所有包含问号 (?) 的网址的访问(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串),可使用以下条目:
    User-agent: Googlebot
    Disallow: /*?
  • 要指定与某个网址的结束字符相匹配,请使用 $。 例如,要拦截以 .xls 结束的所有网址,请使用:
    User-agent: Googlebot 
    Disallow: /*.xls$

    您可将此模式匹配与 Allow 指令配合使用。 例如,如果 ? 代表一个会话 ID,您可能希望排除包含 ? 的所有网址,以便确保 Googlebot 不会抓取重复网页。 但是以 ? 结束的网址 可能是您希望包含的网页的版本。 在此情况下,您可以对 robots.txt 文件进行如下设置:

    User-agent: *
    Allow: /*?$
    Disallow: /*?

    Disallow: / *? 指令将阻止包含 ? 的所有网址 (具体而言,它将拦截所有以您的域名开头、后接任意字符串,然后是问号,而后又是任意字符串的网址)。

    Allow: /*?$ 指令将包含以 ? 结束的所有网址 (具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号 (?),问号之后没有任何字符的网址)。

第三部分:如何拦截或允许 Googlebot?

 

拦截 Googlebot
Google 使用多个 user-agent。 您可以在条目的 User-Agent 行中包含漫游器名称来拦截对网页的访问。 拦截 Googlebot 将会拦截所有以"Googlebot"开头的漫游器。

  • Googlebot:从我们的网站索引和新闻索引中抓取网页
  • Googlebot-Mobile:针对我们的移动索引抓取网页
  • Googlebot-Image:针对我们的图片索引抓取网页
  • Mediapartners-Google:抓取网页以确定 AdSense 的内容。 您的网站上展示有 AdSense 广告的情况下,我们才会使用此漫游器来抓取您的网站。
  • Adsbot-Google:抓取网页来衡量 AdWords 目标网页的质量。 只有在您使用 Google AdWords 为您的网站做广告的情况下,我们才会使用此漫游器。

例如,要完全拦截 Googlebot,您可以使用下列语法:

User-agent: Googlebot
Disallow: /

允许 Googlebot

如果您想拦截除了漫游器之外的所有访问,可以使用下列语法(请注意:如果您希望网站出现在其他搜索引擎的搜索结果中,如 MSN 和 Yahoo!,我们建议您不要进行此操作):

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

Googlebot 会跟随指向它自己的行,而非指向所有漫游器的行。

"Allow"扩展名
Googlebot 可识别称为"Allow"的 robots.txt 标准扩展名。 其他搜索引擎的漫游器可能无法识别此扩展名,因此在使用您感兴趣的其他搜索引擎时请确定其是否识别此扩展名。 "Allow"行的作用原理与"Disallow"行完全一样。 只需列出您要允许的目录或页面即可。

您也可以同时使用"Disallow"和"Allow"。 例如,要拦截子目录中某个页面之外的其他所有页面,可以使用下列条目:

User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/myfile.html

这些条目将拦截 folder1 目录内除 myfile.html 之外的所有页面。

如果您要拦截 Googlebot 并允许 Google 的另一个漫游器(如 Googlebot-Mobile),可使用"Allow"规则允许该漫游器的访问。 例如:

User-agent: Googlebot
Disallow: /

User-agent: Googlebot-Mobile
Allow: /
<noscript type="text/javascript"></noscript>

分享到:
评论

相关推荐

    zip文件爬虫程序代码QZQ.txt

    7. 网络爬虫的合法性:网络爬虫应当遵守robots.txt协议,并尊重目标网站的版权和使用规定。未经允许的爬取行为可能侵犯版权或违反相关法律法规。 8. Python异常处理:在实际编写爬虫时,应当添加适当的异常处理机制...

    rar文件爬虫程序代码QZQ.txt

    在实际使用爬虫程序时,需要遵守相关法律法规,以及网站的robots.txt文件定义的抓取协议。未经允许抓取和分发网站内容可能涉及侵犯版权、违反隐私权或违反服务条款等法律问题。此外,频繁的请求也可能对服务器造成过...

    rar爬虫代码QZQ.txt

    8. 注意事项:在实际使用网络爬虫时,需要遵守目标网站的Robots.txt规则,并确保爬取行为不违反相关法律法规。 以上内容详细阐述了代码涉及的技术点和操作流程,为理解和复用这段代码提供了必要的背景知识。

    python语言hdnj爬虫程序代码QZQ.txt

    需要注意的是,网络爬虫的编写和使用应遵守相关法律法规和网站的robots.txt文件规定,不得用于非法或不道德的目的。 此外,为避免服务器过载或触发反爬机制,合理设置爬虫的请求间隔和处理异常情况也是编写爬虫程序...

    一个简化的示例,使用Python的requests库来抓取网页内容,并使用BeautifulSoup库来解析HTML

    遵守robots.txt:在编写爬虫时,请确保你遵守目标网站的robots.txt文件规定。 不要过度请求:避免在短时间内发送大量请求到同一网站,这可能会导致你的IP被暂时或永久封禁。 处理异常:在上面的示例中,我只检查了...

    python语言douban爬虫程序代码QZQ.txt

    Python语言爬虫程序实现豆瓣电影Top ... - 在实际编写和运行爬虫程序时,应遵守网站的robots.txt协议,尊重网站爬取规则。 - 考虑到网站的负载,应当适当控制爬虫的抓取频率,避免对服务器造成不必要的压力。 10. :

    jj爬虫程序代码QZQ.txt

    12. 网络数据抓取的合法性:实际使用时,进行网络数据抓取需要注意遵守相关网站的爬虫协议(robots.txt),同时避免对网站造成过大的访问压力。 13. 代码注释:代码中很多行前面有#号,表示这些行为注释行,用于...

    pdfpython爬虫程序代码QZQ.txt

    7. 爬虫程序的合规性:爬虫程序应遵守robots.txt规则和网站的使用条款,尊重网站的版权和数据使用政策。在抓取数据时,应确保不会对目标网站造成过大的负载,合理设置请求间隔,避免对服务器造成不必要的负担。 8. ...

    python语言音乐爬虫程序代码QZQ.txt

    编写爬虫程序时,开发者应当遵循robots.txt文件的规定,尊重版权和内容提供商的使用条款,避免侵犯版权或进行非法下载。 此外,音乐爬虫程序的设计可能会涉及到更多的技术和策略,比如多线程或异步处理以提高下载...

    图片jpg爬虫代码QZQ.txt

    在实际使用中,下载图片需要考虑网站的robots.txt文件、版权法律和用户协议等因素,确保爬虫行为合法合规。 此外,本段代码展示了基本的爬虫工作流程,但针对更复杂网站的爬取任务,可能需要更高级的技术,例如处理...

    python语言fengjintupian爬虫程序代码QZQ1.txt

    此外,编写爬虫程序时需要考虑到遵守网站robots.txt规则,尊重版权和隐私,以及考虑程序的健壮性和异常处理。同时,由于网站结构随时可能发生变化,需要适时更新爬虫代码以确保其正常运行。在爬取大量数据时,还应...

    python语言xfengjintupian爬虫程序代码QZQ.txt

    - **尊重robots.txt协议**:许多网站都有一个名为`robots.txt`的文件,用于告诉爬虫哪些页面可以抓取,哪些不可以。 - **遵守法律法规**:网络爬虫在抓取网站数据时,必须遵守相关法律法规,尤其是版权法和个人隐私...

    python语言tqyb爬虫程序代码QZQ.txt

    此外,对网络爬虫进行编码时还应注意遵守目标网站的robots.txt协议,避免给网站服务器带来不必要的负载,并且尊重网站的数据使用政策。在实际应用中,爬虫的设计往往需要考虑到网站结构的变化,因此代码需要具有一定...

    pythonpdf爬虫程序.txt

    在实际使用爬虫程序时,需要注意遵守相关法律法规,尊重网站的robots.txt协议,以及遵守网站的使用条款,避免对网站造成过大负载或不当抓取行为。此外,考虑到网站结构和资源链接可能发生变化,程序的稳定性和适应性...

    python语言biaoqingtupian爬虫程序代码QZQ.txt

    11. 爬虫的礼貌性:在进行网络爬取时,应当注意遵守robots.txt协议,以及减少对目标网站的访问频率,避免对网站造成过大压力。 12. 错误处理:在实际爬虫编写中,还需要考虑异常处理,如请求失败、网络异常等,以...

    pythonpdf爬虫程序代码.txt

    同时,需要注意的是,在进行网络爬取时,应遵守网站的robots.txt协议,并尊重版权和隐私,以免违反相关法律法规。 6. 异常处理:在实际的爬虫程序中,还需要考虑异常处理机制。例如,如果网络请求失败或者服务器...

    zip爬虫程序代码QZQ.txt

    在使用网络爬虫时,开发者需要遵守目标网站的robots.txt规则以及其他相关法律法规,尊重版权和网站的使用条款。此外,长时间无节制地向服务器发送请求可能会对网站造成负担,严重时甚至可能被认为是恶意行为,因此...

    基于Python的实用网页爬虫脚本

    请遵守网站的robots.txt文件和使用条款,不要对网站造成过大的访问压力。 对于某些需要登录或特殊处理的网站,可能需要使用更复杂的爬虫技术或工具。 本脚本仅用于学习和研究目的,请勿用于非法或恶意用途。

    通过python使用requests库模拟发送http请求并解析.rar

    4、在实际使用中,请遵守目标网站的robots.txt文件和服务条款,不要进行恶意爬取或过度请求。 5.这个爬虫没有处理JavaScript渲染的内容。如果目标网站使用JavaScript动态加载内容,你可能需要使用像Selenium这样的...

    同花顺信息爬虫代码QZQ.txt

    需要遵循网站的robots.txt规则,并在使用爬虫时尊重网站版权和隐私政策。对于非公开数据的爬取,可能涉及法律风险和道德问题,因此在设计爬虫程序时需要考虑合法合规性。 除了技术层面,爬虫的用途也十分广泛,例如...

Global site tag (gtag.js) - Google Analytics