笔记之三-robots - - ITeye博客

`

a280606790

浏览: 486232 次
性别:
来自: 湖南

最近访客更多访客>>

paganini0102

Hello---World

yezhi3514

hellodota

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

youngcoder： good job
HTTP协议头部与Keep-Alive模式详解
javazdq：受教了解释的不错。
lucene创建索引高级特性和索引创建参数优化
josico：有几个问题想问下楼主1. LinkedBlockingQueu ...
生产者-消费者-BlockingQueue
annybz：有没有关于 BlockingQueue和ConcurrentL ...
生产者-消费者-BlockingQueue
uniquejava：多谢，记录的很真实。
DB2 学习记录

笔记之三-robots

博客分类：

j2ee

百度搜索引擎 HTML Google

阅读更多

一、robots

robots主要作用是屏蔽一些不愿意让蜘蛛爬取的内容

如：联系我们，关于我们，动态，声明、死链接需要robots屏蔽
robots放于跟目录，蜘蛛先爬取robots。

可以通过查看日志来了解百度是否来过，如何查看百度蜘蛛是否来过我的网站。

好处：
1、使网站变得更加纯洁。减少权重的分散！
2、清除站内垃圾

二、语法：

1）User-agent：User-agent:Baiduspider 定义百度
User-agent:googlebot 定义Google
User-agent:* 定义所有的
2）Disallow: 禁止爬去的语法
User-agent:Baiduspider
Disallow:/
User-agent:googlebot
Disallow:/
User-agent:* 禁止爬去所有的文件夹
Disallow:/
User-agent:Baiduspider
Disallow:/admin/ 禁止爬去admin文件夹
User-agent:*
Disallow:/ab/adc.html禁止爬去ab文件夹下面的adc.html所有文件
3）Allow：
当你想搜索引擎只爬取admin这个文件夹下的a.html 和b.html两个文件时我们可以这样写
     User-agent:*     定义所有的文件
     Disallow:/admin/ 禁止爬取admin这个文件夹
     Allow:/admin/a.html允许爬去
     Allow:/admin/b.htmL

分享到：

NameError: name 'admin' is not defined | HTTP协议头部与Keep-Alive模式详解

2011-06-16 16:13
浏览 1177
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Sim-to-Real: Learning Agile Locomotion For Quadruped Robots 笔记: Sim-to-Real: Learning Agile Locomotion For Quadruped Robots笔记 Sim-to-Real: Learning Agile Locomotion For Quadruped Robots笔记 Sim-to-Real: Learning Agile Locomotion For Quadruped Robots 笔记

谷歌师兄的leetcode刷题笔记-jazz-robots:爵士机器人任务管理: 谷歌师兄的leetcode刷题笔记爵士机器人爵士机器人任务管理共同点是主要的任务管理机制没有状态和解决冲突，一些生活问题的原因）此外，我已经实现了 spring 云堆栈，但我没有将大哥大的单体产品分离到微服务中，...

“Legged robots that balance“翻译活动计划及人员安排1: - 另外，推荐阅读“狗王”的读书笔记，虽然篇幅不多，但能清晰解释核心思想。 3. **时间安排**： - 报名阶段：持续3周，从2019年12月2日至2019年12月22日。 - 通读阶段：4周，2019年12月9日至2020年1月5日，成员...

“Legged robots that balance“翻译活动计划1: 此外，活动还提供了两个参考资料：“小明的地下工作室”的博客和狗王的读书笔记，这些资源可以帮助参与者更好地理解并翻译书中的复杂概念和理论。时间安排是项目管理的关键。翻译活动被划分为多个阶段，包括报名...

Python爬虫实战笔记-股票爬取示例.md: ### Python爬虫实战笔记-股票爬取示例 #### 概述本文旨在详细介绍Python爬虫的实际应用，尤其是针对股票数据的爬取和分析。文章首先通过模拟登录的例子介绍了如何利用Session对象保持登录状态；接着讲解了爬取API...

Python自学笔记.pdf-综合文档: Python是当下流行的编程语言之一，以其简洁明了的语法和强大的功能被广泛应用在科学计算、数据分析、人工智能、网络开发等多个领域。以下内容将基于所提供的文件【部分内容】，提取出关于Python编程的核心知识点。 ...

爬虫基础教程笔记.rar: 10. 网络爬虫需遵循法律法规，尊重网站的Robots协议，不滥用资源，避免对网站造成过大负担。合理使用爬虫，避免个人信息泄露和其他侵权行为。综上所述，本爬虫基础教程笔记涵盖Python爬虫的基本概念、关键技术和...

python爬虫-mast笔记: 首先，Python之所以在爬虫领域广泛应用，得益于其简洁明了的语法和丰富的第三方库。其中，`requests`库用于发送HTTP请求，`BeautifulSoup`库则用于解析HTML或XML文档，`Scrapy`框架则提供了一整套高效的爬虫解决方案...

《SEO每日一贴笔记》完整版: 三、内容创作与优化内容为王，高质量、原创且符合用户需求的内容能吸引搜索引擎的青睐。笔记可能涵盖了如何撰写SEO友好的标题和元描述，如何在内容中自然地嵌入关键词，以及如何利用多媒体元素（如图片、视频）丰富...

HTML CSS笔记（含HTML5 CSS3 sublime快捷键整理）.docx: - `<meta name="robots" content="index, follow">` 控制搜索引擎如何索引当前页面。 5. **基本元素**: - **标题**: `<h1>` 至 `<h6>` 用于定义不同级别的标题。 - **段落**: `<p>` 用于定义段落。 - **字体...

爬虫项目ge-processin开发笔记: 在本篇“爬虫项目ge-processin开发笔记”中，我们将深入探讨如何构建一个高效的网络爬虫，并专注于处理和分析获取的数据。这个项目的核心是利用Python编程语言进行数据抓取和处理，结合图像处理技术，可能涉及到数字...

爬虫项目Music-main开发笔记: 在“爬虫项目Music-main开发笔记”中，我们可以探索到一系列关于网络爬虫开发的知识点。网络爬虫是一种自动化程序，用于抓取互联网上的信息，通常用于数据分析、搜索引擎索引和内容聚合。在这个项目中，我们可能涉及...

JSP应用笔记总结——我的笔记: 【JSP应用笔记总结】 JSP（JavaServer Pages）是一种基于Java技术的动态网页开发工具，它允许开发者在HTML、XML或其他标记语言中嵌入Java代码，以实现服务器端的业务逻辑处理。以下是对JSP学习中一些关键知识点的...

python爬虫学习笔记.zip: - 网络爬虫需遵守robots.txt协议，尊重网站的抓取规则。 - 注意数据隐私，不得非法获取和使用个人信息。 - 合法合规，避免侵犯版权，遵循各地的网络法律法规。 9. **案例实战** - 实际项目案例分析，如抓取电商...

爬虫学习笔记.pdf: 爬虫的学习笔记涉及了多种技术点和工具的使用，包括Python编程语言、BeautifulSoup库、正则表达式、re库以及Scrapy框架等。首先，BeautifulSoup是一个用于解析HTML和XML文档的库，它能够从网页的源代码中提取数据...

爬虫学习笔记：爬取古诗文网: 在本篇【爬虫学习笔记：爬取古诗文网】中，我们探讨了一种针对古诗文网站的网络爬虫实现，目的是抓取古诗的内容、作者和朝代，并将这些信息保存到本地文件中。以下是具体的技术点和过程详解： 1. **目标网站**： ...

01 Python 爬虫学习笔记: Python 爬虫学习笔记 Python 爬虫学习笔记是 Python 编程语言中的一种技术，用于从互联网上抓取有价值的数据。爬虫从本质上来说，就是利用程序在网上拿到对我们有价值的数据。爬虫能做很多事，能做商业分析，也能做...

最全的html笔记: `<meta>`标签用于提供关于HTML文档的元数据，如`robots`属性控制搜索引擎的行为，`name`属性可以设置作者、版权信息、描述和关键词等，对SEO至关重要。 4. **禁止缓存（No-Cache）**： `<meta HTTP-EQUIV="Cache-...

Global site tag (gtag.js) - Google Analytics