一、robots
robots主要作用是屏蔽一些不愿意让蜘蛛爬取的内容
如:联系我们,关于我们,动态,声明、死链接需要robots屏蔽
robots放于跟目录,蜘蛛先爬取robots。
可以通过查看日志来了解百度是否来过,如何查看百度蜘蛛是否来过我的网站
。
好处:
1、使网站变得更加纯洁。减少权重的分散!
2、清除站内垃圾
二、语法:
1)User-agent:User-agent:Baiduspider 定义百度
User-agent:googlebot 定义Google
User-agent:* 定义所有的
2)Disallow: 禁止爬去的语法
User-agent:Baiduspider
Disallow:/
User-agent:googlebot
Disallow:/
User-agent:* 禁止爬去所有的文件夹
Disallow:/
User-agent:Baiduspider
Disallow:/admin/ 禁止爬去admin文件夹
User-agent:*
Disallow:/ab/adc.html禁止爬去ab文件夹下面的adc.html所有文件
3)Allow:
当你想搜索引擎只爬取admin这个文件夹下的a.html 和b.html两个文件时 我们可以这样写
User-agent:* 定义所有的文件
Disallow:/admin/ 禁止爬取admin这个文件夹
Allow:/admin/a.html允许爬去
Allow:/admin/b.htmL
分享到:
相关推荐
Sim-to-Real: Learning Agile Locomotion For Quadruped Robots笔记 Sim-to-Real: Learning Agile Locomotion For Quadruped Robots笔记 Sim-to-Real: Learning Agile Locomotion For Quadruped Robots 笔记
谷歌师兄的leetcode刷题笔记爵士机器人 爵士机器人任务管理 共同点是主要的任务管理机制没有状态和解决冲突,一些生活问题的原因) 此外,我已经实现了 spring 云堆栈,但我没有将大哥大的单体产品分离到微服务中,...
- 另外,推荐阅读“狗王”的读书笔记,虽然篇幅不多,但能清晰解释核心思想。 3. **时间安排**: - 报名阶段:持续3周,从2019年12月2日至2019年12月22日。 - 通读阶段:4周,2019年12月9日至2020年1月5日,成员...
### Python爬虫实战笔记-股票爬取示例 #### 概述 本文旨在详细介绍Python爬虫的实际应用,尤其是针对股票数据的爬取和分析。文章首先通过模拟登录的例子介绍了如何利用Session对象保持登录状态;接着讲解了爬取API...
Python是当下流行的编程语言之一,以其简洁明了的语法和强大的功能被广泛应用在科学计算、数据分析、人工智能、网络开发等多个领域。以下内容将基于所提供的文件【部分内容】,提取出关于Python编程的核心知识点。 ...
10. 网络爬虫需遵循法律法规,尊重网站的Robots协议,不滥用资源,避免对网站造成过大负担。合理使用爬虫,避免个人信息泄露和其他侵权行为。 综上所述,本爬虫基础教程笔记涵盖Python爬虫的基本概念、关键技术和...
首先,Python之所以在爬虫领域广泛应用,得益于其简洁明了的语法和丰富的第三方库。其中,`requests`库用于发送HTTP请求,`BeautifulSoup`库则用于解析HTML或XML文档,`Scrapy`框架则提供了一整套高效的爬虫解决方案...
此外,活动还提供了两个参考资料:“小明的地下工作室”的博客和狗王的读书笔记,这些资源可以帮助参与者更好地理解并翻译书中的复杂概念和理论。 时间安排是项目管理的关键。翻译活动被划分为多个阶段,包括报名...
三、内容创作与优化 内容为王,高质量、原创且符合用户需求的内容能吸引搜索引擎的青睐。笔记可能涵盖了如何撰写SEO友好的标题和元描述,如何在内容中自然地嵌入关键词,以及如何利用多媒体元素(如图片、视频)丰富...
- `<meta name="robots" content="index, follow">` 控制搜索引擎如何索引当前页面。 5. **基本元素**: - **标题**: `<h1>` 至 `<h6>` 用于定义不同级别的标题。 - **段落**: `<p>` 用于定义段落。 - **字体...
在本篇“爬虫项目ge-processin开发笔记”中,我们将深入探讨如何构建一个高效的网络爬虫,并专注于处理和分析获取的数据。这个项目的核心是利用Python编程语言进行数据抓取和处理,结合图像处理技术,可能涉及到数字...
在“爬虫项目Music-main开发笔记”中,我们可以探索到一系列关于网络爬虫开发的知识点。网络爬虫是一种自动化程序,用于抓取互联网上的信息,通常用于数据分析、搜索引擎索引和内容聚合。在这个项目中,我们可能涉及...
【JSP应用笔记总结】 JSP(JavaServer Pages)是一种基于Java技术的动态网页开发工具,它允许开发者在HTML、XML或其他标记语言中嵌入Java代码,以实现服务器端的业务逻辑处理。以下是对JSP学习中一些关键知识点的...
- 网络爬虫需遵守robots.txt协议,尊重网站的抓取规则。 - 注意数据隐私,不得非法获取和使用个人信息。 - 合法合规,避免侵犯版权,遵循各地的网络法律法规。 9. **案例实战** - 实际项目案例分析,如抓取电商...
爬虫的学习笔记涉及了多种技术点和工具的使用,包括Python编程语言、BeautifulSoup库、正则表达式、re库以及Scrapy框架等。 首先,BeautifulSoup是一个用于解析HTML和XML文档的库,它能够从网页的源代码中提取数据...
在本篇【爬虫学习笔记:爬取古诗文网】中,我们探讨了一种针对古诗文网站的网络爬虫实现,目的是抓取古诗的内容、作者和朝代,并将这些信息保存到本地文件中。以下是具体的技术点和过程详解: 1. **目标网站**: ...
Python 爬虫学习笔记 Python 爬虫学习笔记是 Python 编程语言中的一种技术,用于从互联网上抓取有价值的数据。爬虫从本质上来说,就是利用程序在网上拿到对我们有价值的数据。爬虫能做很多事,能做商业分析,也能做...
`<meta>`标签用于提供关于HTML文档的元数据,如`robots`属性控制搜索引擎的行为,`name`属性可以设置作者、版权信息、描述和关键词等,对SEO至关重要。 4. **禁止缓存(No-Cache)**: `<meta HTTP-EQUIV="Cache-...