`
xiaobian
  • 浏览: 587992 次
  • 来自: 北京
社区版块
存档分类
最新评论

python的robotparser模块

阅读更多
URL:http://nickcheng.com/2007/03/19/module-robotparser-in-python/

读一个Python的爬虫代码的时候看到一个名字叫做”robotparser”的模块, 查了一下, 是用来解析网站的”robots.txt”文件的. 用法很简单, 举个例子


rp = robotparser.RobotFileParser()
rp.set_url(”http://www.musi-cal.com/robots.txt”)
rp.read()
rp.can_fetch(”*”, “http://www.musi-cal.com/cgi-bin/search?city=San+Francisco”)  # return False
rp.can_fetch(”*”, “http://www.musi-cal.com/”)  # return True


程序很简单. 首先将类实例化, 然后用”set_url”方法设置”robots.txt”文件的路径, 这个文件一般都在网站的根目录. 接着调用”read”方法来解析这个文件. 最后就是用”can_fetch”方法来判断这个网站是否让你的程序(爬虫)访问某个网站内的链接了!

如果这个网站没有”robots.txt”文件的话, 在”read”方法后查看”rp.errcode”属性, 会看到404的返回值, 如果有这个文件就是200的返回值了!

相关链接

官方文档: http://docs.python.org/lib/module-robotparser.html

一个家伙不满意自带的这个东东, 自己又写了一个: http://nikitathespider.com/python/rerp/

robots.txt规范: http://www.robotstxt.org/wc/norobots.html

分享到:
评论

相关推荐

    python模块详解

    python模块详解 各个模块的详解 核心模块 1.1. 介绍 1.2. _ _builtin_ _ 模块 1.3. exceptions 模块 1.4. os 模块 1.5. os.path 模块 1.6. stat 模块 1.7. string 模块 1.8. re 模块 1.9. math 模块 1.10....

    pythonurllib模块下载图片共9页.pdf.z

    Python的`urllib`模块是Python标准库中的一个强大工具,用于处理URL相关的任务,包括网络数据的下载。在这个特定的场景中,我们看到标题提到的是"pythonurllib模块下载图片共9页.pdf.z",这暗示了一个使用`urllib`...

    Python标准库中文版.pdf

    网络协议部分是Python标准库的一个大块,包含了socket、select、asyncore、asynchat等基础网络编程模块,以及urllib、urlparse、cookie、robotparser、ftplib、gopherlib、httplib、poplib、imaplib、smtplib、...

    python标准库(中文版)

    robotparser模块用于解析robots.txt文件,ftplib、gopherlib、httplib、poplib、imaplib、smtplib、telnetlib和nntplib模块则分别提供了与各种网络协议交互的功能。 国际化方面,locale模块提供了C语言库的locale...

    python爬虫基础课件.pdf

    - urllib的robotparser模块用来解析robots.txt文件,可以用来判断爬虫是否可以访问目标网站的某些页面。 6. HTTP请求:爬虫通过HTTP协议与服务器进行交互。基本的HTTP请求包括GET和POST方法。GET通常用于请求...

    python标准库3.7.3.docx

    - **7.9 robotparser 模块**:用于解析robots.txt文件。 - **7.10 ftplib 模块**:提供了FTP协议的客户端实现。 - **7.11 gopherlib 模块**:提供了Gopher协议的客户端实现。 - **7.12 httplib 模块**:提供了HTTP...

    python标准库-书籍,原版-高清可复制

    - urllib、urlparse和robotparser模块:用于处理URL、解析URL。 - ftplib、gopherlib和httplib模块:提供对FTP、Gopher和HTTP服务器的接口。 - poplib、imaplib和smtplib模块:提供对邮件服务器的接口。 - telnetlib...

    python标准库

    robotparser模块提供了一个解析Robots.txt文件的解析器,用于确定爬虫的访问权限。 #### 7.9 ftplib模块 ftplib模块提供了一个FTP协议客户端的实现。 #### 7.10 gopherlib模块 gopherlib模块提供了一个Gopher协议...

    《Python标准库》中文版

    robotparser模块提供了解析Robots.txt文件的功能,用于爬虫遵守网站的爬取规则。 **7.10 ftplib模块** ftplib模块提供了FTP协议的客户端支持。 **7.11 gopherlib模块** gopherlib模块提供了Gopher协议的客户端支持...

    python标准库-329页

    * `robotparser` 模块:提供了机器人解析相关的功能。 * `ftplib` 模块:提供了 FTP 客户端相关的功能。 * `gopherlib` 模块:提供了 Gopher 客户端相关的功能。 * `httplib` 模块:提供了 HTTP 客户端相关的功能。

    python 标准库

    12. 其他模块:Python标准库还包含了一些其他功能的模块,如calendar、cmd、robotparser等。 在使用Python标准库时,程序员可以充分利用这些预构建的组件来减少代码量,提高开发效率,并减少可能引入的错误。而对于...

    python爬虫课程要点.docx

    在Python中,`urllib`库是一个重要的网络请求库,它包含了`request`、`error`、`parse`和`robotparser`四个模块,为爬虫提供了基础功能。 1. **urllib.request**模块 - **Request对象**:`Request`是发起HTTP请求...

    Python开发简单爬虫 概念学习截图

    4. **urllib.robotparser**:这个模块用于解析`robots.txt`文件。`robots.txt`是网站管理员提供给网络爬虫的指南,指示哪些页面可以抓取,哪些禁止抓取。遵循这些规则可以帮助我们更负责任地进行网络爬虫,避免对...

Global site tag (gtag.js) - Google Analytics