`
flashdream8
  • 浏览: 675499 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

简谈BeautifulSoup的使用

 
阅读更多

Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。 对于Ruby,使用Rubyful Soup。

Beautiful Soup的官方中文文档地址:

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html

1.Beautiful Soup的下载和安装

下载地址:http://www.crummy.com/software/BeautifulSoup/download/3.x/

推荐下载BeautifulSoup-3.2.0.tar.gz

Windows环境下:

直接用Winrar或者其他解压软件解压,然后运行cmd(在Beautiful Soup-3.2.0的文件夹下shift+鼠标右键即可),输入:

setup.py install

然后Beautiful Soup的文件就自动复制到了Python\Lib\site-packages下面,运行BeautifulSoupTests.py,测试是否安装成功即可。

2.Beautiful Soup的使用

(1)一般来说下面三句选择一句合适的即可

from BeautifulSoup import BeautifulSoup     # For processing HTML

from BeautifulSoup import BeautifulStoneSoup     # For processing XML

import BeautifulSoup     # To get everything

(2)创建Beautiful Soup对象

from BeautifulSoup import BeautifulSoup

html = "<html><p>Para 1<p>Para 2<blockquote>Quote 1<blockquote>Quote 2"

soup = BeautifulSoup(html)

不用担心,BeautifulSoup 会智能判断那些需要添加关闭标签的位置,即使原始的文档没有。

(3)Beautiful Soup常用的方法

soup.prettify()  规范化html,包括缩进和自动闭合部分标签

soup.find(name, attrs, recursive, text, **kwargs)  参数name 匹配tags的名字、keyword参数用于筛选tag的属性,此外还可以根据Css类进行匹配

 

分享到:
评论

相关推荐

    简谈Windows下的反调试技术.pdf

    简谈Windows下的反调试技术 简谈Windows下的反调试技术 简谈Windows下的反调试技术 简谈Windows下的反调试技术 简谈Windows下的反调试技术 简谈Windows下的反调试技术

    简谈工程项目成本管理.doc

    简谈工程项目成本管理.doc

    简谈公司员工绩效承诺.doc

    简谈公司员工绩效承诺.doc

    房地产开发流程简谈.pptx

    房地产开发流程简谈.pptx

    简谈英文自我介绍精选.doc

    简谈英文自我介绍精选.doc

    简谈ERP上机实验心得体会.doc

    简谈ERP上机实验心得体会

    简谈jdk动态代理

    ### 简谈JDK动态代理 #### 一、引言 JDK动态代理机制是Java反射机制的一个重要应用,它允许程序在运行时创建一个实现了特定接口的新类实例,并且能够控制这些新类实例的方法调用行为。这种机制不仅提高了代码的灵活...

    简谈计算机应用基础教学.doc

    简谈计算机应用基础教学 简谈计算机应用基础教学 任务驱动教学法是一种建立在建构主义学习理论基础上的教学法,怎样分析计算 机应用基础教学? 一、引言 从事中职计算机教学多年来,发现了一个非常普遍的现象,即使...

    计算机网络安全漏洞防范简谈.pdf

    计算机网络安全漏洞防范简谈.pdf

    简谈校园网络安全方案的设计.pdf

    简谈校园网络安全方案的设计.pdf

    班级管理方法简谈.doc

    "班级管理方法简谈" 班级管理是学校教育中的一项重要工作,直接关系到学生的学习和成长。在《班级管理方法简谈》中,作者卢海战提出了五点班级管理方法,旨在提高班级管理的效率和质量。 首先,作者强调了加强学生...

    欧柏泰克:.NET简谈面向接口编程

    欧柏泰克:.NET 简谈面向接口编程 面向接口编程是一种高抽象的开发模式,旨在将类与类之间的关系提升到一个更高的抽象层次。这种编程方式可以帮助开发人员更好地设计和实现软件系统,从而提高开发效率和质量。 在...

    手机成像技术简谈.doc

    【手机成像技术简谈】 手机成像技术是现代生活中不可或缺的一部分,随着智能手机的发展,越来越多的人选择使用手机作为日常拍照的主要工具。手机成像技术的关键在于如何在各种环境条件下捕捉到理想亮度的照片,这...

    简谈音乐教育教学课程改革-魏晓媛共4页.pdf.zip

    很抱歉,根据您提供的信息,"简谈音乐教育教学课程改革-魏晓媛共4页.pdf.zip" 和 "赚钱项目" 这些内容并不属于IT知识领域。标题和描述提到的是关于音乐教育课程改革的学术文章,而标签内容也是对这篇文章的作者和...

    windows和Linux中DLL简谈

    动态链接库(DLL,Dynamic Link Library)是一种在Windows和Linux操作系统中广泛使用的共享库,它包含可被多个程序共享的代码和数据。动态链接库允许程序在运行时加载和使用所需的函数,而不是在编译时就将所有依赖...

    房地产开发流程简谈(PPT 67页).pptx

    房地产开发流程简谈(PPT 67页).pptx

    简谈互联网时代高校辅导员的管理工作方法.pdf

    简谈互联网时代高校辅导员的管理工作方法.pdf

    简谈buntu之DIY发行版.pdf

    ### 知识点生成:简谈Ubuntu之DIY发行版 #### 1. 概述 随着二十一世纪的到来,个性化需求愈发明显,这不仅体现在日常生活中,也体现在技术领域,比如自定义操作系统(OS)。本文将详细介绍如何通过简单的步骤DIY一...

    简谈三菱PLC编程软件概要.docx

    【标题】:简谈三菱PLC编程软件概要 【描述】:本文旨在概述三菱PLC编程软件的主要特点和用途,适用于不同的三菱可程序设计控制器系列。 【标签】:互联网,cs 【正文】: 三菱PLC编程软件是工业自动化领域广泛...

Global site tag (gtag.js) - Google Analytics