`
xpenxpen
  • 浏览: 723372 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Beautiful Soup初步

阅读更多
1.简介
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。同时,他对不规范的html的容错能力也是很强的。
java中与之类似的工具包是jsoup。

环境;
win7 64bit
cygwin 64bit
python 2.7
pip 1.5.6
beautifulsoup4 4.3.2

2. 安装
使用pip安装很简单
$ pip install beautifulsoup4

3. 测试
继续沿用前2篇文章用到的bad.html测试

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("bad.html"))
print(soup.prettify())
print('\n')
print(soup.a['href'])


相当简单了,代码不言自明。和jsoup也是相当的像,只不过用python可以比java少敲一些代码。

4. 链接
Beautiful Soup 4.2.0中文文档
jsoup
jsoup Cookbook(中文版) 
分享到:
评论

相关推荐

    Beautiful Soup 4.4.0 文档 chm

    Beautiful Soup 4.4.0 文档 Beautiful Soup 4.4.0 文档 Beautiful Soup 4.4.0 文档

    Beautiful Soup爬虫框架在Python爬虫开发中的重要性

    内容概要: Beautiful Soup是Python中的一个强大...Beautiful Soup有很多优点,如能够按照标签、属性、字符串等方式检索文档,可以修改文档的编码、属性等,在Python爬虫开发中,Beautiful Soup是非常重要的工具之一。

    Beautiful Soup 4.4.0 文档

    - 示例: `soup.select('.title')` 查找所有 class 为 title 的标签。 #### 7. 修改文档树 - **方法**: - 修改 Tag 名称和属性: `tag.name = 'new_name'`, `tag['class'] = 'new_class'` - 修改字符串: `tag....

    HTML解析库Beautiful Soup.7z

    1. **安装Beautiful Soup**:在Python环境中,通常通过pip来安装这个库,命令为`pip install beautifulsoup4`。同时,由于Beautiful Soup通常与另一个库如`lxml`或`html.parser`一起使用,因此还需要安装对应的解析...

    Getting Started with Beautiful Soup by Vineeth G. Nair.pdf

    ### Beautiful Soup 入门 #### 一、概述 《Getting Started with Beautiful Soup》是一本由Vineeth G. Nair撰写的关于Python网页抓取工具Beautiful Soup的书籍。本书主要面向那些希望学习如何构建自己的网页抓取器...

    beautiful soup

    **Beautiful Soup:Python网页解析库** Beautiful Soup是一个Python库,专为解析HTML和XML文档而设计。它能够将复杂的网页结构转换成一个简单的导航、搜索和修改数据的树形结构,使得开发者可以轻松地提取所需的...

    Python 爬虫入门的教程之Beautiful Soup解析

    Python 爬虫入门教程之 Beautiful Soup 解析 本教程主要讲解 Python 爬虫入门知识,通过 Beautiful Soup 解析网页,抓取中国旅游网首页信息,了解网页结构,使用 requests 库抓取网站数据,并进行数据清洗和组织。 ...

    Beautiful Soup.pdf

    print(soup.prettify()) ``` 5. **信息的标记形式** - **XML**:扩展标记语言,用于结构化数据,支持注释。 - **JSON**:JavaScript对象表示法,类似于Python的字典,没有注释。 - **YAML**:一种轻量级的数据...

    Python爬虫利器二之Beautiful Soup的用法.zip_python_爬虫_爬虫 python_爬虫 pyth

    本教程将深入探讨如何利用Beautiful Soup进行高效且精准的网络爬虫开发。 首先,让我们了解什么是Beautiful Soup。Beautiful Soup是由Leonard Richardson编写的Python库,它提供了一种简单的方式来导航、搜索和修改...

    Beautiful Soup4.2.0 中文文档

    Beautiful Soup不仅能够处理不规则或损坏的标记,还能够通过不同的解析器将标记转化为BeautifulSoup对象。 Beautiful Soup库能够兼容多种HTML和XML解析器,包括Python标准库中的`html.parser`,以及第三方库如`lxml...

    Beautiful Soup 4.2.0 中文文档 mobi

    Beautiful Soup 4.2.0 中文文档 mobi Beautiful Soup 4.2.0 中文文档 mobi

    Python 使用Beautiful Soup 爬虫教程.pdf

    **Python使用Beautiful Soup爬虫教程** Beautiful Soup是一个强大的Python库,专门用于从HTML和XML文档中提取数据。它提供了一种简单易用的接口,帮助开发者解析和导航复杂的网页结构。在本教程中,我们将深入探讨...

    使用Python的Requests库和Beautiful Soup库来爬取豆瓣电影Top250的数据

    movie_names = [item.find('span', {'class': 'title'}).text for item in soup.find_all('div', {'class': 'hd'})] ``` 同样的方式,我们可以提取评分、评价人数等其他信息。 5. 存储和处理数据: 最后,我们可能...

    完整版精品Python网络爬虫教程 数据采集 信息提取课程 04-Beautiful Soup库入门(共53页).pptx

    【Python网络爬虫与Beautiful Soup库入门】 网络爬虫是一种自动化获取互联网信息的程序,它通过模拟人类浏览器的行为,从网站上抓取所需的数据。在Python中,Beautiful Soup库是用于解析HTML和XML文档的强大工具,...

    Beautiful Soup 4官方翻译版.pdf

    Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup 会帮你节省数小时甚至数天的工作时间

    Beautiful Soup documentation.pdf

    1. **安装**: 首先确保安装了Beautiful Soup,可以通过pip安装: ```bash pip install beautifulsoup4 ``` 2. **导入库**: ```python from bs4 import BeautifulSoup ``` 3. **解析HTML**: ```python soup...

    Python中使用Beautiful Soup库的超详细教程

    在Python2.x版本中,Beautiful Soup 4(BS4)是常用的选择,尽管现在Python3已经成为主流,但BS4仍然能够很好地支持Python2.x。以下是对Beautiful Soup库的详细介绍: 1. **Beautiful Soup简介** - Beautiful Soup...

Global site tag (gtag.js) - Google Analytics