Beautiful Soup初步 - xpenxpen - ITeye博客

`

xpenxpen

浏览: 740877 次
性别:
来自: 上海

最近访客更多访客>>

amwfngt

ascii_he

xiaoxiaocn

XiaoPY

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

lijunwyf： cevin15 写道可以看下这个开源软件，https://gi ...
用markdown2html把md转换成html
cevin15：可以看下这个开源软件，https://github.com/c ...
用markdown2html把md转换成html
Raina：运行不了呢……提示错误无法加载主类Baiduwallpaper ...
用Java更换Windows桌面壁纸
苏城细雨沐秋风：我把解码的jar添加到类路径后，mp3可以播放，但是flac和 ...
java播放mp3/ogg/ape/flac音乐
peishuai1987：请问楼主现在怎么样了，读了很多源码吗，比如mybatis、sp ...
mybatis源码阅读心得

Beautiful Soup初步

博客分类：

Python

阅读更多

1.简介
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。同时，他对不规范的html的容错能力也是很强的。
java中与之类似的工具包是jsoup。

环境；
win7 64bit
cygwin 64bit
python 2.7
pip 1.5.6
beautifulsoup4 4.3.2

2. 安装
使用pip安装很简单
$ pip install beautifulsoup4

3. 测试
继续沿用前2篇文章用到的bad.html测试

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("bad.html"))
print(soup.prettify())
print('\n')
print(soup.a['href'])

相当简单了，代码不言自明。和jsoup也是相当的像，只不过用python可以比java少敲一些代码。

4. 链接
Beautiful Soup 4.2.0中文文档
jsoup
jsoup Cookbook(中文版)

分享到：

reportlab初步 | pip安装

2014-11-25 16:41
浏览 1521
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Beautiful Soup 4.4.0 文档 chm: Beautiful Soup 4.4.0 文档 Beautiful Soup 4.4.0 文档 Beautiful Soup 4.4.0 文档

Beautiful Soup.pdf: print(soup.prettify()) ``` 5. **信息的标记形式** - **XML**：扩展标记语言，用于结构化数据，支持注释。 - **JSON**：JavaScript对象表示法，类似于Python的字典，没有注释。 - **YAML**：一种轻量级的数据...

Beautiful Soup爬虫框架在Python爬虫开发中的重要性: 内容概要： Beautiful Soup是Python中的一个强大...Beautiful Soup有很多优点，如能够按照标签、属性、字符串等方式检索文档，可以修改文档的编码、属性等，在Python爬虫开发中，Beautiful Soup是非常重要的工具之一。

Beautiful Soup 4.4.0 文档: - 示例: `soup.select('.title')` 查找所有 class 为 title 的标签。 #### 7. 修改文档树 - **方法**: - 修改 Tag 名称和属性: `tag.name = 'new_name'`, `tag['class'] = 'new_class'` - 修改字符串: `tag....

HTML解析库Beautiful Soup.7z: 1. **安装Beautiful Soup**：在Python环境中，通常通过pip来安装这个库，命令为`pip install beautifulsoup4`。同时，由于Beautiful Soup通常与另一个库如`lxml`或`html.parser`一起使用，因此还需要安装对应的解析...

Getting Started with Beautiful Soup by Vineeth G. Nair.pdf: ### Beautiful Soup 入门 #### 一、概述《Getting Started with Beautiful Soup》是一本由Vineeth G. Nair撰写的关于Python网页抓取工具Beautiful Soup的书籍。本书主要面向那些希望学习如何构建自己的网页抓取器...

beautiful soup: **Beautiful Soup：Python网页解析库** Beautiful Soup是一个Python库，专为解析HTML和XML文档而设计。它能够将复杂的网页结构转换成一个简单的导航、搜索和修改数据的树形结构，使得开发者可以轻松地提取所需的...

Python 爬虫入门的教程之Beautiful Soup解析: Python 爬虫入门教程之 Beautiful Soup 解析本教程主要讲解 Python 爬虫入门知识，通过 Beautiful Soup 解析网页，抓取中国旅游网首页信息，了解网页结构，使用 requests 库抓取网站数据，并进行数据清洗和组织。 ...

Python爬虫利器二之Beautiful Soup的用法.zip_python_爬虫_爬虫 python_爬虫 pyth: 本教程将深入探讨如何利用Beautiful Soup进行高效且精准的网络爬虫开发。首先，让我们了解什么是Beautiful Soup。Beautiful Soup是由Leonard Richardson编写的Python库，它提供了一种简单的方式来导航、搜索和修改...

Beautiful Soup4.2.0 中文文档: Beautiful Soup不仅能够处理不规则或损坏的标记，还能够通过不同的解析器将标记转化为BeautifulSoup对象。 Beautiful Soup库能够兼容多种HTML和XML解析器，包括Python标准库中的`html.parser`，以及第三方库如`lxml...

Beautiful Soup 4.2.0 中文文档 mobi: Beautiful Soup 4.2.0 中文文档 mobi Beautiful Soup 4.2.0 中文文档 mobi

Python 使用Beautiful Soup 爬虫教程.pdf: **Python使用Beautiful Soup爬虫教程** Beautiful Soup是一个强大的Python库，专门用于从HTML和XML文档中提取数据。它提供了一种简单易用的接口，帮助开发者解析和导航复杂的网页结构。在本教程中，我们将深入探讨...

使用Python的Requests库和Beautiful Soup库来爬取豆瓣电影Top250的数据: movie_names = [item.find('span', {'class': 'title'}).text for item in soup.find_all('div', {'class': 'hd'})] ``` 同样的方式，我们可以提取评分、评价人数等其他信息。 5. 存储和处理数据：最后，我们可能...

完整版精品Python网络爬虫教程数据采集信息提取课程 04-Beautiful Soup库入门（共53页）.pptx: 【Python网络爬虫与Beautiful Soup库入门】网络爬虫是一种自动化获取互联网信息的程序，它通过模拟人类浏览器的行为，从网站上抓取所需的数据。在Python中，Beautiful Soup库是用于解析HTML和XML文档的强大工具，...

Beautiful Soup 4官方翻译版.pdf: Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup 会帮你节省数小时甚至数天的工作时间

Beautiful Soup documentation.pdf: 1. **安装**: 首先确保安装了Beautiful Soup，可以通过pip安装： ```bash pip install beautifulsoup4 ``` 2. **导入库**: ```python from bs4 import BeautifulSoup ``` 3. **解析HTML**: ```python soup...

Python中使用Beautiful Soup库的超详细教程: 在Python2.x版本中，Beautiful Soup 4（BS4）是常用的选择，尽管现在Python3已经成为主流，但BS4仍然能够很好地支持Python2.x。以下是对Beautiful Soup库的详细介绍： 1. **Beautiful Soup简介** - Beautiful Soup...

Global site tag (gtag.js) - Google Analytics