Beautiful Soup初步 - xpenxpen - ITeye博客

`

xpenxpen

浏览: 740889 次
性别:
来自: 上海

最近访客更多访客>>

amwfngt

ascii_he

xiaoxiaocn

XiaoPY

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

lijunwyf： cevin15 写道可以看下这个开源软件，https://gi ...
用markdown2html把md转换成html
cevin15：可以看下这个开源软件，https://github.com/c ...
用markdown2html把md转换成html
Raina：运行不了呢……提示错误无法加载主类Baiduwallpaper ...
用Java更换Windows桌面壁纸
苏城细雨沐秋风：我把解码的jar添加到类路径后，mp3可以播放，但是flac和 ...
java播放mp3/ogg/ape/flac音乐
peishuai1987：请问楼主现在怎么样了，读了很多源码吗，比如mybatis、sp ...
mybatis源码阅读心得

Beautiful Soup初步

博客分类：

Python

阅读更多

1.简介
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。同时，他对不规范的html的容错能力也是很强的。
java中与之类似的工具包是jsoup。

环境；
win7 64bit
cygwin 64bit
python 2.7
pip 1.5.6
beautifulsoup4 4.3.2

2. 安装
使用pip安装很简单
$ pip install beautifulsoup4

3. 测试
继续沿用前2篇文章用到的bad.html测试

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("bad.html"))
print(soup.prettify())
print('\n')
print(soup.a['href'])

相当简单了，代码不言自明。和jsoup也是相当的像，只不过用python可以比java少敲一些代码。

4. 链接
Beautiful Soup 4.2.0中文文档
jsoup
jsoup Cookbook(中文版)

分享到：

reportlab初步 | pip安装

2014-11-25 16:41
浏览 1522
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python爬虫入门与实战中文完整版pdf最新版本: 该书的内容涵盖了从零开始了解网页，到使用requests库抓取网站数据，再到使用Beautiful Soup等库解析网页内容，以及如何清洗和组织抓取来的数据，最后介绍了爬虫攻防的基本知识，整个学习过程注重实践，强调动手操作...

完整版精品Python网络爬虫教程数据采集信息提取课程 02-网络爬虫的盗亦有道（共19页）.pptx: 学习Beautiful Soup，你将掌握如何通过CSS选择器、标签名、属性等方法来提取所需信息。 5. **信息标记与提取**：理解HTML结构，使用正则表达式（Re库）进行文本匹配，是信息提取的关键。正则表达式可以用于识别和...

python入门简介，带你初步了解python: 通过使用像 Beautiful Soup 或 Scrapy 这样的库，开发者可以轻松地从网页中提取所需的信息。 - Google 最早使用 Python 作为其爬虫的基础，这充分展示了 Python 在数据抓取方面的强大能力。 #### 三、Python 的...

Zhihu_voters: #Zhihu_voters ##介绍 Zhihu_voters使用python2.7...使用Beautiful Soup 4解析返回的html文档使用xlwt实现对excel的写入操作如果缺少依赖的库可以使用pip命令进行安装。 ##其他信息待补充 ##联系我知乎： email：

有效者分配: Beautiful Soup库允许自动提取油的Distillation Profile数据，然后通过多项式回归运行它以实现曲线拟合功能。然后将这些函数求和，以获得混合物的蒸馏曲线的近似值。运行测试以验证模型。一系列测试使用均方根...

基于Python爬虫技术的商品信息采集与分析.pdf: Beautiful Soup则提供了更加友好的接口，使得处理HTML结构更加直观和方便。数据提取后，通常需要进行清洗和预处理，去除无用的信息，标准化格式，以便后续的数据分析。在本案例中，使用了正则表达式进行初步清洗，...

五年级上册第1课时(Story-time)教案.doc: - 新知教学：通过观看视频和回答问题，让学生初步了解故事主人翁——三只熊的房子，教授新词"bear"，并引导学生感受房子的美丽，为后续句型"What a beautiful house!"的使用做铺垫。这个教案旨在通过情境教学、...

Global site tag (gtag.js) - Google Analytics