`
xpenxpen
  • 浏览: 737155 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Beautiful Soup初步

阅读更多
1.简介
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。同时,他对不规范的html的容错能力也是很强的。
java中与之类似的工具包是jsoup。

环境;
win7 64bit
cygwin 64bit
python 2.7
pip 1.5.6
beautifulsoup4 4.3.2

2. 安装
使用pip安装很简单
$ pip install beautifulsoup4

3. 测试
继续沿用前2篇文章用到的bad.html测试

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("bad.html"))
print(soup.prettify())
print('\n')
print(soup.a['href'])


相当简单了,代码不言自明。和jsoup也是相当的像,只不过用python可以比java少敲一些代码。

4. 链接
Beautiful Soup 4.2.0中文文档
jsoup
jsoup Cookbook(中文版) 
分享到:
评论

相关推荐

    完整版精品Python网络爬虫教程 数据采集 信息提取课程 02-网络爬虫的盗亦有道(共19页).pptx

    学习Beautiful Soup,你将掌握如何通过CSS选择器、标签名、属性等方法来提取所需信息。 5. **信息标记与提取**:理解HTML结构,使用正则表达式(Re库)进行文本匹配,是信息提取的关键。正则表达式可以用于识别和...

    python入门简介,带你初步了解python

    通过使用像 Beautiful Soup 或 Scrapy 这样的库,开发者可以轻松地从网页中提取所需的信息。 - Google 最早使用 Python 作为其爬虫的基础,这充分展示了 Python 在数据抓取方面的强大能力。 #### 三、Python 的...

    Zhihu_voters

    #Zhihu_voters ##介绍 Zhihu_voters使用python2.7...使用Beautiful Soup 4解析返回的html文档 使用xlwt实现对excel的写入操作 如果缺少依赖的库可以使用pip命令进行安装。 ##其他信息待补充 ##联系我 知乎: email:

    有效者分配

    Beautiful Soup库允许自动提取油的Distillation Profile数据,然后通过多项式回归运行它以实现曲线拟合功能。 然后将这些函数求和,以获得混合物的蒸馏曲线的近似值。 运行测试以验证模型。 一系列测试使用均方根...

    基于Python爬虫技术的商品信息采集与分析.pdf

    Beautiful Soup则提供了更加友好的接口,使得处理HTML结构更加直观和方便。 数据提取后,通常需要进行清洗和预处理,去除无用的信息,标准化格式,以便后续的数据分析。在本案例中,使用了正则表达式进行初步清洗,...

    五年级上册第1课时(Story-time)教案.doc

    - 新知教学:通过观看视频和回答问题,让学生初步了解故事主人翁——三只熊的房子,教授新词"bear",并引导学生感受房子的美丽,为后续句型"What a beautiful house!"的使用做铺垫。 这个教案旨在通过情境教学、...

Global site tag (gtag.js) - Google Analytics