`
riching
  • 浏览: 263734 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

使用BeautifulSoup解析html页面

 
阅读更多
1、有很多开源库以及python自动的htmlparser库都可以解析html,简单的功能,用哪个都一样,看个人习惯,此处简单介绍一下BeautifulSoup的用法,详细的用法可以参考官方文档http://www.crummy.com/software/BeautifulSoup/
2、去上面的网址下载、解压安装,都有说明, 我在python2.7的环境下面安装soup4一直报错,最后只好换成soup3的版本,具体原因没查明
3、代码示例
from BeautifulSoup import BeautifulSoup
import urllib2
content = urllib2.urlopen(url).read()
soup = BeautifulSoup(content)
构造soup对象之后,就可以按照soup的语法搜索标签了
sub_soup = soup.find(attrs={"class" : re.compile("a_con_text cont")})
sub_soup = soup.find(attrs={"class" : "t_f"})
sub_content = sub_soup.getText()
这个getText返回的是sub_soup标签之内的所有内容以及子标签的内容,不包括标签
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics