Python3.4网页解析之HTMLParse

qindongliang1922

浏览: 2211238 次
性别:
来自: 北京

最近访客更多访客>>

北风norther

godandghost

youhere

tanss

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：118403

: 证道Hadoop
浏览量：126724

: 证道shell编程
浏览量：60798

: ELK修真
浏览量：71956

文章分类

社区版块

存档分类

博客分类：

Python

python html python抓取解析

使用python将网页抓取下来之后，下一步我们就应该解析网页，提取我们所需要的内容了，在python里提供了一个简单的解析模块HTMLParser类，使用起来也是比较简单的，解析语法没有用到XPath类似的简洁模式，但新手用起来还是比较容易的，看下面的例子：

现在一个模拟的html文件：

<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>   </html>

需求是，提取出标题的属性值，以及内容：

代码如下：

import html.parser as h



class MyHTMLParser(h.HTMLParser):
    a_t=False
    def handle_starttag(self, tag, attrs):
        #print("开始一个标签:",tag)
        print()
        if str(tag).startswith("title"):
            print(tag)
            self.a_t=True
            for attr in attrs:
                print("   属性值：",attr)

    def handle_endtag(self, tag):
        if tag == "title":
            self.a_t=False
            #print("结束一个标签:",tag)

    def handle_data(self, data):
        if self.a_t is True:
            print("得到的数据: ",data)



p=MyHTMLParser()

p.feed("<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body>   </html>")

p.close()

运行结果如下：


title
   属性值： ('id', 'main')
   属性值： ('mouse', '你好')
得到的数据:  我是标题

主要的技术就是继承了HTMLParser类，然后重写了里面的一些方法，来完成自己的业务，从上面的代码里，发现如果想获取某个标签的内容，还是比较麻烦的，当然这是python里面最简单的html解析方式，还有很多其他组件，scrapy等等，里面支持Xpath路径解析，使用起来非常简洁清爽。

解析代码学会之后，我们就可以将使用urllib包，抓取到的数据交给htmlparser解析，从而提取出我们所需要的内容。

分享到：

Python3.4+Django1.7入门 | Python3.4网页抓取之编码异常

2014-10-15 19:31
浏览 4071
评论(0)
论坛回复 / 浏览 (0 / 5598)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Python3.4网页解析之HTMLParse

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Python3.4网页解析之HTMLParse

评论

发表评论

相关推荐

如何扩展python的logging组件支持json日志输出

Java开发者如何正确的使用String，StringBuffer，StringBuilder类

Windows 10环境下安装Python科学计算工具之Anaconda

干货来袭之Python3.4如何读写Excel？

Python处理数据一个小例子

Django1.7+JQuery+Ajax集成小例子

如何Python3.4使用pexpect来实现SSH登陆

Django1.7如何配置静态资源访问

Python3.4+Django1.7+SQLite3实现增删改查

Python3.4+Django1.7简单动态模板例子

如何使用Python3.4与Linux shell交互

Python3.4+Django1.7入门

Python3.4网页抓取之编码异常

Python3.4模拟登陆例子

python桌面整理小助手

Python3.4操作文件目录

如何在cenots6.5中安装Python3.4

Python3.4模拟实现生产者消费者模式

Python3.4线程入门

Python3.4集合容器总结

最近访客更多访客>>