Python抓取页面中超链接(URL)的3中方法比较(HTMLParser、pyquery、正则表达式) -

yushine

浏览: 201954 次
性别:
来自: 成都

最近访客更多访客>>

syl5i5j

lobin

ahua0597

hbkh2000

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Python抓取页面中超链接(URL)的3中方法比较(HTMLParser、pyquery、正则表达式)

博客分类：

Python

HTMLParser版：

# !/usr/bin/python
# -*- coding: UTF-8 -*-

import HTMLParser

class UrlParser(HTMLParser.HTMLParser):
    def __init__ (self):
        HTMLParser.HTMLParser.__init__ (self)
        self.urls = []
    def handle_starttag(self, tag, attrs):
        if tag == ' a ' :
            for name,value in attrs:
                if name == ' href ' :
                    self.urls.append(value)
    def geturls(self):
        return self.urls

if __name__ == ' __main__ ' :
    urls = []
    url = UrlParser()
    url.feed(' 1111111111<a href="http://www.bccn.net">BCCN</a>2222222<a href="http://bbs.bccn.net">BCCN.BBS</a>333333333 ' )
    urls += url.geturls()
    print urls

pyquery版：

# !/usr/bin/python
# -*- coding: UTF-8 -*-

from pyquery import PyQuery as pq

class UrlParser():
    def __init__ (self):
        self.urls = []
    def feed(self,data):
        d = pq(data)
        if d.find(' a ' ):
            # 关于下面一行，我用d('a').attr('href')只能得到第一个URL，暂时只会用map，不知道有没有别的够pythonic的代码
            url = d(' a ' ).map(lambda i, e: pq(e)(' a ' ).attr(' href ' ))
            for u in url:
                self.urls.append(u)
    def geturls(self):
        return self.urls

if __name__ == ' __main__ ' :
    urls = []
    url = UrlParser()
    url.feed(' 1111111111<a href="http://www.bccn.net">BCCN</a>2222222<a href="http://bbs.bccn.net">BCCN.BBS</a>333333333 ' )
    urls += url.geturls()
    print urls

正则表达式版：

# !/usr/bin/python
# -*- coding: UTF-8 -*-

import re

class UrlParser():
    def __init__ (self):
        self.urls = []
    def feed(self,data):
        url = re.findall(r''' <a(\s*)(.*?)(\s*)href(\s*)=(\s*)([\"\s]*)([^\"\']+?)([\"\s]+)(.*?)> ''' ,data,re.S|re.I)
        for u in url:
            self.urls.append(u[6])
    def geturls(self):
        return self.urls

if __name__ == ' __main__ ' :
    urls = []
    url = UrlParser()
    url.feed(' 1111111111<a href="http://www.bccn.net">BCCN</a>2222222<a href="http://bbs.bccn.net">BCCN.BBS</a>333333333 ' )
    urls += url.geturls()
    print urls

速度比较：正则表达式 > pyquery > HTMLParser

测试的时候遍历大约1000个页面，正则表达式占绝对优势，这3个速度比例大约是 8:2:1

HTMLParser最慢，pyquery速度大约是它的2倍，正则的速度是它的8倍，看来以后如非必要不再考虑HTMLParser了，用起来也不如pyquery方便，正则速度倒是很快，功能也强大，前两者能提取的内容用正则全部都能实现，而正则能实现的功能前两者就不一定能实现了。只是正则的可读性不好。以后遇到数据量大的用正则表达式，数据量不大不考虑时间因素但逻辑复杂的的用pyquery，以后维护起来方便

分享到：

浅谈Zend Framework, CodeIgniter与Kohana ... | 开发工程师的职场人生路

2012-03-28 21:54
浏览 2546
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Python抓取页面中超链接(URL)的3中方法比较(HTMLParser、pyquery、正则表达式)

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Python抓取页面中超链接(URL)的3中方法比较(HTMLParser、pyquery、正则表达式)

评论

发表评论

相关推荐

使用django+celery+RabbitMQ实现异步执行

Python正则表达式指南

python的time和date处理

Python:time, strftime和strptime

python异常捕获try except

Django-South

Django-South介绍

EditPlus for python

【转】 Python 程序员的进化--搞笑版

使用由 Python 编写的 lxml 实现高性能 XML 解析

[Python学习]使用minidom来处理XML的示例

[转]常用的python模块及安装方法

Django使用心得（一）

Python IDLE's subprocess didn't make connection

django 基本命令操作

在Windows上安装Django

最近访客更多访客>>