`
have_life
  • 浏览: 152284 次
社区版块
存档分类
最新评论

python 解析html

阅读更多
from HTMLParser import HTMLParser
 
class MyHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.links = []
 
    def handle_starttag(self, tag, attrs):
        #print "Encountered the beginning of a %s tag" % tag
        if tag == "a":
            if len(attrs) == 0: pass
            else:
                for (variable, value)  in attrs:
                    if variable == "href":
                        self.links.append(value)
 
if __name__ == "__main__":
    html_code = """
    <a href="www.google.com"> google.com</a>
    <A Href="www.pythonclub.org"> PythonClub </a>
    <A HREF = "www.sina.com.cn"> Sina </a>
    """
    hp = MyHTMLParser()
    hp.feed(html_code)
    hp.close()
    print(hp.links)



这里还有别人博客上的相关内容,感觉质量不错。记录一下
http://www.lovelucy.info/python-crawl-pages.html


我没有自己亲自验证下面这段代码是否正常运行。

import urllib2
from sgmllib import SGMLParser
 
class ListName(SGMLParser):
	def __init__(self):
		SGMLParser.__init__(self)
		self.is_h4 = ""
		self.name = []
	def start_h4(self, attrs):
		self.is_h4 = 1
	def end_h4(self):
		self.is_h4 = ""
	def handle_data(self, text):
		if self.is_h4 == 1:
			self.name.append(text)
 
content = urllib2.urlopen('http://list.taobao.com/browse/cat-0.htm').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
	print item.decode('gbk').encode('utf8')
分享到:
评论

相关推荐

    python解析html的几种方法

    `HTMLParser`不支持XPath或CSS,但它可以通过自定义事件处理函数来解析HTML并执行特定的操作。以下是一个基本示例: ```python from html.parser import HTMLParser class MyHTMLParser(HTMLParser): def handle_...

    Python实现简单HTML表格解析的方法

    解析HTML表格的基本思路是通过`libxml2dom`获取HTML文档对象,然后定位到具体的表格元素,并从中提取所需数据。这里我们定义了一个名为`parse_tables`的函数,该函数接受三个参数: 1. `source`: 包含源代码的字符...

    python xml html 解析工具(代码)

    python处理xml很实用好用的工具 主要有BeautifulSoup和BeautifulStoneSoup,import就好,前者处理html,后者处理xml 具体使用方法可以上网查

    lxml_Python下的高性能xml跟html解析

    lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT),并且实现了常见的 ElementTree API。

    Python-RequestsHTMLHumans的HTML解析器

    在Python的世界里,高效地解析和处理HTML文档是网络爬虫和网页自动化任务中的关键环节。`Requests-HTML`库正是这样一个工具,它结合了`requests`库的强大网络请求功能和自有的HTML解析器,为开发者提供了一种简单、...

    Python实现抓取网页生成Excel文件的方法示例

    本文实例讲述了Python实现抓取网页生成Excel文件的方法。分享给大家供大家参考,具体如下: Python抓网页,主要用到了PyQuery,这个跟jQuery用法一样,超级给力 示例代码如下: #-*- encoding:utf-8 -*- import sys...

    Python-MarkdownMistune快速并且功能齐全的纯Python实现的Markdown解析

    而Mistune是Python社区中一个非常受欢迎的Markdown解析库,它提供了快速且功能丰富的纯Python实现。 **Markdown Mistune详解** 1. **安装与导入** 在Python环境中,你可以通过`pip`来安装Mistune库: ``` pip ...

    python解析百度文库获得pdf+word+ppt

    本话题聚焦于使用Python解析百度文库以下载PDF、Word和PPT文档。这涉及到网络爬虫技术,它允许我们从互联网上抓取所需信息。下面我们将深入探讨这个主题。 首先,我们需要了解Python中的几个关键库,它们对于实现这...

    Python解析网页.xmind

    Python解析网页 Beautiful Soup 定义 是一个可以从HTML或XML文件中提取数据的Python库 优点 会帮你节省数小时甚至数天的工作时间 能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. ...

    Python-jparser一个强大的python解析器可以从HTML页面中提取标题内容图像

    然后在代码中导入并使用它来解析HTML: ```python from jparser import JParser # 假设html是网页的HTML源码 html = ... # 创建JParser实例 parser = JParser() # 解析HTML doc = parser.parse(html) # 提取标题...

    python文本解析器

    Python 来解析纯文本生成 HTML 页面的小程序。使用Python基础语法知识以及HTML标记语言知识,以及如何用 Python 将纯文本分成一个一个的文本块,并对它对解析。文本中使用部分简单的 Markdown 语法。

    Python-pyquery一个解析HTML的库类似jQuery

    PyQuery是一个基于Python的库,它提供了一种类似于jQuery的API来处理和解析HTML文档。这个强大的工具使得Python开发者在处理XML或HTML数据时,能够享受到与JavaScript中jQuery类似的简洁和高效。本文将深入探讨...

    8.python beatifulsoup html文件解析1

    在Python中,BeautifulSoup库是用于解析HTML和XML文档的强大工具。它提供了简单的方法来导航、搜索和修改解析树,使得处理网页数据变得容易。在本文中,我们将深入探讨BeautifulSoup的基本使用,解析器的选择,以及...

    python解析xml

    在XML解析方面,Python提供了多种库,使得处理XML文档变得简单而高效。XML(eXtensible Markup Language)是一种标记语言,用于存储和传输结构化数据,常用于Web服务、配置文件和数据交换。 Python中有两个主要的...

    PYTHON和html页面

    5. **网络爬虫**:使用Python的BeautifulSoup、Scrapy等库抓取和解析HTML网页,获取所需信息。 6. **文件操作**:Python内置的os和file操作函数可以用来读写HTML文件。 7. **WSGI(Web Server Gateway Interface)**...

    Python-html5parser一个用于Python基于C的快速HTML5解析

    Python中的`html5-parser`库是一个高效的HTML5解析器,它使用C语言编写,从而提供了比纯Python解析更快的速度。这个库是为了解决在处理大量HTML数据时,需要快速、准确地解析文档的需求。在Python开发中,尤其是在...

    python 解析url

    综上所述,Python解析URL涉及使用`urllib`或`requests`库获取网页内容,然后利用`BeautifulSoup`、`lxml`或自定义的`HTMLParser`类解析HTML,提取所需信息。`BaseHTMLProcessor.py`、`dialect.py`和`MyHTMLParser.py...

    Python给html文件的a标签添加属性

    BeautifulSoup是一个强大的库,它使得解析HTML和XML文档变得极其简单。本篇将详细讲解如何使用BeautifulSoup来为HTML文件中的a标签添加属性。 首先,我们需要安装BeautifulSoup库,如果你还没有安装,可以使用以下...

Global site tag (gtag.js) - Google Analytics