from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
self.links = []
def handle_starttag(self, tag, attrs):
#print "Encountered the beginning of a %s tag" % tag
if tag == "a":
if len(attrs) == 0: pass
else:
for (variable, value) in attrs:
if variable == "href":
self.links.append(value)
if __name__ == "__main__":
html_code = """
<a href="www.google.com"> google.com</a>
<A Href="www.pythonclub.org"> PythonClub </a>
<A HREF = "www.sina.com.cn"> Sina </a>
"""
hp = MyHTMLParser()
hp.feed(html_code)
hp.close()
print(hp.links)
这里还有别人博客上的相关内容,感觉质量不错。记录一下
http://www.lovelucy.info/python-crawl-pages.html
我没有自己亲自验证下面这段代码是否正常运行。
import urllib2
from sgmllib import SGMLParser
class ListName(SGMLParser):
def __init__(self):
SGMLParser.__init__(self)
self.is_h4 = ""
self.name = []
def start_h4(self, attrs):
self.is_h4 = 1
def end_h4(self):
self.is_h4 = ""
def handle_data(self, text):
if self.is_h4 == 1:
self.name.append(text)
content = urllib2.urlopen('http://list.taobao.com/browse/cat-0.htm').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
print item.decode('gbk').encode('utf8')
分享到:
相关推荐
`HTMLParser`不支持XPath或CSS,但它可以通过自定义事件处理函数来解析HTML并执行特定的操作。以下是一个基本示例: ```python from html.parser import HTMLParser class MyHTMLParser(HTMLParser): def handle_...
解析HTML表格的基本思路是通过`libxml2dom`获取HTML文档对象,然后定位到具体的表格元素,并从中提取所需数据。这里我们定义了一个名为`parse_tables`的函数,该函数接受三个参数: 1. `source`: 包含源代码的字符...
python处理xml很实用好用的工具 主要有BeautifulSoup和BeautifulStoneSoup,import就好,前者处理html,后者处理xml 具体使用方法可以上网查
lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT),并且实现了常见的 ElementTree API。
在Python的世界里,高效地解析和处理HTML文档是网络爬虫和网页自动化任务中的关键环节。`Requests-HTML`库正是这样一个工具,它结合了`requests`库的强大网络请求功能和自有的HTML解析器,为开发者提供了一种简单、...
本文实例讲述了Python实现抓取网页生成Excel文件的方法。分享给大家供大家参考,具体如下: Python抓网页,主要用到了PyQuery,这个跟jQuery用法一样,超级给力 示例代码如下: #-*- encoding:utf-8 -*- import sys...
而Mistune是Python社区中一个非常受欢迎的Markdown解析库,它提供了快速且功能丰富的纯Python实现。 **Markdown Mistune详解** 1. **安装与导入** 在Python环境中,你可以通过`pip`来安装Mistune库: ``` pip ...
本话题聚焦于使用Python解析百度文库以下载PDF、Word和PPT文档。这涉及到网络爬虫技术,它允许我们从互联网上抓取所需信息。下面我们将深入探讨这个主题。 首先,我们需要了解Python中的几个关键库,它们对于实现这...
Python解析网页 Beautiful Soup 定义 是一个可以从HTML或XML文件中提取数据的Python库 优点 会帮你节省数小时甚至数天的工作时间 能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. ...
然后在代码中导入并使用它来解析HTML: ```python from jparser import JParser # 假设html是网页的HTML源码 html = ... # 创建JParser实例 parser = JParser() # 解析HTML doc = parser.parse(html) # 提取标题...
Python 来解析纯文本生成 HTML 页面的小程序。使用Python基础语法知识以及HTML标记语言知识,以及如何用 Python 将纯文本分成一个一个的文本块,并对它对解析。文本中使用部分简单的 Markdown 语法。
PyQuery是一个基于Python的库,它提供了一种类似于jQuery的API来处理和解析HTML文档。这个强大的工具使得Python开发者在处理XML或HTML数据时,能够享受到与JavaScript中jQuery类似的简洁和高效。本文将深入探讨...
在Python中,BeautifulSoup库是用于解析HTML和XML文档的强大工具。它提供了简单的方法来导航、搜索和修改解析树,使得处理网页数据变得容易。在本文中,我们将深入探讨BeautifulSoup的基本使用,解析器的选择,以及...
在XML解析方面,Python提供了多种库,使得处理XML文档变得简单而高效。XML(eXtensible Markup Language)是一种标记语言,用于存储和传输结构化数据,常用于Web服务、配置文件和数据交换。 Python中有两个主要的...
5. **网络爬虫**:使用Python的BeautifulSoup、Scrapy等库抓取和解析HTML网页,获取所需信息。 6. **文件操作**:Python内置的os和file操作函数可以用来读写HTML文件。 7. **WSGI(Web Server Gateway Interface)**...
Python中的`html5-parser`库是一个高效的HTML5解析器,它使用C语言编写,从而提供了比纯Python解析更快的速度。这个库是为了解决在处理大量HTML数据时,需要快速、准确地解析文档的需求。在Python开发中,尤其是在...
综上所述,Python解析URL涉及使用`urllib`或`requests`库获取网页内容,然后利用`BeautifulSoup`、`lxml`或自定义的`HTMLParser`类解析HTML,提取所需信息。`BaseHTMLProcessor.py`、`dialect.py`和`MyHTMLParser.py...
BeautifulSoup是一个强大的库,它使得解析HTML和XML文档变得极其简单。本篇将详细讲解如何使用BeautifulSoup来为HTML文件中的a标签添加属性。 首先,我们需要安装BeautifulSoup库,如果你还没有安装,可以使用以下...