python 解析html - - ITeye博客

`

have_life

浏览: 154313 次

最近访客更多访客>>

siyu3223

dong_junshuai

thornbird313

xiaomabobo

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Rannn：我只是偶尔路过的。二叉树的深度为lg(n) 叶子为2^(L-1 ...
完全二叉树叶子节点个数计算问题
have_life：按住Ctrl+Shift 然后按 -> 这样的光标键， ...
eclipse快捷键
have_life：启动chrome隐身模式 Ctrl + Shift + N ...
快速恢复刚刚关闭的Chrome标签页的方法
have_life： Shift + Alt + A 光标会变成一个十字 ...
eclipse快捷键
have_life： Ctrl + Shift + X 把所有选中字母变大写Ctrl ...
eclipse快捷键

python 解析html

博客分类：

python

python 解析html

阅读更多

from HTMLParser import HTMLParser
 
class MyHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.links = []
 
    def handle_starttag(self, tag, attrs):
        #print "Encountered the beginning of a %s tag" % tag
        if tag == "a":
            if len(attrs) == 0: pass
            else:
                for (variable, value)  in attrs:
                    if variable == "href":
                        self.links.append(value)
 
if __name__ == "__main__":
    html_code = """
    <a href="www.google.com"> google.com</a>
    <A Href="www.pythonclub.org"> PythonClub </a>
    <A HREF = "www.sina.com.cn"> Sina </a>
    """
    hp = MyHTMLParser()
    hp.feed(html_code)
    hp.close()
    print(hp.links)

这里还有别人博客上的相关内容，感觉质量不错。记录一下
http://www.lovelucy.info/python-crawl-pages.html

我没有自己亲自验证下面这段代码是否正常运行。

import urllib2
from sgmllib import SGMLParser
 
class ListName(SGMLParser):
	def __init__(self):
		SGMLParser.__init__(self)
		self.is_h4 = ""
		self.name = []
	def start_h4(self, attrs):
		self.is_h4 = 1
	def end_h4(self):
		self.is_h4 = ""
	def handle_data(self, text):
		if self.is_h4 == 1:
			self.name.append(text)
 
content = urllib2.urlopen('http://list.taobao.com/browse/cat-0.htm').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
	print item.decode('gbk').encode('utf8')

分享到：

eclipse快捷键 | python抓取一个页面

2012-05-17 11:16
浏览 1414
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python解析html的几种方法: `HTMLParser`不支持XPath或CSS，但它可以通过自定义事件处理函数来解析HTML并执行特定的操作。以下是一个基本示例： ```python from html.parser import HTMLParser class MyHTMLParser(HTMLParser): def handle_...

Python实现简单HTML表格解析的方法: 解析HTML表格的基本思路是通过`libxml2dom`获取HTML文档对象，然后定位到具体的表格元素，并从中提取所需数据。这里我们定义了一个名为`parse_tables`的函数，该函数接受三个参数： 1. `source`: 包含源代码的字符...

python xml html 解析工具（代码）: python处理xml很实用好用的工具主要有BeautifulSoup和BeautifulStoneSoup，import就好，前者处理html，后者处理xml 具体使用方法可以上网查

lxml_Python下的高性能xml跟html解析: lxml 是一种使用 Python 编写的库，可以迅速、灵活地处理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)，并且实现了常见的 ElementTree API。

Python-RequestsHTMLHumans的HTML解析器: 在Python的世界里，高效地解析和处理HTML文档是网络爬虫和网页自动化任务中的关键环节。`Requests-HTML`库正是这样一个工具，它结合了`requests`库的强大网络请求功能和自有的HTML解析器，为开发者提供了一种简单、...

Python实现抓取网页生成Excel文件的方法示例: 本文实例讲述了Python实现抓取网页生成Excel文件的方法。分享给大家供大家参考，具体如下： Python抓网页，主要用到了PyQuery，这个跟jQuery用法一样，超级给力示例代码如下： #-*- encoding:utf-8 -*- import sys...

Python-MarkdownMistune快速并且功能齐全的纯Python实现的Markdown解析: 而Mistune是Python社区中一个非常受欢迎的Markdown解析库，它提供了快速且功能丰富的纯Python实现。 **Markdown Mistune详解** 1. **安装与导入** 在Python环境中，你可以通过`pip`来安装Mistune库： ``` pip ...

Python-jparser一个强大的python解析器可以从HTML页面中提取标题内容图像: 然后在代码中导入并使用它来解析HTML： ```python from jparser import JParser # 假设html是网页的HTML源码 html = ... # 创建JParser实例 parser = JParser() # 解析HTML doc = parser.parse(html) # 提取标题...

python解析百度文库获得pdf+word+ppt: 本话题聚焦于使用Python解析百度文库以下载PDF、Word和PPT文档。这涉及到网络爬虫技术，它允许我们从互联网上抓取所需信息。下面我们将深入探讨这个主题。首先，我们需要了解Python中的几个关键库，它们对于实现这...

Python解析网页.xmind: Python解析网页 Beautiful Soup 定义是一个可以从HTML或XML文件中提取数据的Python库优点会帮你节省数小时甚至数天的工作时间能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. ...

python文本解析器: Python 来解析纯文本生成 HTML 页面的小程序。使用Python基础语法知识以及HTML标记语言知识，以及如何用 Python 将纯文本分成一个一个的文本块，并对它对解析。文本中使用部分简单的 Markdown 语法。

rtf文件解析和生产的python包: 包括两个资源，Rtf-0.2.1是python对rtf文件的解析包，包括rtf转html和txt，资源来源于sourceforge；pyrtf-master是python生成rtf的包，其中包括实例，资源来源github。

Python-pyquery一个解析HTML的库类似jQuery: PyQuery是一个基于Python的库，它提供了一种类似于jQuery的API来处理和解析HTML文档。这个强大的工具使得Python开发者在处理XML或HTML数据时，能够享受到与JavaScript中jQuery类似的简洁和高效。本文将深入探讨...

8.python beatifulsoup html文件解析1: 在Python中，BeautifulSoup库是用于解析HTML和XML文档的强大工具。它提供了简单的方法来导航、搜索和修改解析树，使得处理网页数据变得容易。在本文中，我们将深入探讨BeautifulSoup的基本使用，解析器的选择，以及...

python解析xml: 在XML解析方面，Python提供了多种库，使得处理XML文档变得简单而高效。XML（eXtensible Markup Language）是一种标记语言，用于存储和传输结构化数据，常用于Web服务、配置文件和数据交换。 Python中有两个主要的...

PYTHON和html页面: 5. **网络爬虫**：使用Python的BeautifulSoup、Scrapy等库抓取和解析HTML网页，获取所需信息。 6. **文件操作**：Python内置的os和file操作函数可以用来读写HTML文件。 7. **WSGI（Web Server Gateway Interface）**...

Python-html5parser一个用于Python基于C的快速HTML5解析: Python中的`html5-parser`库是一个高效的HTML5解析器，它使用C语言编写，从而提供了比纯Python解析更快的速度。这个库是为了解决在处理大量HTML数据时，需要快速、准确地解析文档的需求。在Python开发中，尤其是在...

python 解析url: 综上所述，Python解析URL涉及使用`urllib`或`requests`库获取网页内容，然后利用`BeautifulSoup`、`lxml`或自定义的`HTMLParser`类解析HTML，提取所需信息。`BaseHTMLProcessor.py`、`dialect.py`和`MyHTMLParser.py...

Global site tag (gtag.js) - Google Analytics