python htmllib.HTMLParser处理A标签 - zw7534313 Blog - ITeye博客

`

zw7534313

浏览: 1355208 次
性别:
来自: 北京

最近访客更多访客>>

dapeng1005

redhacker

朝明11

angel008

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

mike_eclipse： Hashtable是线程不安全的吗？好像是线程安全的吧？
多线程之集合类
July01：推荐用StratoIO打印控件，浏览器和系统的兼容性都很好，而 ...
lodop打印控件
xingcxb：经过测试，假的，依旧会出现中文乱码！！！！store方法里面采 ...
java 读写Properties文件，不会出现中文乱码
tiger20111989： ...
Spring注解方式管理事务
zw7534313： ...
js 文字上下滚动无间断循环显示

python htmllib.HTMLParser处理A标签

博客分类：

python

阅读更多

#!/usr/bin/python
#encoding='utf-8'
import htmllib,urllib,formatter,string
'''''
import chardet,sys
type = sys.getdefaultencoding()
'''
class GetLinks(htmllib.HTMLParser):
    def __init__(self):
        self.links = {}
        f = formatter.NullFormatter()
        htmllib.HTMLParser.__init__(self, f)

    def anchor_bgn(self, href, name, type):
        self.save_bgn()
        self.link = href

    def anchor_end(self):
        text = string.strip(self.save_end())
        if self.link and text:
            self.links[text] = self.link#self.links.get(text, []) + [self.link]
            #print self.links
            #exit()
fp = urllib.urlopen("http://www.baidu.com")
data = fp.read()
fp.close()

linkdemo = GetLinks()
linkdemo.feed(data)
linkdemo.close()

for href, link in linkdemo.links.items():
    print href, "=>", link

分享到：

python利用正则表达式抓取网页中的邮箱 | python内置库：re（正则表达式）

2020-06-28 12:45
浏览 373
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Winista.HtmlParser（含帮助手册）: Winista.HtmlParser是一款用于解析HTML文档的库，它在.NET框架下运行，为开发者提供了方便的API来处理和解析HTML内容。这个库的核心目标是帮助程序员高效地从HTML页面中提取所需信息，如元素、属性、文本等。下面将...

htmlparser: org.htmlparser.Parser.class org.htmlparser.PrototypicalNodeFactory.class org.htmlparser.beans.BeanyBaby.class org.htmlparser.beans.FilterBean.class org.htmlparser.beans.HTMLLinkBean.class org....

Winista.Htmlparser.Net 源码 +Demo: Winista.Htmlparser.Net是一个基于C#的开源HTML解析库，它为开发者提供了一种高效且灵活的方式来处理HTML文档，尤其在需要从HTML中提取数据或者进行网页抓取时显得尤为重要。本文将深入探讨该库的核心功能、设计原理...

Winista.HTMLParser源码: 在Winista.HTMLParser中，它的引入意味着库可以读取和写入ZIP文件，这对于处理大量网页数据或者需要压缩存储的情况非常有用。 2. 压缩与解压缩：利用ICSharpCode.SharpZipLib，开发者可以轻松地将爬取到的网页数据...

Winista.Text.HtmlParser采集南京价格信息网: 《使用Winista.Text.HtmlParser采集南京价格信息网的实践与技术解析》在信息技术日新月异的今天，数据采集已成为各行各业不可或缺的一部分。本项目“Winista.Text.HtmlParser采集南京价格信息网”就是一个典型的...

Winista.Htmlparser 源码 C#类库帮助文档: 通过源码学习，我们可以了解到其内部机制，包括如何处理标签、属性、文本节点以及DOM结构的构建。首先，Htmlparser的核心功能在于解析HTML字符串或流，并将其转换为易于操作的对象模型。这个对象模型通常被称为DOM...

Winista.Htmlparser.Net 解析Html 的.net类库: HtmlParser.Net是来源于Java的一个用来解析html的组件，主要用于改造或提取html。它能够高速解析html，是非常好的一个html解析和分析... 这个是.Net版本包括源代码和帮助文档。版本：HTMLParser.Net - Community 1.8

Winista.Htmlparser的源码，另加Demo。源自....: Winista.Htmlparser可能采用了类似于基于事件的解析模型，这种模型在遇到HTML标记时触发特定的事件，比如开始标签、结束标签或文本节点。通过订阅这些事件，开发者可以处理HTML文档的不同部分。在.NET框架中，...

Winista.HtmlParser: Winista.HtmlParser作为一个强大的.NET HTML解析器，旨在简化HTML文档处理，提高开发效率。它提供了直观的API，使得开发者可以轻松地查找、遍历和操作HTML元素。这个库特别适用于需要从网页中提取特定信息或进行数据...

Winista.Htmlparser.rar: Htmlparser.chm文件很可能是一个帮助文档，包含了关于Winista.Htmlparser库的详细说明、API参考、示例代码和使用指南。通常，CHM（Compiled Help Manual）文件是微软编译的帮助文件格式，用户可以通过它来查找库的...

Winista.HtmlParser.zip: 例如，如果你想从HTML中获取所有`<a>`标签，可以使用提供的查询方法，该方法接受CSS选择器作为参数，返回匹配的元素列表。然后，你可以进一步访问每个元素的属性，如`href`，以获取链接地址。此外，Winista....

Winista.HTMLParser.dll: 《Winista.HTMLParser.dll：网页解析的开源利器》在信息技术高速发展的今天，网页数据的抓取和分析已经成为一项至关重要的任务。对于开发者而言，能够高效地解析HTML文档，从中提取所需信息，无疑是一个强大的工具...

DI.HtmlParser .v2.20: 4. **错误处理**：HTML通常包含语法错误或非标准标签，DI.HtmlParser 具有良好的容错性，能处理不规范的HTML，尽可能正确地构建DOM树。 5. **源码可用**：作为一个开源项目，DI.HtmlParser 的源代码可供查看和修改...

htmlparser.jar文件: HTMLParser.jar 文件是一个Java库...总的来说，HTMLParser.jar是一个强大的Java HTML解析库，适用于需要处理HTML数据的场景，如爬虫、信息提取或者自动化测试。正确地导入和使用这个库，可以大大简化对HTML文档的操作。

HTML Parser: org.htmlparser.Tag org.htmlparser.Node org.htmlparser.Text org.htmlparser.Parser org.htmlparser.Remark org.htmlparser.tags.Div org.htmlparser.Attribute org.htmlparser.tags.Html org.htmlparser.tags....

Winista.Htmlparser: 《Winista.Htmlparser：C#中的网页解析利器》在当今互联网时代，数据挖掘和信息提取成为企业与开发者的重要需求，而HTML解析是这一过程的关键环节。本文将深入探讨Winista.Htmlparser，一个专为C#开发的网页解析...

Winista.HtmlParser.dll: 编译过的HtmlParser.dll文件，可直接使用

Global site tag (gtag.js) - Google Analytics