`

python htmllib.HTMLParser处理A标签

阅读更多
#!/usr/bin/python 
#encoding='utf-8' 
import htmllib,urllib,formatter,string 
'''''
import chardet,sys
type = sys.getdefaultencoding()
''' 
class GetLinks(htmllib.HTMLParser): 
    def __init__(self):
        self.links = {}
        f = formatter.NullFormatter()
        htmllib.HTMLParser.__init__(self, f) 
 
    def anchor_bgn(self, href, name, type): 
        self.save_bgn() 
        self.link = href 
 
    def anchor_end(self):
        text = string.strip(self.save_end())
        if self.link and text: 
            self.links[text] = self.link#self.links.get(text, []) + [self.link] 
            #print self.links 
            #exit() 
fp = urllib.urlopen("http://www.baidu.com")
data = fp.read() 
fp.close() 
 
linkdemo = GetLinks()
linkdemo.feed(data)
linkdemo.close() 
 
for href, link in linkdemo.links.items():
    print href, "=>", link 
分享到:
评论

相关推荐

    htmlparser

    org.htmlparser.Parser.class org.htmlparser.PrototypicalNodeFactory.class org.htmlparser.beans.BeanyBaby.class org.htmlparser.beans.FilterBean.class org.htmlparser.beans.HTMLLinkBean.class org....

    Winista.HtmlParser(含帮助手册)

    Winista.HtmlParser是一款用于解析HTML文档的库,它在.NET框架下运行,为开发者提供了方便的API来处理和解析HTML内容。这个库的核心目标是帮助程序员高效地从HTML页面中提取所需信息,如元素、属性、文本等。下面将...

    Winista.Htmlparser.Net 源码 +Demo

    Winista.Htmlparser.Net是一个基于C#的开源HTML解析库,它为开发者提供了一种高效且灵活的方式来处理HTML文档,尤其在需要从HTML中提取数据或者进行网页抓取时显得尤为重要。本文将深入探讨该库的核心功能、设计原理...

    Winista.HTMLParser源码

    在Winista.HTMLParser中,它的引入意味着库可以读取和写入ZIP文件,这对于处理大量网页数据或者需要压缩存储的情况非常有用。 2. 压缩与解压缩:利用ICSharpCode.SharpZipLib,开发者可以轻松地将爬取到的网页数据...

    Winista.Text.HtmlParser采集南京价格信息网

    《使用Winista.Text.HtmlParser采集南京价格信息网的实践与技术解析》 在信息技术日新月异的今天,数据采集已成为各行各业不可或缺的一部分。本项目“Winista.Text.HtmlParser采集南京价格信息网”就是一个典型的...

    Winista.Htmlparser 源码 C#类库 帮助文档

    通过源码学习,我们可以了解到其内部机制,包括如何处理标签、属性、文本节点以及DOM结构的构建。 首先,Htmlparser的核心功能在于解析HTML字符串或流,并将其转换为易于操作的对象模型。这个对象模型通常被称为DOM...

    Winista.Htmlparser的源码,另加Demo。源自....

    Winista.Htmlparser可能采用了类似于基于事件的解析模型,这种模型在遇到HTML标记时触发特定的事件,比如开始标签、结束标签或文本节点。通过订阅这些事件,开发者可以处理HTML文档的不同部分。 在.NET框架中,...

    Winista.HtmlParser

    Winista.HtmlParser作为一个强大的.NET HTML解析器,旨在简化HTML文档处理,提高开发效率。它提供了直观的API,使得开发者可以轻松地查找、遍历和操作HTML元素。这个库特别适用于需要从网页中提取特定信息或进行数据...

    Winista.Htmlparser.rar

    Htmlparser.chm文件很可能是一个帮助文档,包含了关于Winista.Htmlparser库的详细说明、API参考、示例代码和使用指南。通常,CHM(Compiled Help Manual)文件是微软编译的帮助文件格式,用户可以通过它来查找库的...

    Winista.HtmlParser.zip

    例如,如果你想从HTML中获取所有`<a>`标签,可以使用提供的查询方法,该方法接受CSS选择器作为参数,返回匹配的元素列表。然后,你可以进一步访问每个元素的属性,如`href`,以获取链接地址。此外,Winista....

    Winista.HTMLParser.dll

    《Winista.HTMLParser.dll:网页解析的开源利器》 在信息技术高速发展的今天,网页数据的抓取和分析已经成为一项至关重要的任务。对于开发者而言,能够高效地解析HTML文档,从中提取所需信息,无疑是一个强大的工具...

    Winista.Htmlparser.Net 解析Html 的.net类库

    HtmlParser.Net是来源于Java的一个用来解析html的组件,主要用于改造或提取html。它能够高速解析html,是非常好的一个html解析和分析... 这个是.Net版本包括源代码和帮助文档。 版本:HTMLParser.Net - Community 1.8

    DI.HtmlParser .v2.20

    4. **错误处理**:HTML通常包含语法错误或非标准标签,DI.HtmlParser 具有良好的容错性,能处理不规范的HTML,尽可能正确地构建DOM树。 5. **源码可用**:作为一个开源项目,DI.HtmlParser 的源代码可供查看和修改...

    htmlparser.jar文件

    HTMLParser.jar 文件是一个Java库...总的来说,HTMLParser.jar是一个强大的Java HTML解析库,适用于需要处理HTML数据的场景,如爬虫、信息提取或者自动化测试。正确地导入和使用这个库,可以大大简化对HTML文档的操作。

    HTML Parser

    org.htmlparser.Tag org.htmlparser.Node org.htmlparser.Text org.htmlparser.Parser org.htmlparser.Remark org.htmlparser.tags.Div org.htmlparser.Attribute org.htmlparser.tags.Html org.htmlparser.tags....

    Winista.Htmlparser

    《Winista.Htmlparser:C#中的网页解析利器》 在当今互联网时代,数据挖掘和信息提取成为企业与开发者的重要需求,而HTML解析是这一过程的关键环节。本文将深入探讨Winista.Htmlparser,一个专为C#开发的网页解析...

    Winista.HtmlParser.dll

    编译过的HtmlParser.dll文件,可直接使用

Global site tag (gtag.js) - Google Analytics