#!/usr/bin/python
#encoding='utf-8'
import htmllib,urllib,formatter,string
'''''
import chardet,sys
type = sys.getdefaultencoding()
'''
class GetLinks(htmllib.HTMLParser):
def __init__(self):
self.links = {}
f = formatter.NullFormatter()
htmllib.HTMLParser.__init__(self, f)
def anchor_bgn(self, href, name, type):
self.save_bgn()
self.link = href
def anchor_end(self):
text = string.strip(self.save_end())
if self.link and text:
self.links[text] = self.link#self.links.get(text, []) + [self.link]
#print self.links
#exit()
fp = urllib.urlopen("http://www.baidu.com")
data = fp.read()
fp.close()
linkdemo = GetLinks()
linkdemo.feed(data)
linkdemo.close()
for href, link in linkdemo.links.items():
print href, "=>", link
分享到:
相关推荐
org.htmlparser.Parser.class org.htmlparser.PrototypicalNodeFactory.class org.htmlparser.beans.BeanyBaby.class org.htmlparser.beans.FilterBean.class org.htmlparser.beans.HTMLLinkBean.class org....
Winista.HtmlParser是一款用于解析HTML文档的库,它在.NET框架下运行,为开发者提供了方便的API来处理和解析HTML内容。这个库的核心目标是帮助程序员高效地从HTML页面中提取所需信息,如元素、属性、文本等。下面将...
Winista.Htmlparser.Net是一个基于C#的开源HTML解析库,它为开发者提供了一种高效且灵活的方式来处理HTML文档,尤其在需要从HTML中提取数据或者进行网页抓取时显得尤为重要。本文将深入探讨该库的核心功能、设计原理...
在Winista.HTMLParser中,它的引入意味着库可以读取和写入ZIP文件,这对于处理大量网页数据或者需要压缩存储的情况非常有用。 2. 压缩与解压缩:利用ICSharpCode.SharpZipLib,开发者可以轻松地将爬取到的网页数据...
《使用Winista.Text.HtmlParser采集南京价格信息网的实践与技术解析》 在信息技术日新月异的今天,数据采集已成为各行各业不可或缺的一部分。本项目“Winista.Text.HtmlParser采集南京价格信息网”就是一个典型的...
通过源码学习,我们可以了解到其内部机制,包括如何处理标签、属性、文本节点以及DOM结构的构建。 首先,Htmlparser的核心功能在于解析HTML字符串或流,并将其转换为易于操作的对象模型。这个对象模型通常被称为DOM...
Winista.Htmlparser可能采用了类似于基于事件的解析模型,这种模型在遇到HTML标记时触发特定的事件,比如开始标签、结束标签或文本节点。通过订阅这些事件,开发者可以处理HTML文档的不同部分。 在.NET框架中,...
Winista.HtmlParser作为一个强大的.NET HTML解析器,旨在简化HTML文档处理,提高开发效率。它提供了直观的API,使得开发者可以轻松地查找、遍历和操作HTML元素。这个库特别适用于需要从网页中提取特定信息或进行数据...
Htmlparser.chm文件很可能是一个帮助文档,包含了关于Winista.Htmlparser库的详细说明、API参考、示例代码和使用指南。通常,CHM(Compiled Help Manual)文件是微软编译的帮助文件格式,用户可以通过它来查找库的...
例如,如果你想从HTML中获取所有`<a>`标签,可以使用提供的查询方法,该方法接受CSS选择器作为参数,返回匹配的元素列表。然后,你可以进一步访问每个元素的属性,如`href`,以获取链接地址。此外,Winista....
《Winista.HTMLParser.dll:网页解析的开源利器》 在信息技术高速发展的今天,网页数据的抓取和分析已经成为一项至关重要的任务。对于开发者而言,能够高效地解析HTML文档,从中提取所需信息,无疑是一个强大的工具...
HtmlParser.Net是来源于Java的一个用来解析html的组件,主要用于改造或提取html。它能够高速解析html,是非常好的一个html解析和分析... 这个是.Net版本包括源代码和帮助文档。 版本:HTMLParser.Net - Community 1.8
4. **错误处理**:HTML通常包含语法错误或非标准标签,DI.HtmlParser 具有良好的容错性,能处理不规范的HTML,尽可能正确地构建DOM树。 5. **源码可用**:作为一个开源项目,DI.HtmlParser 的源代码可供查看和修改...
HTMLParser.jar 文件是一个Java库...总的来说,HTMLParser.jar是一个强大的Java HTML解析库,适用于需要处理HTML数据的场景,如爬虫、信息提取或者自动化测试。正确地导入和使用这个库,可以大大简化对HTML文档的操作。
org.htmlparser.Tag org.htmlparser.Node org.htmlparser.Text org.htmlparser.Parser org.htmlparser.Remark org.htmlparser.tags.Div org.htmlparser.Attribute org.htmlparser.tags.Html org.htmlparser.tags....
《Winista.Htmlparser:C#中的网页解析利器》 在当今互联网时代,数据挖掘和信息提取成为企业与开发者的重要需求,而HTML解析是这一过程的关键环节。本文将深入探讨Winista.Htmlparser,一个专为C#开发的网页解析...
编译过的HtmlParser.dll文件,可直接使用