`
john2007
  • 浏览: 77824 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

htmlparser vs sgmlparser 解析html的单个标签br img

阅读更多

上一次发现了SGMLParser的bug,(见Python sgmlparser bug)于是就想到了利用HTMLParser,于是对其利用同样的HTML代码做了测试:

 

测试代码如下:

 

class postparser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.pieces=[]
        
    def handle_starttag(self, tag, attrs):
        print "start tag name: " + tag
        for k,v in attrs:
            print "\t"+k+" : "+v
            
    def handle_endtag(self,tag):
        print "end tag name:"+tag
    
    def handle_data(self,data):
        self.pieces.append(data)
    def gethtmltext(self):
        return "".join(self.pieces)
    
    def reset(self):
        HTMLParser.reset(self)
        
def testmyparser(htmldata):
    parser=postparser()
    parser.feed(htmldata)
    print parser.gethtmltext()
    parser.reset()
 
    if __name__=="__main__":
    #htmldata=urllib.urlopen("http://www.sogou.com").read().decode("gbk")
    htmldata="""<html><head>
    <title>Google Page</title>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
    <link rel="stylesheet" href="#" type="text/css">
    </head><body> 
    <table id="tab">
        <tr id="tr1"><td id="tr1td1">tr1 td1</td><td>tr1 td2</td><td>tr1 td3</td></tr>
        <tr id="tr2"><td id="tr2td1">tr2 td1</td><td>tr2 td2</td><td>tr2 td3</td></tr>
    </table>
    <br/>
    <p onmousemove="javascript:alert('>p<');"> this is a paragraph.</p>
    <img src="http://www.baidu.com/img/baidu_logo.gif" id="baidulogo" /><br/>
    <a href="http://baidu.com">baidu</a><br/>
    <b>bold font</b><br/>
    
    <script language="javascript">alert("hello, world ");</script>
    <style>#tab{background-color:#fcdad5;}</style>
    </body></html>
    """
    testmyparser(htmldata)

 

结果输出如下:

 

start tag name: html
start tag name: head
start tag name: title
end tag name:title
start tag name: meta
	http-equiv : Content-Type
	content : text/html; charset=utf-8
start tag name: link
	rel : stylesheet
	href : #
	type : text/css
end tag name:head
start tag name: body
start tag name: table
	id : tab
start tag name: tr
	id : tr1
start tag name: td
	id : tr1td1
end tag name:td
start tag name: td
end tag name:td
start tag name: td
end tag name:td
end tag name:tr
start tag name: tr
	id : tr2
start tag name: td
	id : tr2td1
end tag name:td
start tag name: td
end tag name:td
start tag name: td
end tag name:td
end tag name:tr
end tag name:table
start tag name: br
end tag name:br
start tag name: p
	onmousemove : javascript:alert('>p<');
end tag name:p
start tag name: img
	src : http://www.baidu.com/img/baidu_logo.gif
	id : baidulogo
end tag name:img
start tag name: br
end tag name:br
start tag name: a
	href : http://baidu.com
end tag name:a
start tag name: br
end tag name:br
start tag name: b
end tag name:b
start tag name: br
end tag name:br
start tag name: script
	language : javascript
end tag name:script
start tag name: style
end tag name:style
end tag name:body
end tag name:html

    Google Page
    
    
     
    
        tr1 td1tr1 td2tr1 td3
        tr2 td1tr2 td2tr2 td3
    
    
     this is a paragraph.
    
    baidu
    bold font
    
    alert("hello, world ");
    #tab{background-color:#fcdad5;}
    
    

 

从测试结果来看,比之于SGMLParser,解析的结果还是不错的,克服了不能解析单个标签的bug,而且onmousemove中的><也得到了正确的解析。

 

分享到:
评论

相关推荐

    htmlparser(HTML页面解析)例子

    HTMLParser是Python中用于解析HTML文档的一个库,它允许开发者以事件驱动的方式处理HTML文档的结构。这个库特别适用于从不规范的HTML源码中提取数据,因为网页内容的格式可能会因各种原因而不尽完美。在本例中,我们...

    java解析html工具htmlparser的jar包及api文档

    例如,以下是一个简单的使用示例,展示如何使用HTMLParser解析一个HTML字符串并打印出所有的`&lt;a&gt;`标签: ```java import org.htmlparser.Parser; import org.htmlparser.util.NodeIterator; import org.htmlparser....

    Html解析助手htmlparser.jar

    3. **事件驱动解析**:`htmlparser.jar`支持事件驱动的解析模式,当遇到特定的HTML标签或事件时,会触发回调函数,这种方式对内存使用友好,适用于处理大型HTML文档。 4. **灵活性**:这个库允许用户自定义解析规则...

    HTML文档解析器 HTMLParser

    在浏览器加载HTML文档时,它会使用内置的解析器来解析这些标签,并根据它们构建DOM(文档对象模型)树,这个过程就是HTML解析。 HTMLParser是实现这个解析过程的软件组件。它的主要任务包括识别HTML标记、处理嵌套...

    htmlparser_Java网页解析器

    在事件驱动模式下,HTMLParser会监听并触发一系列的解析事件,如遇到开始标签、结束标签、文本内容等。开发者可以通过注册事件处理器来响应这些事件,从而提取所需的数据。这种方式对于处理大量HTML文档且只需要关注...

    android 解析html (htmlParser)库和源码

    android 解析html (htmlParser)库和源码 因为一个项目需要解析一个网站上的新闻,所以找到了htmlParser这个开源的项目,删除了一些不需要的包,使其可以在android上用。 有两个工程,myhtml是库,要把它包含到...

    Winista.Htmlparser.Net 解析Html 的.net类库

    HtmlParser.Net是来源于Java的一个用来解析html的组件,主要用于改造或提取html。它能够高速解析html,是非常好的一个html解析和分析工具。 这个是.Net版本包括源代码和帮助文档。 版本:HTMLParser.Net - Community...

    htmlparser解析html分页

    HTMLParser是一个用于解析HTML文档的库,尤其在处理非结构化或不标准的HTML时非常有用。这个库可能被用于从网页中提取数据,比如在爬虫项目中,或者进行自动化测试时解析页面内容。本篇文章将深入探讨HTMLParser的...

    解析htmlparser的所有jar包

    HTMLParser是一个Java库,专为解析HTML文档而设计。它提供了简单且灵活的方式来处理HTML标记,使得在Java程序中操作和分析HTML内容变得容易。在这个压缩包中,你可能找到了HTMLParser项目的所有必需jar包,这将帮助...

    htmlparser解析Html的jar包和源文件包(两个)

    HTMLParser是一款专为Java开发人员设计的开源库,用于解析HTML文档。这个工具包小巧而强大,能够处理不规则的HTML结构,对于处理网络爬虫、网页数据提取或需要解析HTML内容的应用程序来说,是非常实用的。在提供的...

    HtmlParser

    1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_starttag`、`handle_endtag`和`handle_data`,以便在遇到HTML标签开始、结束或数据时执行特定操作。 2. **启动爬虫*...

    html解析的利器,htmlParser

    `htmlParser`提供了事件驱动的解析模式,当解析器遇到如打开标签、关闭标签、文本内容等事件时,会触发相应的回调函数,这样我们就可以在这些回调中执行自定义逻辑。 例如,如果你想要提取所有的`&lt;a&gt;`标签链接,你...

    跨平台的Html解析代码_武稀松_HtmlParser.rar

    【标题】"跨平台的Html解析代码_武稀松_HtmlParser.rar" 涉及的是一个关于跨平台HTML解析的编程项目,由开发者武稀松创建。这个项目的核心是HtmlParser,它可能是一个用Delphi编写的库或框架,旨在帮助程序员在不同...

    python解析html的几种方法

    Python在处理HTML文档时提供了多种方法,这些方法可以帮助...对于轻量级任务,可以使用内置的`HTMLParser`,而`SGMLParser`则适合对老式SGML文档进行解析。理解这些工具的特性和用法是提高Python处理HTML能力的关键。

    基于Java的HTML文档解析器 HTMLParser.zip

    1. **解析HTML结构**:HTMLParser能够解析不规则的HTML文档,即使这些文档不符合严格的HTML规范,也能正确处理标签嵌套和属性。 2. **事件驱动模型**:HTMLParser使用事件驱动模型来解析HTML。当遇到特定的HTML元素...

    c#版htmlparser htmlparser.dll htmlparser源代码

    HTMLParser是一款用于解析HTML文档的库,主要针对C#编程语言设计。在.NET环境中,开发者经常需要处理HTML数据,例如从网页抓取信息或者进行网页自动化。HTMLParser库提供了便捷的方式来解析复杂的HTML结构,提取所需...

    基于java的开发源码-HTML文档解析器 HTMLParser.zip

    基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于...

    扩展HTMLParser对自定义标签的处理能力

    资源名称:扩展HTMLParser对自定义标签的处理能力内容简介: HTMLParser是一个用来解析HTML文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 现在该项目的最新版本是Integration Build ...

    htmlparser库与教程

    HTMLParser库是一个强大的Java库,专门用于解析HTML文档。它为开发者提供了一种方便的方式来处理HTML,即使HTML的格式不规范或包含错误。这个库在处理网页数据抓取、信息提取以及网页自动化等方面非常有用,尤其对于...

Global site tag (gtag.js) - Google Analytics