HTMLParser使用详解（4）- 通过Visitor访问内容

Allen.CD.China

浏览: 345603 次
性别:
来自: 成都

最近访客更多访客>>

zyn010101

shxtyu

chensl

gavin_surekam

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎

XHTML HTML

HTMLParser遍历了网页的内容以后，以树（森林）结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。
下面介绍使用Visitor访问内容的方法。

4.1 NodeVisitor
从简单方面的理解，Filter是根据某种条件过滤取出需要的Node再进行处理。Visitor则是遍历内容树的每一个节点，对于符合条件的节点进行处理。实际的结果异曲同工，两种不同的方法可以达到相同的结果。
下面是一个最常见的NodeVisitro的例子。
测试代码：
    public static void main(String[] args) {
        try{
            Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );

            NodeVisitor visitor = new NodeVisitor( false, false ) {
                public void visitTag(Tag tag) {
                   message("This is Tag:"+tag.getText());
                }
                public void visitStringNode (Text string)    {
                     message("This is Text:"+string);
                }
                public void visitRemarkNode (Remark remark) {
                     message("This is Remark:"+remark.getText());
                }
                public void beginParsing () {
                    message("beginParsing");
                }
                public void visitEndTag (Tag tag){
                    message("visitEndTag:"+tag.getText());
                }
                public void finishedParsing () {
                    message("finishedParsing");
                }
            };

            parser.visitAllNodesWith(visitor);
        }
        catch( Exception e ) {
            e.printStackTrace();
        }
    }
输出结果：
beginParsing
This is Tag:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
This is Text:Txt (121[0,121],123[1,0]): \n
This is Text:Txt (244[1,121],246[2,0]): \n
finishedParsing

可以看到，开始遍历所以的节点以前，beginParsing先被调用，然后处理的是中间的Node，最后在结束遍历以前，finishParsing被调用。因为我设置的 recurseChildren和recurseSelf都是false，所以Visitor没有访问子节点也没有访问根节点的内容。中间输出的两个\n就是我们在HTMLParser使用详解（1）- 初始化Parser 中讨论过的最高层的那两个换行。

我们先把recurseSelf设置成true，看看会发生什么。
NodeVisitor visitor = new NodeVisitor( false, true) {
输出结果：
beginParsing
This is Tag:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
This is Text:Txt (121[0,121],123[1,0]): \n
This is Tag:head
This is Text:Txt (244[1,121],246[2,0]): \n
This is Tag:html xmlns="http://www.w3.org/1999/xhtml"
finishedParsing
可以看到，HTML页面的第一层节点都被调用了。

我们再用下面的方法调用看看：
NodeVisitor visitor = new NodeVisitor( true, false) {
输出结果：
beginParsing
This is Tag:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
This is Text:Txt (121[0,121],123[1,0]): \n
This is Tag:meta http-equiv="Content-Type" content="text/html; charset=gb2312"
This is Text:Txt (204[1,81],229[1,106]): 白泽居-title-www.baizeju.com
visitEndTag:/title
visitEndTag:/head
This is Text:Txt (244[1,121],246[2,0]): \n
This is Text:Txt (289[2,43],291[3,0]): \n
This is Text:Txt (298[3,7],300[4,0]): \n
This is Text:Txt (319[4,19],322[5,1]): \n\t
This is Text:Txt (342[5,21],346[6,2]): \n\t\t
This is Remark:这是注释白泽居-www.baizeju.com
This is Text:Txt (378[6,34],408[8,0]): \n\t\t白泽居-字符串1-www.baizeju.com\n
This is Text:Txt (441[8,33],465[8,57]): 白泽居-链接文本-www.baizeju.com
visitEndTag:/a
This is Text:Txt (469[8,61],472[9,1]): \n\t
visitEndTag:/div
This is Text:Txt (478[9,7],507[11,0]): \n\t白泽居-字符串2-www.baizeju.com\n
visitEndTag:/div
This is Text:Txt (513[11,6],515[12,0]): \n
visitEndTag:/body
This is Text:Txt (522[12,7],524[13,0]): \n
visitEndTag:/html
finishedParsing
可以看到，所有的子节点都出现了，除了刚刚例子里面的两个最上层节点This is Tag:head和This is Tag:html xmlns="http://www.w3.org/1999/xhtml"。

想让它们都出来，只需要
NodeVisitor visitor = new NodeVisitor( true, true) {
输出结果：
beginParsing
This is Tag:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
This is Text:Txt (121[0,121],123[1,0]): \n
This is Tag:head
This is Tag:meta http-equiv="Content-Type" content="text/html; charset=gb2312"
This is Tag:title
This is Text:Txt (204[1,81],229[1,106]): 白泽居-title-www.baizeju.com
visitEndTag:/title
visitEndTag:/head
This is Text:Txt (244[1,121],246[2,0]): \n
This is Tag:html xmlns="http://www.w3.org/1999/xhtml"
This is Text:Txt (289[2,43],291[3,0]): \n
This is Tag:body
This is Text:Txt (298[3,7],300[4,0]): \n
This is Tag:div id="top_main"
This is Text:Txt (319[4,19],322[5,1]): \n\t
This is Tag:div id="logoindex"
This is Text:Txt (342[5,21],346[6,2]): \n\t\t
This is Remark:这是注释白泽居-www.baizeju.com
This is Text:Txt (378[6,34],408[8,0]): \n\t\t白泽居-字符串1-www.baizeju.com\n
This is Tag:a href="http://www.baizeju.com"
This is Text:Txt (441[8,33],465[8,57]): 白泽居-链接文本-www.baizeju.com
visitEndTag:/a
This is Text:Txt (469[8,61],472[9,1]): \n\t
visitEndTag:/div
This is Text:Txt (478[9,7],507[11,0]): \n\t白泽居-字符串2-www.baizeju.com\n
visitEndTag:/div
This is Text:Txt (513[11,6],515[12,0]): \n
visitEndTag:/body
This is Text:Txt (522[12,7],524[13,0]): \n
visitEndTag:/html
finishedParsing
哈哈，这下调用清楚了，大家在需要处理的地方增加自己的代码好了。

4.2 其他Visitor
HTMLParser还定义了几个其他的Visitor。HtmlPage，NodeVisitor，ObjectFindingVisitor，StringFindingVisitor，TagFindingVisitor，TextExtractingVisitor，UrlModifyingVisitor，它们都是NodeVisitor的子类，实现了一些特定的功能。笔者个人的感觉是没什么用处，如果你需要什么特定的功能，还不如自己写一个，想在这些里面找到适合你需要的，化的时间可能更多。反正大家看看代码就发现，它们每个都没几行真正有效的代码。

分享到：

htmlparser使用指南 | HTMLParser使用详解（3）- 通过Filter访问 ...

2008-07-31 21:30
浏览 6241
评论(1)
查看更多

1 楼 coconut_zhang 2012-06-27

怎么没人评论，吼吼。。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

轴类零件加工工艺设计.zip: 轴类零件加工工艺设计.zip

《基于YOLOv8的冷链车车门未关严预警系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

seaborn基本绘图人力资源数据集: seaborn基本绘图人力资源数据集

移动机器人(sw三维）.rar: 移动机器人(sw三维）

自制html网页源代码查看器: 自制html网页源代码查看器

3吨叉车的液压系统设计().zip: 3吨叉车的液压系统设计().zip

1_实验三扰码、卷积编码及交织.ppt: 1_实验三扰码、卷积编码及交织.ppt

北京交通大学软件学院自命题科目考试大纲.pdf: 北京交通大学软件学院自命题科目考试大纲.pdf

雅鲁藏布江流域 shp矢量数据 (范围＋DEM).zip: 雅鲁藏布江流域 shp矢量数据 (范围＋DEM).zip

基于RUST的数据结构代码示例，栈、队列、图等: 基于RUST的数据结构代码示例，栈、队列、图等

NIFD：2024Q1房地产金融报告.pdf: NIFD：2024Q1房地产金融报告

工具变量-上市公司核心名称数据集合.xlsx: 详细介绍及样例数据：https://blog.csdn.net/li514006030/article/details/146916652

【工业机器视觉定位软件Vision-Detect】基于C#的WPF与Halcon开发的工业机器视觉定位软件（整套源码），开箱即用: 【工业机器视觉定位软件Vision-Detect】基于C#的WPF与Halcon开发的工业机器视觉定位软件（整套源码），开箱即用有用户登录，图片加载，模板创建，通讯工具，抓边抓圆，良率统计，LOG日志，异常管理，九点标定和流程加载保存等模块，功能不是很完善，适合初学者参考学习。资源介绍请查阅：https://blog.csdn.net/m0_37302966/article/details/146912206 更多视觉框架资源：https://blog.csdn.net/m0_37302966/article/details/146583453

【Java技术领域】Java虚拟机（JVM）面试题详解：涵盖内存模型、垃圾回收、类加载及调优技术（51道含答案）: 内容概要：本文档详细介绍了Java虚拟机（JVM）的相关知识点，涵盖Java内存模型、垃圾回收机制及算法、垃圾收集器、内存分配策略、虚拟机类加载机制和JVM调优等内容。首先阐述了Java代码的编译和运行过程，以及JVM的基本组成部分及其运行流程。接着深入探讨了JVM的各个运行时数据区，如程序计数器、Java虚拟机栈、本地方法栈、Java堆、方法区等的作用和特点。随后，文档详细解析了垃圾回收机制，包括GC的概念、工作原理、优点和缺点，并介绍了几种常见的垃圾回收算法。此外，文档还讲解了JVM的分代收集策略，新生代和老年代的区别，以及不同垃圾收集器的工作方式。最后，文档介绍了类加载机制、JVM调优的方法和工具，以及常用的JVM调优参数。适合人群：具备一定Java编程基础的研发人员，尤其是希望深入了解JVM内部机制、优化程序性能的技术人员。使用场景及目标：①帮助开发人员理解Java代码的编译和执行过程；②掌握JVM内存管理机制，包括内存分配、垃圾回收等；③熟悉类加载机制，了解类加载器的工作原理；④学会使用JVM调优工具，掌握常用调优参数，提升应用程序性能。其他说明：本文档内容详尽，适合用作面试准备材料和技术学习资料，有助于提高开发人员对JVM的理解和应用能力。

基于Android的美食推荐 APP LW PPT.zip: Android项目原生java语言课程设计，包含LW+ppt

戴德梁行&中国房地产协会：2021亚洲房地产投资信托基金研究报告.pdf: 戴德梁行&中国房地产协会：2021亚洲房地产投资信托基金研究报告

基于androidX的跑步软件开发.zip: Android项目原生java语言课程设计，包含LW+ppt

Thinkphp6.0+vue个人虚拟物品发卡网站源码支持码支付对接扫码自动发货源码一共包含两个部分thinkphp6.0后端文件，以及vue前端文件.zip: Thinkphp6.0+vue个人虚拟物品发卡网站源码支持码支付对接扫码自动发货源码一共包含两个部分thinkphp6.0后端文件，以及vue前端文件.zip

《基于YOLOv8的食品冷链运输车厢门未锁闭预警系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 《基于YOLOv8的食品冷链运输车厢门未锁闭预警系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计

《基于YOLOv8的果园果实成熟度分级系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论