HtmlParser初步研究

hintcnuie

浏览: 1406055 次
性别:
来自: 北京

最近访客更多访客>>

wangchh8134

yhcc_0817

luohhyo

魁拔222

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

HTML 数据结构编程 .net 工作

这两天准备做一些网站编程的工作，于是对HtmlParse小研究了一下，目的是快速入手，而不是深入研究，做了一下整理，和大家共同讨论一下。

一，数据组织分析：

HtmlParser主要靠Node、AbstractNode和Tag来表达Html，因为Remark和Text相对简单，此处就将其忽略了。

Node是形成树结构表示HTML的基础，所有的数据表示都是接口Node的实现，Node定义了与页面树结构所表达的页面Page对象，定义了获取父、子、兄弟节点的方法，定义了节点到对应html文本的方法，定义了该节点对应的起止位置，定义了过滤方法，定义了Visitor访问机制。
AbstractNode是Node的一种具体的类实现，起到构成树形结构的作用，除了同具体Node相关的accetp方法，toString，toHtml，toPlainTextString方法以外，AbstractNode实现了大多基本的方法，使得它的子类，不用理会具体的树操作。
Tag是具体分析的主要内容。Tag分成composite的Tag和不能包含其他Tag的简单Tag两类，其中前者的基类是CompositeTag，其子类包含BodyTag,Div,FrameSetTag,OptionTag，等27个子类；而简单Tag有BaseHrefTag、DoctypeTag,FrameTag，ImageTag，InputTag，JspTag，MetaTag，ProcessingInstructionTag这八类。

Node分成三类：

RemarkNode:代表Html中的注释
TagNode：标签节点，是种类最多的节点类型，上述Tag的具体节点类都是TagNode的实现。
TextNode：文本节点

二，Visitor方式访问Html：

1，整体解析过程

用一个URL或页面String做一个Parser
用这个Parser做一个Visitor
使用Parser.visitAllNodeWith(Visitor)来遍历节点
获取Visitor遍历后得到的数据

2，Visit过程

做解析之前做的事情：visitor.beginParsing();
每次取到一个节点Node，让该Node接受accept该Visitor
做解析后做的事情：visitor.finishedParsing();

3，获取节点的过程：逐步遍历Html，分析出Node。此部分较为复杂，且对于我们应用来说无需很多了解，暂跳过。

4，节点访问

节点访问采用Visitor模式，Node的accept方法和具体Visitor的visit方法是关键。

首先三类Node来accept的方式各不相同：

对于所有TagNode都使用一个accept方法，即TagNode的accept方法。首先判断是否是标签结尾，如果是就visitor.visitEndTag (this)；否则visitor.visitTag (this);
如果是TextNode，那就visitor.visitStringNode (this);就可以了。
如果是RemarkNode，那就visitor.visitRemarkNode (this);就可以了。

实际上NodeVisitor里边这四种visit方法都是空的，因为在不同的Visitor中对于这三类节点的处理是不同的；对于需要处理的节点，只要重载对应的visit方法就行了，如果不处理那就不理会就可以了；另外，如果用户用自己的Visitor，那么还可以灵活的处理不同类型的节点了。

系统为我们实现了下面我要介绍的8种Visitor，实际上可以看作是系统给我们演示了如何做各种各样的Visitor来访问Html，因为实际上我们要真正来用HtmlParser的话，还需要特定的Visitor，而通过简单的这些系统提供的Visitor组合是难以做成什么事情的。

三，系统Visitor功能简介：

ObjectFindingVisitor：用来找出所有指定类型的节点，采用getTags()来获取结果。
StringBean：用来从一个指定的URL获取移除了<SCRIPT></SCRIPT>和<PRE></PRE>之间代码的Html代码，也可以用做Visitor，用来移除这两种标签内部的代码，采用StringBean.getStrings()来获取结果。
HtmlPage：提取Title，body中的节点和页面中的TableTag节点。
LinkFindingVisitor:找出节点中包含某个链接的总个数。
StringFindingVisitor：找出遍历的TextNode中含有指定字符串的个数。
TagFindingVisitor：找出指定Tag的所有节点，可以指定多种类型。
TextExtractingVisitor：从网页中把所有标签去掉来提取文本，这个提取文本的Visitor有时是很实用的，只是注意在提取文本时将标签的属性也去掉了，也就是说只剩下标签之间的文本，例如<a>中的链接也去掉了。
UrlModifyingVisitor：用来修改网页中的链接。

四，Filter

如果说visitor是遍历提取信息，当然这个信息可以包括某些节点或者从节点分析出来的更有效的信息，这都取决于我们的Visitor做成什么样子，那么Filter则目标很明确，就是用来提取节点的。所以说要想用HtmlParser，首先要熟悉上面讲到的数据组织。

系统定义了17种具体的Filter，包括依据节点父子关系的Filter，连接Filter组合的Filter，依据网页内容匹配情况的filter，等等。我们也可以implement Filter来做自己的Filter来提取节点。

Filter的调用是同Visitor独立的，因为也无需先filter出一些NodeList，再用Visitor来访问。调用Filter的方法是：

NodeList nodeList = myParser.parse(someFilter);

解析之后，我们可以采用：

Node[] nodes = nodeList.toNodeArray();

来获取节点数组，也可以直接访问：

Node node = nodeList.elementAt(i)来获取Node。

另外，在Filter后得到NodeList以后，我们仍然可以使用NodeList的extractAllNodesThatMatch (someFilter)来进一步过滤，同时又可以用NodeList的isitAllNodesWith(someVisitor)来做进一步的访问。

这样，我们可以看到HtmlParser为我们提供了非常方便的Html解析方式，针对不同的应用可以采用visitor来遍历Html节点提取数据，也可以用Filter来过滤节点，提取出我们所关注的节点，再对节点进行处理。通过这样的组合，一定能够找出我们所需要的信息。

参考：

http://htmlparser.sourceforge.net/

http://www.blogjava.net/rocky/archive/2005/12/21/24997.aspx

http://www.westing.cn/xblog/?p=90

分享到：

利用IO流：：：（二种方法）读取网页HTML网 ... | Ext inheritance machnism

2008-03-14 22:26
浏览 1232
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

htmlparser 资料集合: - CSDN博客.htm`和`HtmlParser初步研究 - lostfire - BlogJava.htm`这类博客文章，通常由开发者分享他们的学习心得和实践经验，可能包括一些常见问题的解决方法、技巧或最佳实践。 `利用htmlparser抓取网页内容(一...

htmlparser1_6: 总结来说，HTMLParser1_6是一个用于HTML解析、网页匹配和数据抓取的工具，其核心功能包括高效地解析HTML结构、根据用户定义的规则进行网页匹配、自动化数据抓取以及对抓取数据的初步分析。开发者可以通过这个库轻松...

PHP4 HTMLPP-开源: 2. 研究源代码，理解其内部工作机制，以便于自定义和扩展。 3. 加入开源社区，参与讨论，提交 bug 报告或贡献代码。 4. 如果遇到问题，可以在社区中寻求帮助，或者参考已有的解决方案。总的来说，HTMLPP 是 PHP4 ...

Python编程入门经典: 第Ⅰ部分初步了解Python 第1章编程基础和字符串 3 1.1 编程与使用计算机的区别 3 1.1.1 编程的一致性 3 1.1.2 编程的可控性 4 1.1.3 程序要应对变化 4 1.1.4 小结 4 1.2 准备工作 4 1.2.1 在非Windows系统上安装 ...

安川MP7系列工控系统源码解析：关键算法与硬件交互揭秘: 内容概要：本文深入剖析了安川MP7系列工业控制系统的关键源码，重点介绍了运动轨迹规划、通信协议处理以及故障处理机制等方面的技术细节。通过对实际代码片段的解读，揭示了该系统在硬件寄存器直接访问、特殊功能码处理等方面的独特之处。同时，文中还分享了一些基于实践经验得出的重要参数设置及其背后的故事，如特定摩擦补偿系数的选择原因等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对安川产品有一定了解并希望深入了解其内部工作机制的专业人士。使用场景及目标：帮助读者掌握安川MP7系列控制器的工作原理，提高对类似系统的维护能力和故障排查效率。对于想要进一步研究或二次开发该系统的开发者来说，也能提供宝贵的参考资料。其他说明：文章不仅限于理论讲解，还包括了许多来自一线的实际案例和经验教训，使读者能够更好地理解和应用所学知识。

自动化测试与脚本开发_Python3_pynput_键盘鼠标操作录制执行代码生成工具_用于自动化测试_脚本录制_重复操作模拟_宏命令生成_提高工作效率_支持GUI界面_跨平台兼容_.zip: 自动化测试与脚本开发_Python3_pynput_键盘鼠标操作录制执行代码生成工具_用于自动化测试_脚本录制_重复操作模拟_宏命令生成_提高工作效率_支持GUI界面_跨平台兼容_

嵌入式八股文面试题库资料知识宝典-深入分析Windows和Linux动态库应用异同.zip: 嵌入式八股文面试题库资料知识宝典-深入分析Windows和Linux动态库应用异同.zip

嵌入式八股文面试题库资料知识宝典-C语言总结.zip: 嵌入式八股文面试题库资料知识宝典-C语言总结.zip

风储直流微电网母线电压控制策略与双闭环MPPT技术研究: 内容概要：本文详细探讨了风储直流微电网中母线电压控制的关键技术。首先介绍了风储直流微电网的背景和发展现状，强调了母线电压控制的重要性。接着阐述了永磁风机储能并网技术，解释了永磁风机如何通过直接驱动发电机将风能转化为电能，并确保与电网的同步性和稳定性。然后深入讨论了双闭环控制MPPT技术，这是一种通过内外两个闭环控制系统来实现实时调整发电机运行参数的技术，确保风机始终处于最大功率点附近。最后，文章探讨了储能控制母线电压平衡的方法，即通过储能系统的充放电操作来维持母线电压的稳定。结论部分指出，通过这些技术的有机结合，可以实现对风储直流微电网的有效管理和优化控制。适合人群：从事新能源技术研发的专业人士、电气工程研究人员、风电系统工程师。使用场景及目标：适用于希望深入了解风储直流微电网母线电压控制策略的研究人员和技术人员，旨在帮助他们掌握最新的控制技术和方法，以提高系统的稳定性和效率。其他说明：文章还对未来风储直流微电网的发展进行了展望，指出了智能化和自动化的趋势，以及储能技术的进步对系统性能的影响。

嵌入式八股文面试题库资料知识宝典-C++object-oriented.zip: 嵌入式八股文面试题库资料知识宝典-C++object-oriented.zip

【操作系统开发】HarmonyOS目录结构详解：构建高效开发环境与跨设备协同应用: 内容概要：文章详细介绍了HarmonyOS的目录结构及其重要性，从整体框架到核心目录的具体功能进行了全面剖析。HarmonyOS凭借其分布式架构和跨设备协同能力迅速崛起，成为全球操作系统领域的重要力量。文章首先概述了HarmonyOS的背景和发展现状，强调了目录结构对开发的重要性。接着，具体介绍了根目录文件、AppScope、entry和oh_modules等核心目录的功能和作用。例如，AppScope作为全局资源配置中心，存放应用级的配置文件和公共资源；entry目录是应用的核心入口，负责源代码和界面开发。此外，文章还对比了HarmonyOS与Android、iOS目录结构的异同，突出了HarmonyOS的独特优势。最后，通过旅游应用和电商应用的实际案例，展示了HarmonyOS目录结构在资源管理和代码组织方面的应用效果。; 适合人群：具备一定编程基础，尤其是对移动操作系统开发感兴趣的开发者，包括初学者和有一定经验的研发人员。; 使用场景及目标：①帮助开发者快速理解HarmonyOS的目录结构，提高开发效率；②为跨设备应用开发提供理论和技术支持；③通过实际案例学习资源管理和代码组织的最佳实践。; 其他说明：HarmonyOS的目录结构设计简洁明了，模块职责划分明确，有助于开发者更好地管理和组织代码和资源。随着万物互联时代的到来，HarmonyOS有望在开发便利性和生态建设方面取得更大进展，吸引更多开发者加入其生态系统。

飞轮储能充放电控制Simulink仿真模型：基于永磁同步电机的矢量控制与dq轴解耦: 内容概要：本文详细介绍了飞轮储能充放电控制的Simulink仿真模型，重点在于采用永磁同步电机的矢量控制和dq轴解耦控制策略。充电时，外环控制转速，内环控制dq轴电流；放电时，外环控制直流母线电压，内环同样控制dq轴电流。文中还讨论了硬件与软件环境的选择，以及仿真模型的调试与运行情况，最终得出该模型具有良好的跟随性能和波形完美度。适用人群：从事电力电子系统、储能技术和Simulink仿真的研究人员和技术人员。使用场景及目标：适用于需要对飞轮储能系统进行深入研究和仿真的场合，旨在提高充放电效率和稳定性，满足不同应用场景的需求。其他说明：该仿真模型已调试完成，可以直接用于进一步的研究和实际应用，为未来的飞轮储能技术研发提供了有价值的参考。

嵌入式八股文面试题库资料知识宝典-北京瑞德方科技.zip: 嵌入式八股文面试题库资料知识宝典-北京瑞德方科技.zip

嵌入式八股文面试题库资料知识宝典-同方万维硬件测试工程师.zip: 嵌入式八股文面试题库资料知识宝典-同方万维硬件测试工程师.zip

1_15套python PDF格式.zip: 1_15套python PDF格式.zip

三相三电平整流器仿真：基于电压电流双闭环控制与SPWM调制的性能分析: 内容概要：本文详细介绍了三相三电平整流器的仿真过程及其性能分析。文中首先概述了三相三电平整流器的基本概念及其在电力系统中的重要作用，接着重点探讨了电压电流双闭环控制方式的工作原理和优势，以及SPWM调制技术的具体应用。通过仿真文件展示了整流器在不同条件下的响应情况，验证了这两种技术的有效性和优越性。最后，作者表达了对未来实际应用的期望。适合人群：从事电力电子研究的技术人员、高校相关专业师生、对电力控制系统感兴趣的工程爱好者。使用场景及目标：适用于希望深入了解三相三电平整流器工作原理和技术细节的研究人员；目标是在理论基础上掌握电压电流双闭环控制和SPWM调制的实际应用方法。其他说明：本文提供的仅为仿真文件，未涉及实物实验数据。

嵌入式八股文面试题库资料知识宝典-恒光科技.zip: 嵌入式八股文面试题库资料知识宝典-恒光科技.zip

嵌入式八股文面试题库资料知识宝典-北京天华威视科技有限公司面试题.zip: 嵌入式八股文面试题库资料知识宝典-北京天华威视科技有限公司面试题.zip

嵌入式八股文面试题库资料知识宝典-微软研究院笔试题目的答案.zip: 嵌入式八股文面试题库资料知识宝典-微软研究院笔试题目的答案.zip

Arduino UART实验例程【正点原子EPS32S3】: Arduino UART实验例程，开发板：正点原子EPS32S3，本人主页有详细实验说明可供参考。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论