HtmlParser进行解析原理

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 1660 次

锁定老帖子主题：HtmlParser进行解析原理精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
wangxing0311 等级: 初级会员性别: 文章: 2 积分: 50 来自: 杭州	发表时间：2011-04-25 相关推荐: HTMLParser解析html详解在.net中运用HTMLParser解析网页的原理和方法 c# html parser,使用HtmlParser解析HTML (C#版) Python：HTMLParser模块进行简单的html解析【VUE】源码分析 - vue中的 HTMLParser，模板解析的第一步更多相关推荐互联网 HtmlParser主要靠Node、AbstractNode和Tag来表达Html 1. Node是形成树结构表示HTML的基础，所有的数据表示都是接口Node的实现，Node定义了与页面树结构所表达的页面Page对象，定义了获取父、子、兄弟节点的方法，定义了节点到对应html文本的方法，定义了该节点对应的起止位置，定义了过滤方法，定义了Visitor访问机制。 2. AbstractNode是Node的一种具体的类实现，起到构成树形结构的作用，除了同具体Node相关的accetp方法，toString，toHtml，toPlainTextString方法以外，AbstractNode实现了大多基本的方法，使得它的子类，不用理会具体的树操作。 3. Tag是具体分析的主要内容。Tag分成composite的Tag和不能包含其他Tag的简单Tag两类，其中前者的基类是CompositeTag，其子类包BodyTag,Div,FrameSetTag,OptionTag，等27个子类；而简单Tag有BaseHrefTag、DoctypeTag,FrameTag，ImageTag，InputTag，JspTag，MetaTag，ProcessingInstructionTag这八类。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → 综合技术版

跳转论坛: