Node中包含的方法有几类:
对于树型结构进行遍历的函数,这些函数最容易理解:
Node getParent ():取得父节点
NodeList getChildren ():取得子节点的列表
Node getFirstChild ():取得第一个子节点
Node getLastChild ():取得最后一个子节点
Node getPreviousSibling ():取得前一个兄弟
Node getNextSibling ():取得下一个兄弟节点
取得Node内容的函数:
String getText ():取得文本
String toPlainTextString():取得纯文本信息。
String toHtml () :取得HTML信息(原始HTML)
String toHtml (boolean verbatim):取得HTML信息(原始HTML)
String toString ():取得字符串信息(原始HTML)
Page getPage ():取得这个Node对应的Page对象
int getStartPosition ():取得这个Node在HTML页面中的起始位置
int getEndPosition ():取得这个Node在HTML页面中的结束位置
用于Filter过滤的函数:
void collectInto (NodeList list, NodeFilter filter):基于filter的条件对于这个节点进行过滤,符合条件的节点放到list中。
用于Visitor遍历的函数:
void accept (NodeVisitor visitor):对这个Node应用visitor
用于修改内容的函数,这类用得比较少:
void setPage (Page page):设置这个Node对应的Page对象
void setText (String text):设置文本
void setChildren (NodeList children):设置子节点列表
其他函数:
void doSemanticAction ():执行这个Node对应的操作(只有少数Tag有对应的操作)
Object clone ():接口Clone的抽象函数。
分享到:
相关推荐
static Parser createParser(String html, String charset)方法用于创建一个Parser对象,并解析指定的HTML字符串。 示例代码 下面是一个使用Parser中文API解析HTML网页的示例代码: ```java import java.io....
压缩包中,我们可以推测包含了一个使用Delphi7或Delphi XE2编写的HTML解析库或者示例代码。Delphi是一种强大的Object Pascal编程环境,常用于开发Windows应用程序。 HTML解析器的核心功能是将HTML文本分解成元素、...
标题中的"HTML-Parser-3.51.rar"表明这是一个关于HTML-Parser 3.51版本的压缩包,通常包含了该模块的源代码、文档和安装指南。`.rar`是常见的压缩文件格式,需要使用解压缩工具如WinRAR或7-Zip来打开。 描述中提到...
在使用这个Delphi HTML解析器时,开发者可能需要理解其API接口,如何创建解析器对象,调用解析方法,以及如何注册事件处理器来获取解析过程中的信息。由于源代码未提供,具体实现细节无法详细说明,但可以预见的是,...
Python中的`html5-parser`库是一个高效的HTML5解析器,它使用C语言编写,从而提供了比纯Python解析更快的速度。这个库是为了解决在处理大量HTML数据时,需要快速、准确地解析文档的需求。在Python开发中,尤其是在...
社区的贡献不仅包括bug修复和功能增强,还可能包含各种实用的扩展和插件,进一步提升开发体验。 总结来说,`html-react-parser`是一个不可或缺的工具,它极大地简化了前端开发中HTML字符串与React组件之间的转换,...
3. **错误处理与容错机制**: HTML DOM Parser通常包含良好的错误处理机制,能够处理不完整的HTML代码或非标准语法。这使得在处理来自用户输入或网络抓取的不完美HTML时,库能保持稳定,避免程序崩溃。 4. **API接口...
标题提到的"html parser 应用ie的内置parser可以解析动态脚本html",意味着我们将讨论如何利用MSHTML库,这个库是Internet Explorer的核心组件,支持HTML、CSS、JavaScript等网页技术,因此能够处理包含动态脚本的...
`Html_Parser` 应该是一个用Java编写的库,因为标签中提到了"java_parser"。在Java中,解析HTML主要有两种常见方式:DOM(Document Object Model)和SAX(Simple API for XML)。DOM将整个HTML文档加载到内存中,...
Python的标准库中包含了一个名为`html.parser`的模块,它提供了对HTML和基本XML的解析功能。这个解析器是基于事件驱动的,这意味着它会在遇到特定的HTML标签或事件时触发相应的回调函数。这种设计模式使得开发者可以...
DOM是一种表示HTML或XML文档的标准模型,它将整个页面结构化为一个节点树,每个HTML元素都是一个节点,包括元素节点、文本节点、属性节点等。解析器首先读取HTML源代码,然后按照HTML语法规则构建DOM树,以便程序...
Log Parser 2.2本身是一款强大的命令行工具,能够分析和查询各种日志文件、文本文件甚至数据库中的数据。通过提供直观的界面,LPSV2.D2使得对这些数据进行分析和提取变得更为简单,无需用户具备复杂的SQL或编程知识...
LogParser 是微软提供的一款强大的日志分析工具,主要用于解析和分析各种类型的数据源,包括IIS(Internet Information Services)日志。这款工具以其灵活性和丰富的功能,成为了IT专业人士进行系统监控、性能优化和...
**jericho HTML Parser** 是一个Java库,专门用于解析HTML文档。它被设计用来处理不规范的HTML,即那些在语法上可能不完全符合HTML标准的实际网页。在处理这种复杂性和不可预测性方面,jericho HTML Parser表现出了...
在“HTML parser选型测试”这个主题中,博主可能分享了他在选择适合项目需求的HTML解析器时的经验和测试结果。在源码和工具的标签下,我们可以推测这篇博文可能涉及到了代码实现和实际应用工具的比较。 首先,HTML...
"parser.min.zip"这个压缩包文件很可能包含了一个小程序的富文本解析组件。 "parser.min.js"是压缩包中的唯一文件,这通常意味着这是一个已经压缩和优化过的JavaScript库,用于处理富文本解析。在小程序环境中,...
在这个测试文件中,开发者可能会创建一个包含示例HTML表格的字符串,然后使用`table_parser`类进行解析,验证其功能是否正常。测试通常包括不同场景的覆盖,如空表格、多列数据、带有嵌套表格的复杂结构等。 值得...
HTML Parser的主要功能包括: 1. **解析HTML结构**:它能够解析HTML文档的整体结构,识别出各个标签、属性和内容,这对于理解和操作网页内容至关重要。 2. **元素选择器**:类似于CSS选择器,HTML Parser提供了选取...
2. **数据输出格式**:`logparser`可以将查询结果输出为多种格式,包括CSV、XML、HTML等,方便进一步的数据处理和可视化。 3. **自定义输入格式**:除了标准的日志格式,`logparser`允许用户定义自己的输入格式,...