1 . 逻辑关系:与或非
OrFilter() Creates a new instance of an OrFilter. |
OrFilter(NodeFilter[] predicates) Creates an OrFilter that accepts nodes acceptable to any of the given filters. |
OrFilter(NodeFilter left, NodeFilter right) Creates an OrFilter that accepts nodes acceptable to either filter. |
OrFilter() Creates a new instance of an OrFilter. |
OrFilter(NodeFilter[] predicates) Creates an OrFilter that accepts nodes acceptable to any of the given filters. |
OrFilter(NodeFilter left, NodeFilter right) Creates an OrFilter that accepts nodes acceptable to either filter. |
2. 内容
StringFilter:功能简单有限;复杂功能可使用RegexFilter (正则表达式)
StringFilter() Creates a new instance of StringFilter that accepts all string nodes. |
StringFilter(String pattern) Creates a StringFilter that accepts text nodes containing a string. |
StringFilter(String pattern, boolean sensitive) Creates a StringFilter that accepts text nodes containing a string. |
StringFilter(String pattern, boolean sensitive, Locale locale) Creates a StringFilter that accepts text nodes containing a string. |
RegexFilter() Creates a new instance of RegexFilter that accepts string nodes matching the regular expression ".*" using the FIND strategy. |
RegexFilter(String pattern) Creates a new instance of RegexFilter that accepts string nodes matching a regular expression using the FIND strategy. |
RegexFilter(String pattern, int strategy) Creates a new instance of RegexFilter that accepts string nodes matching a regular expression. |
3 标签
TagNameFilter()利用标签名过滤 : div ,img , ...
NodeClassFilter()利用标签类别 :LinkTag.class ...
HasAttributeFilter()利用属性 :HasAttributeFilter(“class”, “className”)
LinkRegexFilter()用正则表达式匹配链接
LinkRegexFilter(String regexPattern) Creates a LinkRegexFilter that accepts LinkTag nodes containing a URL that matches the supplied regex pattern. |
LinkRegexFilter(String regexPattern, boolean caseSensitive) Creates a LinkRegexFilter that accepts LinkTag nodes containing a URL that matches the supplied regex pattern. |
LinkStringFilter(String pattern) Creates a LinkStringFilter that accepts LinkTag nodes containing a URL that matches the supplied pattern. |
LinkStringFilter(String pattern, boolean caseSensitive) Creates a LinkStringFilter that accepts LinkTag nodes containing a URL that matches the supplied pattern. |
4 层次关系
HasParentFilter() Creates a new instance of HasParentFilter. |
HasParentFilter(NodeFilter filter) Creates a new instance of HasParentFilter that accepts nodes with the direct parent acceptable to the filter. |
HasParentFilter(NodeFilter filter, boolean recursive) Creates a new instance of HasParentFilter that accepts nodes with a parent acceptable to the filter. |
HasChildFilter() Creates a new instance of a HasChildFilter. |
HasChildFilter(NodeFilter filter) Creates a new instance of HasChildFilter that accepts nodes with a direct child acceptable to the filter. |
HasChildFilter(NodeFilter filter, boolean recursive) Creates a new instance of HasChildFilter that accepts nodes with a child acceptable to the filter. |
分享到:
相关推荐
《C# HTMLParser详解及其应用》 ...C#作为微软推出的面向对象的编程语言,拥有丰富的库和工具来支持...对于初学者,可以从简单的HTML解析示例开始,逐渐熟悉其API和用法,随着经验的积累,逐步掌握更复杂的HTML解析技巧。
总之,Winista.HTMLParser结合ICSharpCode.SharpZipLib提供了一个强大而灵活的工具,为网页爬虫开发者提供了便利,无论是初学者还是经验丰富的开发者,都能从中受益。通过深入了解和实践,你可以构建出更加高效、...
总的来说,HTMLParser是Java开发者处理HTML文档的强大工具,无论你是初学者还是经验丰富的专业人士,都能从中受益。通过熟练掌握HTMLParser的使用,你可以构建出高效、稳定的网络爬虫系统,从互联网的海量信息中提取...
### HTMLParser中文文档知识点概述 #### 一、HTMLParser简介 HTMLParser是一个纯Java编写的HTML解析库,它不依赖于...无论是初学者还是经验丰富的开发人员,都能通过其丰富的API和详细的文档快速上手并实现所需功能。
HTMLParser以其轻量级和速度快著称,虽然缺乏完整的官方文档支持,但通过一定的学习和实践,开发者可以很好地利用它来构建爬虫程序。 根据给出的文件内容,我们可以梳理出以下几个知识点: 1. HTMLParser的基本...
5. **示例与演示**:`demo`目录通常包含HTMLParser的使用示例或演示代码,帮助初学者快速上手。通过这些示例,开发者可以了解如何初始化解析器、设置事件处理器、遍历DOM树以及处理各种链接类型。 6. **错误报告与...
HTMLParser-C++是一个基于C++实现的HTML解析库,它为开发者提供了处理HTML文档的强大工具。...HTMLParser-C++库允许程序员以...无论是初学者还是经验丰富的开发者,都能从这个库中受益,提升其在Web开发领域的效率和能力。
HTMLParser 是一个Java库,专门用于以线性或嵌套的方式解析HTML。它主要用于数据的提取和转换,同时提供了过滤器、访问者、自定义标签和易用的...对于初学者来说,熟悉这些基础概念和API是掌握HTMLParser的关键。
**C# HTMLParser入门详解** ...C# HTMLParser库为.NET开发者提供了一种高效、易用的方式来解析和操作HTML内容。...对于初学者,参考博客(http://blog.csdn.net/finallyliuyu)上的学习心得将对理解这个库大有裨益。
- HTML和HTTP基础教程:帮助初学者了解这两个主题的基本概念。 - HtmlParser库的API文档和示例代码:展示如何使用特定的HtmlParser库进行解析操作。 - HttpClient的使用指南:详述如何利用HttpClient发送HTTP请求并...
HTMLParser电子书是深入学习这个库的重要参考资料,书中详细讲解了各种API的用法和实践案例,适合初学者和有经验的开发者阅读。通过阅读这本书,你可以掌握如何有效利用HTMLParser处理HTML文档,提升你的Java web...
《Winista.HTMLParser.dll:网页解析...无论是初学者还是经验丰富的专业人士,都能从中受益,实现对HTML文档的高效管理和解析。同时,它的存在也推动了.NET社区的创新和发展,为互联网数据的获取与利用开辟了新的道路。
HTMLParser是中国Python社区中一个流行的库,用于解析HTML和XML文档。这个实例是关于如何使用HTMLParser库来抓取和处理气象信息的。...这个实例对于学习Web抓取和数据分析的初学者来说是一个很好的起点。
它具有轻量级、高效的特点,但其官方文档较少,且多为英文,因此对初学者而言可能有一定挑战。不过,一旦掌握其用法,HTMLParser 的灵活设计能够满足大多数 HTML 解析需求。 核心组件 `org.htmlparser.Parser` 类是...
它的主要优点是小巧、快速,但文档相对较少,特别是英文文档,因此对于初学者来说,上手可能有些困难。然而,一旦熟悉了 HTMLParser 的使用,你会发现其设计巧妙且功能强大,能够满足大多数 HTML 解析需求。 在 ...
它以其小巧的体积和高效的性能而受到欢迎,尽管它的文档较少,尤其是英文文档,这给初学者带来了一定的学习挑战。然而,一旦掌握了其基本使用方法,你会发现 HTMLParser 的设计非常巧妙,能够满足大部分解析 HTML 的...
在IT行业中,提取网页内容是常见的任务之一,尤其在数据抓取、数据分析或者搜索引擎优化等领域。这个名为"提取网页内容的源码(htmlparser...无论是初学者还是经验丰富的开发者,掌握这项技能都将极大地提升工作效率。
使用指南通常会包含详细的API介绍、实例代码和最佳实践,帮助初学者快速上手。对于复杂HTML的处理,理解如何有效利用这些工具和类是非常关键的。 总的来说,HTMLParser是一个强大的工具,它能帮助Java开发者轻松...