`

htmlparser初学

    博客分类:
  • j2se
阅读更多

1 . 逻辑关系:与或非

AndFilter()
          Creates a new instance of an AndFilter.
AndFilter(NodeFilter[] predicates)
          Creates an AndFilter that accepts nodes acceptable to all given filters.
AndFilter(NodeFilter left, NodeFilter right)
          Creates an AndFilter that accepts nodes acceptable to both filters.

 

OrFilter()
          Creates a new instance of an OrFilter.
OrFilter(NodeFilter[] predicates)
          Creates an OrFilter that accepts nodes acceptable to any of the given filters.
OrFilter(NodeFilter left, NodeFilter right)
          Creates an OrFilter that accepts nodes acceptable to either filter.

 

OrFilter()
          Creates a new instance of an OrFilter.
OrFilter(NodeFilter[] predicates)
          Creates an OrFilter that accepts nodes acceptable to any of the given filters.
OrFilter(NodeFilter left, NodeFilter right)
          Creates an OrFilter that accepts nodes acceptable to either filter.

2. 内容

StringFilter:功能简单有限;复杂功能可使用RegexFilter (正则表达式)

StringFilter()
          Creates a new instance of StringFilter that accepts all string nodes.
StringFilter(String pattern)
          Creates a StringFilter that accepts text nodes containing a string.
StringFilter(String pattern, boolean sensitive)
          Creates a StringFilter that accepts text nodes containing a string.
StringFilter(String pattern, boolean sensitive, Locale locale)
          Creates a StringFilter that accepts text nodes containing a string.
RegexFilter()
          Creates a new instance of RegexFilter that accepts string nodes matching the regular expression ".*" using the FIND strategy.
RegexFilter(String pattern)
          Creates a new instance of RegexFilter that accepts string nodes matching a regular expression using the FIND strategy.
RegexFilter(String pattern, int strategy)
          Creates a new instance of RegexFilter that accepts string nodes matching a regular expression.

 

3 标签

TagNameFilter()利用标签名过滤 : div ,img , ...

NodeClassFilter()利用标签类别 :LinkTag.class ...

HasAttributeFilter()利用属性 :HasAttributeFilter(“class”, “className”)

LinkRegexFilter()用正则表达式匹配链接

TagNameFilter()
          Creates a new instance of TagNameFilter.
TagNameFilter(String name)
          Creates a TagNameFilter that accepts tags with the given name.
NodeClassFilter()
          Creates a NodeClassFilter that accepts Html tags.
NodeClassFilter(Class cls)
          Creates a NodeClassFilter that accepts tags of the given class.
HasAttributeFilter()
          Creates a new instance of HasAttributeFilter.
HasAttributeFilter(String attribute)
          Creates a new instance of HasAttributeFilter that accepts tags with the given attribute.
HasAttributeFilter(String attribute, String value)
          Creates a new instance of HasAttributeFilter that accepts tags with the given attribute and value.
LinkRegexFilter(String regexPattern)
          Creates a LinkRegexFilter that accepts LinkTag nodes containing a URL that matches the supplied regex pattern.
LinkRegexFilter(String regexPattern, boolean caseSensitive)
          Creates a LinkRegexFilter that accepts LinkTag nodes containing a URL that matches the supplied regex pattern.
LinkStringFilter(String pattern)
          Creates a LinkStringFilter that accepts LinkTag nodes containing a URL that matches the supplied pattern.
LinkStringFilter(String pattern, boolean caseSensitive)
          Creates a LinkStringFilter that accepts LinkTag nodes containing a URL that matches the supplied pattern.

 

4 层次关系

HasParentFilter()
          Creates a new instance of HasParentFilter.
HasParentFilter(NodeFilter filter)
          Creates a new instance of HasParentFilter that accepts nodes with the direct parent acceptable to the filter.
HasParentFilter(NodeFilter filter, boolean recursive)
          Creates a new instance of HasParentFilter that accepts nodes with a parent acceptable to the filter.

HasChildFilter()
          Creates a new instance of a HasChildFilter.
HasChildFilter(NodeFilter filter)
          Creates a new instance of HasChildFilter that accepts nodes with a direct child acceptable to the filter.
HasChildFilter(NodeFilter filter, boolean recursive)
          Creates a new instance of HasChildFilter that accepts nodes with a child acceptable to the filter.
分享到:
评论

相关推荐

    C# HTMLParser下载.rar

    《C# HTMLParser详解及其应用》 ...C#作为微软推出的面向对象的编程语言,拥有丰富的库和工具来支持...对于初学者,可以从简单的HTML解析示例开始,逐渐熟悉其API和用法,随着经验的积累,逐步掌握更复杂的HTML解析技巧。

    Winista.HTMLParser源码

    总之,Winista.HTMLParser结合ICSharpCode.SharpZipLib提供了一个强大而灵活的工具,为网页爬虫开发者提供了便利,无论是初学者还是经验丰富的开发者,都能从中受益。通过深入了解和实践,你可以构建出更加高效、...

    HtmlParser的全部最新版本的jar包(很全面,亲测可用)

    总的来说,HTMLParser是Java开发者处理HTML文档的强大工具,无论你是初学者还是经验丰富的专业人士,都能从中受益。通过熟练掌握HTMLParser的使用,你可以构建出高效、稳定的网络爬虫系统,从互联网的海量信息中提取...

    htmlparser中文文档

    ### HTMLParser中文文档知识点概述 #### 一、HTMLParser简介 HTMLParser是一个纯Java编写的HTML解析库,它不依赖于...无论是初学者还是经验丰富的开发人员,都能通过其丰富的API和详细的文档快速上手并实现所需功能。

    网络爬虫 HTMLParser 使用指南

    HTMLParser以其轻量级和速度快著称,虽然缺乏完整的官方文档支持,但通过一定的学习和实践,开发者可以很好地利用它来构建爬虫程序。 根据给出的文件内容,我们可以梳理出以下几个知识点: 1. HTMLParser的基本...

    HTMLParser

    5. **示例与演示**:`demo`目录通常包含HTMLParser的使用示例或演示代码,帮助初学者快速上手。通过这些示例,开发者可以了解如何初始化解析器、设置事件处理器、遍历DOM树以及处理各种链接类型。 6. **错误报告与...

    htmlparser-c++

    HTMLParser-C++是一个基于C++实现的HTML解析库,它为开发者提供了处理HTML文档的强大工具。...HTMLParser-C++库允许程序员以...无论是初学者还是经验丰富的开发者,都能从这个库中受益,提升其在Web开发领域的效率和能力。

    htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读

    HTMLParser 是一个Java库,专门用于以线性或嵌套的方式解析HTML。它主要用于数据的提取和转换,同时提供了过滤器、访问者、自定义标签和易用的...对于初学者来说,熟悉这些基础概念和API是掌握HTMLParser的关键。

    C#htmlparser及入门资料

    **C# HTMLParser入门详解** ...C# HTMLParser库为.NET开发者提供了一种高效、易用的方式来解析和操作HTML内容。...对于初学者,参考博客(http://blog.csdn.net/finallyliuyu)上的学习心得将对理解这个库大有裨益。

    HtmlParser和HttpClient学习资料

    - HTML和HTTP基础教程:帮助初学者了解这两个主题的基本概念。 - HtmlParser库的API文档和示例代码:展示如何使用特定的HtmlParser库进行解析操作。 - HttpClient的使用指南:详述如何利用HttpClient发送HTTP请求并...

    htmlparser电子书

    HTMLParser电子书是深入学习这个库的重要参考资料,书中详细讲解了各种API的用法和实践案例,适合初学者和有经验的开发者阅读。通过阅读这本书,你可以掌握如何有效利用HTMLParser处理HTML文档,提升你的Java web...

    Winista.HTMLParser.dll

    《Winista.HTMLParser.dll:网页解析...无论是初学者还是经验丰富的专业人士,都能从中受益,实现对HTML文档的高效管理和解析。同时,它的存在也推动了.NET社区的创新和发展,为互联网数据的获取与利用开辟了新的道路。

    HtmlParser爬取气象信息实例

    HTMLParser是中国Python社区中一个流行的库,用于解析HTML和XML文档。这个实例是关于如何使用HTMLParser库来抓取和处理气象信息的。...这个实例对于学习Web抓取和数据分析的初学者来说是一个很好的起点。

    HTMLParser使用详解.doc

    它具有轻量级、高效的特点,但其官方文档较少,且多为英文,因此对初学者而言可能有一定挑战。不过,一旦掌握其用法,HTMLParser 的灵活设计能够满足大多数 HTML 解析需求。 核心组件 `org.htmlparser.Parser` 类是...

    htmlparser使用详解

    它的主要优点是小巧、快速,但文档相对较少,特别是英文文档,因此对于初学者来说,上手可能有些困难。然而,一旦熟悉了 HTMLParser 的使用,你会发现其设计巧妙且功能强大,能够满足大多数 HTML 解析需求。 在 ...

    HTMLParser使用详解

    它以其小巧的体积和高效的性能而受到欢迎,尽管它的文档较少,尤其是英文文档,这给初学者带来了一定的学习挑战。然而,一旦掌握了其基本使用方法,你会发现 HTMLParser 的设计非常巧妙,能够满足大部分解析 HTML 的...

    提取网页内容的源码(htmlparser)

    在IT行业中,提取网页内容是常见的任务之一,尤其在数据抓取、数据分析或者搜索引擎优化等领域。这个名为"提取网页内容的源码(htmlparser...无论是初学者还是经验丰富的开发者,掌握这项技能都将极大地提升工作效率。

    Htmlparser包(带有使用指南和例子)

    使用指南通常会包含详细的API介绍、实例代码和最佳实践,帮助初学者快速上手。对于复杂HTML的处理,理解如何有效利用这些工具和类是非常关键的。 总的来说,HTMLParser是一个强大的工具,它能帮助Java开发者轻松...

Global site tag (gtag.js) - Google Analytics