`
leiwuluan
  • 浏览: 707146 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类

HtmlCleaner Html文档解析器

    博客分类:
  • java
阅读更多

       HtmlCleaner 是一个开源的Java 语言的Html 文档解析器。HtmlCleaner 能够重新整理HTML文档的每个元素并生成结构良好 (Well-Formed )的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。它被设计的 小,快速,灵活而且独立。HtmlCleaner 也可用在Java代码中,当命令行工具或Ant任务。 解析后编程轻量级文档对象,能够很容易的被转换到DOM 或者JDom 标准文档,或者通过各种方式(压缩,打印)连续输出XML

新版本的重要功能更新包括:

  1.HtmlCleaner 的文档对象模型现在拥有了一些函数,处理节点和属性,所以现在在序列化之前搜索或者编辑是非常容易的。   

      2.提供基本HtmlCleaner DOMXPath 支持

  3.使用XML配置温江让创建定制tag 变得更加容易

  4.修复多个bug 以及API改进

 

 

爬虫爬下来的文件,用HtmlCleaner  解析,速度非常快,比正则查找,Dom快了很多。

 

 

分享到:
评论

相关推荐

    htmlcleaner html解析器

    HTMLCleaner是一款强大的Java库,专门用于解析和清理HTML文档。它被设计为处理不规范的HTML,确保从网页抓取的数据干净且结构良好。在分析HTML内容时,尤其是在进行数据挖掘、爬虫项目或者需要从非标准源提取结构化...

    网页解析工具HTMLCleaner

    HTMLCleaner允许用户对HTML文档进行深度定制,通过去除不必要的标签或向页面中添加新的元素,从而实现对网页内容的个性化处理。这对于网页抓取、数据挖掘以及自动化测试等场景非常有用。例如,你可以使用HTMLCleaner...

    HtmlCleanerv2.13Html文档解析器

    HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。...

    HtmlCleaner

    HtmlCleaner是一个开源的Java语言的Html文档解析器。 HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则...

    HTMLcleaner

    1. **HTML解析**:它使用了基于SAX(Simple API for XML)的解析器,可以有效地处理大型HTML文档,不会像DOM解析那样消耗大量内存。SAX解析器逐行读取HTML文档,遇到元素时触发事件,这样可以避免一次性加载整个文档...

    HtmlCleaner使用说明文档

    其使用方法一般包括创建HtmlCleaner实例、配置解析器、解析HTML内容并得到CleaningResult对象,最后通过该对象获取清理后的HTML字符串。 值得注意的是,虽然HtmlCleaner可以处理和清理大量的HTML文档,但作为开发者...

    htmlcleaner,活跃的.zip

    HTMLCleaner是一个活跃的开源项目,主要关注于清理和解析HTML文档。这个项目的源代码可以在htmlcleaner.sourceforge.net上找到,特别指出的是,它自2.4版本以来一直在持续发展和更新。"htmlcleaner-master"是压缩包...

    HtmlCleaner-JAVA爬虫--编写第一个网络爬虫程序

    HTMLCleaner是Java中一个非常实用的库,用于解析和清理HTML内容,它可以帮助开发者在构建网络爬虫时处理不规范或复杂的HTML源代码。在本文中,我们将深入探讨如何使用HTMLCleaner来编写你的第一个Java爬虫程序。 ...

    htmlcleaner

    HTMLCleaner是一款强大的Java库,专门用于解析HTML和XML文档。在Web开发中,我们经常遇到不规范或者带有错误的HTML代码,HTMLCleaner能够帮助我们处理这些不规则的结构,将其转换为标准的DOM(Document Object Model...

    HtmlCleaner2.1API参考手册.chm

    HtmlCleaner2.1API参考手册.chm HtmlCleaner是一个把html解析为XML文档的Java程序库。 我试过,这是java世界中最快、最好、最小、最强大的Html解析库。 可以解析为DOM对象,然后使用其他的xml分析器进行分析。

    htmlcleaner-2.2

    HtmlCleaner是一个开源的Java语言的Html文档解析器。

    页面正文提取htmlcleaner-2.8.jar

    1. **HTML清理与标准化**:HtmlCleaner通过解析HTML文档并将其转换为干净的DOM(文档对象模型)树,可以去除广告、脚本、样式表等非正文内容,同时修复不规范的HTML标签,使文档结构更加规整。 2. **标签过滤与替换...

    XpathDemo.zip

    HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。...

    htmlcleaner使用方法及xpath语法初探

    HtmlCleaner是一款基于Java的开源HTML文档解析器,它的主要功能是对HTML文档进行解析,使其转换成结构良好的、符合XML规范的文档。这使得不规则或错误的HTML代码也能被正确处理,从而方便后续的数据提取和处理。...

    htmlclean.jar

    `htmlcleaner-2.10.jar` 是 HTMLCleaner 库的核心部分,它提供了一个强大的解析器,能够解析不规范或者带有错误的 HTML 代码。这个库基于 XML 解析技术,可以将不规则的 HTML 转换为结构化的 DOM(文档对象模型)树...

    xmlworker 中文PDF导出插件

    - 创建HTMLContext对象,设置字体和CSS解析器。 - 使用XMLWorkerHelper的静态方法`parseXHtml()`或`parseCssText()`解析HTML和CSS。 - 将解析后的元素添加到Document对象中,完成PDF的构建。 5. 示例代码: ```...

    Java中正则表达式去除html标签

    在一些更复杂的情况下,可能需要采用专门的HTML解析器来处理HTML,例如使用Jsoup或HtmlCleaner等库,这些工具能够正确处理嵌套的HTML标签和属性,更加安全和可靠。 本文提供了一种基于正则表达式的简单方法来清除...

    Python库 | verto-0.5.2-py3-none-any.whl

    5. **文档解析**:能够解析不同格式的文档,如PDF、DOCX等,并将其内容转换为适合进一步处理的文本形式。 6. **文本摘要**:生成文本的简洁概述,有助于快速理解长篇文章的主要内容。 7. **情感分析**:评估文本的...

    k9mail安卓邮箱客户端源代码

    `HTMLCLEANER_LICENSE`可能涉及到项目中使用的HTML清理库的授权信息,确保合规使用第三方组件。 6. **学习与贡献** 对于希望深入了解Android邮件应用开发的开发者来说,K9mail源代码提供了丰富的学习资源。通过...

Global site tag (gtag.js) - Google Analytics