HtmlCleaner
HtmlCleaner
是一个开源的Java
语言的Html
文档解析器。HtmlCleaner
能够重新整理HTML
文档的每个元素并生成结构良好(Well
-Formed
)的 HTML
文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。它被设计的小,快速,灵活而且独立。HtmlCleaner
也可用在Java代码中,当命令行工具或Ant任务。 解析后编程轻量级文档对象,能够很容易的被转换到DOM
或者JDom
标准文档,或者通过各种方式(压缩,打印)连续输出XML
项目位置
:http://htmlcleaner.sourceforge.net/
类API
http://htmlcleaner.sourceforge.net/doc/org/htmlcleaner/HtmlCleaner.html
HtmlCleaner htmlcleaner = new HtmlCleaner();
TagNode root = htmlcleaner.clean(file);
Object[] objs = root.evaluateXPath("//div[@class=\"lockup small detailed option application\"]");
int weight=200;
for (int j = 0; j < objs.length; j++) {
TagNode tn = (TagNode) objs[j];
TagNode a = (TagNode) (tn
.evaluateXPath("//a[@class=\"artwork-link\"]")[0]);
String href = a.getAttributeByName("href");
href = href.substring(href.lastIndexOf("/") + 3,
href.lastIndexOf("?"));
String id = href;
String name = ((TagNode) (tn.evaluateXPath("//li[@class=\"name\"]")[0])).getText().toString();
System.out.println("id=" + id + ",name=" + name+",weight="+(weight-j));
}
跟据规则去各种找、速度很快
下载jar地址
:http://htmlcleaner.sourceforge.net/download.php
- 大小: 85.8 KB
- 大小: 67.5 KB
分享到:
相关推荐
HTMLCleaner是一款强大的网页解析工具,它主要用于帮助开发者和数据分析师高效地提取和处理网页中的信息。这款工具的核心功能在于其能够清晰地展示出网页中各个HTML元素之间的关系,使得用户能够更容易理解和操作...
- `htmlcleaner2_1.jar`:这是HTMLCleaner的二进制库文件,包含了所有必要的类和资源,可以直接在Java项目中引用。 - `licence.txt`:包含了HTMLCleaner的授权协议信息,通常为开源许可证,例如Apache License 2.0。...
2. **标签匹配与清理**:HTMLcleaner提供了一个自定义的正则表达式规则集,允许开发者定义哪些标签和属性应该被保留,哪些应该被删除或替换。这使得在处理HTML碎片时,可以确保只保留需要的部分。 3. **DOM树构建**...
本资源提供了一个基于HTMLCleaner的网页爬虫DEMO,帮助初学者理解如何使用HTMLCleaner这个库来提取网页内容。 HTMLCleaner是一款Java库,专门设计用于清理和解析HTML和XML文档。它可以帮助处理不规范的HTML,将其...
HtmlCleaner2.6.1 API (英文) 及 JAR Library API LINK: http://htmlcleaner.sourceforge.net/doc/index.html
这个项目的源代码可以在htmlcleaner.sourceforge.net上找到,特别指出的是,它自2.4版本以来一直在持续发展和更新。"htmlcleaner-master"是压缩包中的文件名,这通常表示你下载的是该项目的主分支或最新版本的源代码...
在本文中,我们将深入探讨如何使用HTMLCleaner来编写你的第一个Java爬虫程序。 首先,我们需要理解HTML爬虫的基本原理。网络爬虫是一种自动化程序,它遍历互联网上的网页,提取所需信息。在这个过程中,HTMLCleaner...
网络爬虫htmlcleaner的jar包
**HtmlCleaner 用法详解** HtmlCleaner 是一个开源的 Java 库,主要用于解析 HTML 和 XML 文档,尤其在处理不规范的 HTML 时表现出色。它通过提供一个简单的 API,使得开发者能够方便地从网页中提取所需信息,而...
使用HTMLCleaner时,用户需要注意保存原始代码副本,以防优化过程中误删重要信息。此外,虽然HTMLCleaner在多数情况下能正确处理代码,但复杂的页面结构和自定义的HTML语法可能导致意外的改变,因此在使用前进行测试...
htmlcleaner html解析器2.2版 ,解析速度很快的,比htmlparser1使用还速度快
HtmlCleaner2.1API参考手册.chm HtmlCleaner是一个把html解析为XML文档的Java程序库。 我试过,这是java世界中最快、最好、最小、最强大的Html解析库。 可以解析为DOM对象,然后使用其他的xml分析器进行分析。
Java解析HTML利器 htmlcleaner2.8
HtmlCleaner支持多种操作系统,包括但不限于Windows、Linux和Mac OS,使用Java语言编写,这意味着它具有跨平台特性,且易于在不同的开发环境中集成。用户可以通过调用其API来解析和清理HTML文档,从而快速地进行网页...
HTMLCleaner的核心功能包括: 1. **错误容忍性**:HTMLCleaner可以解析不规范的HTML,它能够容忍缺失的标签、不正确的嵌套以及其他的语法错误。这对于处理用户生成的内容或者来自不同来源的HTML数据非常有用。 2. ...
**HtmlCleaner简介** HtmlCleaner是一款轻量级的Java库,专为从HTML文档中提取干净、结构化的文本而设计。它具有体积小巧、性能高效的特点,源代码大小仅为260KB,但功能强大,能快速有效地处理HTML内容。在处理...
1. `htmlcleaner-2.22.jar.asc` 是GPG签名文件,用于验证下载的`htmlcleaner-2.22.jar`文件是否未被篡改,确保其来自可信源并保持完整。 2. `htmlcleaner-2.22.jar` 是HTMLCleaner的二进制文件,包含了实现所有功能...
html解析工具,支持xpath,简单方便
【HtmlCleaner简介】 HtmlCleaner是一款基于Java的开源HTML文档解析器,它的主要功能是对HTML文档进行解析,使其转换成结构良好的、符合XML规范的文档。这使得不规则或错误的HTML代码也能被正确处理,从而方便后续的...