htmlcleaner 使用示例

m635674608

浏览: 5054479 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

编程的时候，有时数据源从html来。那就要对html分析提取数据。好在java社区里有好有相关库来解析html，经使用比较：个人觉得 htmlcleaner 比 htmlparser 好用。htmlcleaner 的 xpath特好用。也可能我对htmlparser不熟悉。

htmlcleaner 下载地址：htmlcleaner2_1.jar 源码下载：htmlcleaner2_1-all.zip

写一个测试用的html文件：html-clean-demo.html

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=GBK"/>
<meta http-equiv="Content-Language" content="zh-CN"/>
<title>html clean demo</title>
</head>
<body>
<div class="d_1">
<ul>
<li>bar</li>
<li>foo</li>
<li>gzz</li>
</ul>
</div>
<div>
<ul>
<li><a name="my_href" href="1.html">text-1</a></li>
<li><a name="my_href" href="2.html">text-2</a></li>
<li><a name="my_href" href="3.html">text-3</a></li>
<li><a name="my_href" href="4.html">text-4</a></li>
</ul>
</div>
</body>
</html>

模拟需求：取出title，name="my_href" 的链接，div的class="d_1"下的所有li内容。下面用htmlcleaner写代码，HtmlCleanerDemo.java

package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File("html/html-clean-demo.html"), "GBK");
//按tag取.
Object[] ns = node.getElementsByName("title", true); //标题
if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
}
System.out.println("ul/li:");
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li");
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println("\ttext="+n.getText());
}
System.out.println("a:");
//按属性值取
ns = node.getElementsByAttValue("name", "my_href", true, true);
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println("\thref="+n.getAttributeByName("href")+", text="+n.getText());
}
}
}

cleaner.clean()中的参数，可以是文件，可以是url，可以是字符串内容。个人认为：比较常用的应该是evaluateXPath、 getElementsByAttValue、getElementsByName方法了。另外说明下，htmlcleaner 对不规范的html兼容性比较好。

分享到：

java开源HTML解析器收集 | jquery xpath 选择器

2015-05-07 11:55
浏览 1246
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

htmlcleaner 使用示例

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

htmlcleaner 使用示例

评论

发表评论

相关推荐

Kryo 使用指南

spring session序列化问题排查

利用junit对springMVC的Controller进行测试

Java内存模型之重排序

pmd spotbugs 文档

PMD、FindBug、checkstyle、sonar这些代码检查工具的区别？各自的侧重点是什么？

阿里巴巴Java代码规约插件p3c-pmd使用指南与实现解析

静态分析工具PMD使用说明 (文章来源: Java Eye)

MyBatis 使用 MyCat 实现多租户的一种简单思路

Spring+MyBatis实现数据库读写分离方案

数据库连接池druid wallfilter配置

java restful 实体封装

dak

Java内存模型之从JMM角度分析DCL

Java 打印堆栈的几种方法

Servlet Session学习

浅析Cookie中的Path与domain

入分析volatile的实现原理

Spring MVC-ContextLoaderListener和DispatcherServlet

搭建spring框架的时候，web.xml中的spring相关配置，可以不用配置ContextLoaderListener（即只配DispatcherServl

最近访客更多访客>>