htmlparser获取循环节点内容和单个标签内容的方法 -

szjian

浏览: 75549 次
性别:
来自: 深圳

最近访客更多访客>>

leisureWong

iamjustlyl

run7428821

yinhong_sh

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

htmlparser获取循环节点内容和单个标签内容的方法

博客分类：

JAVA

htmlparser 正则表达式 java hmlt

htmlparser接口可用于提取分析html页面的内容。
本文只简单说明下如何利用htmlparser获取某个节点标签的内容，和获取循环节点的列表内容的个人总结。其它操作方法，因网上已经有很多相关的帮助文档，在此不再重复说明。

大致思路：
1：定义org.htmlparser.filters的类型，确定需要获取的标签或内容范围。常用的HMLT filter类型有：AndFilter、HasAttributeFilter、HasChildFilter、HasParentFilter、LinkStringFilter、NotFilter、OrFilter、TagNameFilter等类型。
为了更好定位所需要查找的页面内容，可以用多个Filter进行组合定位，如：AndFilter andFilter = new AndFilter(tagFilter,hasChildFilter);

2：通过NodeList list = parser.extractAllNodesThatMatch(andFilter);获取满足条件的节点列表。

3：对列表list进行循环遍历，在各个遍历里面，可以获取分析多个不同节点的内容，如获取某循环节点的内容和链接：
for(int i=0;i html = list.elementAt(i).toHtml();
// 获取内容
TagNameFilter pFilter = new TagNameFilter(\"p\");
HasAttributeFilter pAttributeFilter = new HasAttributeFilter(\"class\",\"sms\");
AndFilter pAndFilter = new AndFilter(pFilter,pAttributeFilter);
pParser = Parser.createParser(html, charset);
pList = pParser.extractAllNodesThatMatch(pAndFilter);
System.out.println(\"content:\"+pList.elements().nextNode().toPlainTextString());

// 获取连接
TagNameFilter aFilter = new TagNameFilter(\"a\");
HasChildFilter aChildFilter = new HasChildFilter(new TagNameFilter(\"strong\"));
AndFilter aAndFilter = new AndFilter(aFilter,aChildFilter);
pParser.reset();
pList = pParser.extractAllNodesThatMatch(aAndFilter);
// System.out.println(\"url:\"+pList.elements().nextNode().toHtml());
LinkTag linkTag = (LinkTag)pList.elements().nextNode();
System.out.println(\"url's link:\"+linkTag.getLink());
System.out.println(\"url's content:\"+linkTag.getLinkText());
}
至此，循环列表的内容，已经能全部获取到。
4：针对各种HMLT标签，htmlparser提供了各类标签的接口，为各类标签提供了各自个性化的方法，以便开发者更好更方便的调用。
举例如下：
如果想对某链接标签www.xxx.com\" class=\"xxx\">进行内容的提取，可以通过正则表达式或字符串处理来获取到自己想要的内容。但更方便的，可以通过各种相应的xxxTag接口进行处理。如：LinkTag linkTag = (LinkTag)pList.elements().nextNode();
System.out.println(\"url's link:\"+linkTag.getLink());
System.out.println(\"url's content:\"+linkTag.getLinkText();

5：具体htmlparser的API，参见官方文档：http://htmlparser.sourceforge.net/javadoc/

6：以上只是个人使用htmlparser的一个小小总结，欢迎交流。

分享到：

Hive UDF开发 | HBase入门

2011-10-31 09:26
浏览 3752
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

htmlparser获取循环节点内容和单个标签内容的方法

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

htmlparser获取循环节点内容和单个标签内容的方法

评论

发表评论

相关推荐

用MapReduce操作mongodb与hdfs的读写例子

目录结构

Struts2+Spring+MyBatis开发模式

JAVA读取系统参数设置的值

java 实现相似度算法

MyEclipse 8.0下SVN插件的使用

处理request的参数中含有#符号的方法

在window 2003下servlet+tomcat-5.0.28的配置

windows 和 linux服务器环境下j2sdk 的安装和环境设置

最近访客更多访客>>