JAVA中使用Htmlparse解析HTML文档

陈小兵

浏览: 142789 次
性别:
来自: 深圳

最近访客更多访客>>

zty461217

liuxiao723846

LinApex

pearonly1a1a

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Web综合

解析html

package com.web.test;

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;

/** 
 * JAVA中使用Htmlparse解析HTML文档，使用htmlparse遍历出HTML文档的所有超链接（<a>标记）。 
 *  
 * @author YYmmiinngg 
 */
public class ReadHTML2
{
	public static void main(String[] args)
	{
		try
		{
			//1.网页HTML
			String strUrl = "http://www.boc.cn/finadata/lilv/";
			URL url = new URL(strUrl);
			InputStreamReader isr = new InputStreamReader(url.openStream());
			BufferedReader br = new BufferedReader(isr);

			String htmlString = "";
			//2.本地HTML
			// File f=new File("fortest.htm");
			//输入流
			// InputStreamReader isr1=new InputStreamReader(new FileInputStream(f));
			// BufferedReader br=new BufferedReader(isr1);

			//获取html转换成String
			String s;
			String allContent = "";
			while ((s = br.readLine()) != null)
			{
				allContent = allContent + s;
			}
			//使用后HTML Parser 控件
			Parser myParser = Parser.createParser(allContent, "utf-8");

			try
			{
				// 通过过滤器过滤出<A>标签  
				NodeList nodeList = myParser
						.extractAllNodesThatMatch(new NodeFilter()
						{
							//实现该方法,用以过滤标签  
							public boolean accept(Node node)
							{
								if (node instanceof LinkTag) //<A>标记  
								return true;
								return false;
							}
						});
				// 打印  
				for (int i = 0; i < nodeList.size(); i++)
				{
					LinkTag n = (LinkTag) nodeList.elementAt(i);
					System.out.print(n.getStringText() + " ==>> ");
					System.out.println(n.extractLink());
				}
			}
			catch (Exception e)
			{
				e.printStackTrace();
			}

		}
		catch (Exception e)
		{
			e.printStackTrace();
		}
	}
}

HTMLParser-2.0-解析HTML-bin.zip (323.5 KB)
下载次数: 41

分享到：

解析html获取imag路径 | Android多任务多线程下载

2012-04-08 22:57
浏览 3139
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

JAVA中使用Htmlparse解析HTML文档

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

JAVA中使用Htmlparse解析HTML文档

评论

发表评论

相关推荐

解析html

解析html中的table

解析html获取imag路径

java将后台list传给js数组

堆与栈的区别

Jquery使用AJAX同步处理数据的方法

模态窗口

Javascript 多浏览器兼容性问题及解决方案

jquery 与prototype 中ajax的应用

DIV常用样式

最近访客更多访客>>