由新水浒到htmlparser的一次运用 -

zc0604

浏览: 227363 次
性别:
来自: 北京

最近访客更多访客>>

xyc1985414

abraxas101

l1012384516

puquanbuai

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

由新水浒到htmlparser的一次运用

博客分类：

java/flex/ajax/android

htmlparser 新水浒

最近在看新水浒，被108好汉的英雄气概所折服了，这里面的些许台词不仅是当时人民生活的写照，和当今也类似之处。“我爸是李刚”是鲜活的小衙内的翻版，强人欺压百姓，官员相互勾结。。。。。，莫谈国事，哈哈。看了之后就是想把108个好汉的剧照给下载下来，后来找了一找，有一个网站收录了（可怜不全，只有五十四个）。问题来了，我可不想一个一个图片的下载，然后再去和名字一个一个对应。可能你也想到了，对，用程序解析这个网站的html，然后去下载图片，岂不很省力。以前接触过htmlparser,下面分享一下我是怎么做的啦。希望对你有帮助。

通过这个程序，我想你以后如果要下载很多琐碎的东西，如果还是一个个的去点击右键，另存为。。。那么你真得OUT了，哈哈

先简单介绍下htmparser.希望没用过的兄弟们有个了解。

htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。它能超高速解析html，而且不会出错。可以说当前它是解析html文件最好的一个工具了，无论你是想抓取网页数据还是改造html的内容，用了htmlparser绝对会忍不住称赞。

htmlparser基本功能

1．信息提取

　文本信息抽取，例如对HTML进行有效信息搜索

　链接提取，用于自动给页面的链接文本加上链接的标签

　资源提取，例如对一些图片、声音的资源的处理

　链接检查，用于检查HTML中的链接是否有效

　页面内容的监控

2．信息转换

　链接重写，用于修改页面中的所有超链接

　网页内容拷贝，用于将网页内容保存到本地

　内容检验，可以用来过滤网页上一些令人不愉快的字词

　HTML信息清洗，把本来乱七八糟的HTML信息格式化

　转成XML格式数据

下面分享我的程序源代码，希望对你有参考作用。

注：程序是用eclipise开发，最好把项目编码设置为utf-8

下面附上htmlparser开发包和api。如果想要最新的jar，可以去官网下载。

package test.video.htmlparser;

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;

import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.util.NodeList;

public class ShuiHuInfo {
	private String  mainUrl="http://www.chachaba.com/";//这个是我想下载图片网站主页
	public static void main(String[] args) {
		ShuiHuInfo sh=new ShuiHuInfo();
		//下面分别对每一个页面进行下载，共三页，参数i是为了拼接url用的
		for(int i=3;i<=5;i++){
			sh.getImage(i);
		}
	}
	public void getImage(int i){
		String url=mainUrl+"news/html/yule/dianshi/20110815_32260_"
				   +i+".html";//拼接url，这个页面中有好汉的图片和名字
		//得到页面的html代码
		String content=getContent(url);	
		//paser就是用到的解析对象了
		Parser parser=new Parser();
		//可以通过查看html代码，发现每一个图片都有class=al-wrapper键值对，生成对应的过滤器
		HasAttributeFilter filter=new HasAttributeFilter("class","al-wrapper");
		try {
			//下面就是解析代码了
			parser.setInputHTML(content);
			NodeList list=parser.parse(filter);
			for(int j=0;j<list.size();j++){
				Node node=list.elementAt(j);
				NodeClassFilter f1=new NodeClassFilter(ImageTag.class);
				NodeList l=node.getChildren().extractAllNodesThatMatch(f1);
				ImageTag imagetag=null;
				if(l.size()>0)
					imagetag=(ImageTag)l.elementAt(0);;
				String imageUrl=mainUrl+imagetag.getImageURL();
				URLConnection imgcon=new URL(imageUrl).openConnection();
				InputStream in=imgcon.getInputStream(); 
				HasAttributeFilter f2=new HasAttributeFilter("class","desc");
				l=node.getChildren().extractAllNodesThatMatch(f2);
				Node n=null;
				if(l.size()>0)
					n=l.elementAt(0);
				String filename=new String(n.getFirstChild().getText().getBytes(),"utf-8");
				//System.out.println(filename);
				//将好汉的名字作为文件名字，并将图片的内容写入对应文件
				writeFile(filename,in);
			}
			
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
	
	public void writeFile(String filename,InputStream in){
		File file=new File("img");
		if(!file.exists())
			file.mkdir();
		File image=new File(file,filename+".jpg");
		BufferedOutputStream writer=null;
		BufferedInputStream reader=null;
		try {
			writer=new BufferedOutputStream(new FileOutputStream(image));
			reader=new BufferedInputStream(in);
			int len=-1;
			byte []buf=new byte[1024];
			while((len=reader.read(buf))!=-1)
				writer.write(buf, 0, len);
			
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}finally{
			try {
				reader.close();
				writer.close();
			} catch (IOException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			}
		}
	}
	
	public String getContent(String url){
		URL u=null;
		URLConnection con=null;
		InputStream in=null;
		BufferedReader reader=null;
		StringBuffer buffer=null;
		try {
			u = new URL(url);
			con=u.openConnection();
			in=con.getInputStream();
		    reader=	new BufferedReader(new InputStreamReader(in));
			buffer=new StringBuffer();
			String str=null;
			while((str=reader.readLine())!=null){
				buffer.append(str+"\n");
			}
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		return buffer.toString();
	}
}

htmlparser.jar (281.3 KB)
下载次数: 9

HTMLParser_API.rar (1.2 MB)
下载次数: 14

分享到：

利用人人网去获取世界各地的大学信息 | 利用java反射机制，实现对类的私有变量和私 ...

2011-09-12 21:56
浏览 1432
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

由新水浒到htmlparser的一次运用

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

由新水浒到htmlparser的一次运用

评论

发表评论

相关推荐

腾讯，新浪微博模拟登录爬取数据 程序 ，无偿奉献了(java版本)

memcache 之windows下的使用

java构造方法与成员初始化分析

浅谈servlet

flex页面初始化后，无法聚焦文本框

透过源码和实例学习CountDownLatch类

一套笔试小题

java中的字符编码

jdom解析xml抛出Invalid byte 2 of 2-byte UTF-8 sequence.异常的解决方法

httpclient中GzipDecompressingEntity 类的使用

log4j的简单学习

练练看小游戏SWING的实现

利用人人网去获取世界各地的大学信息

利用java反射机制，实现对类的私有变量和私有方法的访问

连连看小游戏控制台版

最近访客更多访客>>

腾讯，新浪微博模拟登录爬取数据程序，无偿奉献了(java版本)