java获取页面编码【转】

abc123456789cba

浏览: 618243 次
性别:
来自: 北京

最近访客更多访客>>

yumo93121

hedehuang

lims813927980

kingtsing

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

java web code

最近研究抓取网页内容，发现要获取页面的编码格式，Java没有现成的实现方法，虽然csdn上有个达人写了一篇文章，附有代码，可惜，我没有找到相关的包，不得已，只好自己动手丰衣足食了。
Java代码

import info.monitorenter.cpdetector.io.CodepageDetectorProxy;   
import info.monitorenter.cpdetector.io.HTMLCodepageDetector;   
import info.monitorenter.cpdetector.io.JChardetFacade;   
  
import java.io.BufferedReader;   
import java.io.IOException;   
import java.io.InputStreamReader;   
import java.net.HttpURLConnection;   
import java.net.URL;   
import java.util.Iterator;   
import java.util.List;   
import java.util.Map;   
import java.util.Set;   
  
public class WebEncoding {   
    private static CodepageDetectorProxy detector = CodepageDetectorProxy   
            .getInstance();   
    static {   
  
        detector.add(new HTMLCodepageDetector(false));   
  
        detector.add(JChardetFacade.getInstance());   
  
    }   
    /** 测试用例  
     * @param args  
     */  
    public static void main(String[] args) {   
        WebEncoding web=new WebEncoding();   
        try {   
            System.out.println(web.getCharset("http://www.pujia.com/"));   
        } catch (IOException e) {   
            // TODO Auto-generated catch block   
            e.printStackTrace();   
        }   
    }   
    /**  
     * @param strurl  
     *            页面url地址,需要以 http://开始，例：http://www.pujia.com  
     * @return  
     * @throws IOException  
     */  
    public String getCharset(String strurl) throws IOException {   
        // 定义URL对象   
        URL url = new URL(strurl);   
        // 获取http连接对象   
        HttpURLConnection urlConnection = (HttpURLConnection) url   
                .openConnection();   
        ;   
        urlConnection.connect();   
        // 网页编码   
        String strencoding = null;   
  
        /**  
         * 首先根据header信息，判断页面编码  
         */  
        // map存放的是header信息(url页面的头信息)   
        Map<String, List<String>> map = urlConnection.getHeaderFields();   
        Set<String> keys = map.keySet();   
        Iterator<String> iterator = keys.iterator();   
  
        // 遍历,查找字符编码   
        String key = null;   
        String tmp = null;   
        while (iterator.hasNext()) {   
            key = iterator.next();   
            tmp = map.get(key).toString().toLowerCase();   
            // 获取content-type charset   
            if (key != null && key.equals("Content-Type")) {   
                int m = tmp.indexOf("charset=");   
                if (m != -1) {   
                    strencoding = tmp.substring(m + 8).replace("]", "");   
                    return strencoding;   
                }   
            }   
        }   
  
        /**  
         * 通过解析meta得到网页编码  
         */  
        // 获取网页源码(英文字符和数字不会乱码，所以可以得到正确<meta/>区域)   
        StringBuffer sb = new StringBuffer();   
        String line;   
        try {   
            BufferedReader in = new BufferedReader(new InputStreamReader(url   
                    .openStream()));   
            while ((line = in.readLine()) != null) {   
                sb.append(line);   
            }   
            in.close();   
        } catch (Exception e) { // Report any errors that arise   
            System.err.println(e);   
            System.err   
                    .println("Usage:   java   HttpClient   <URL>   [<filename>]");   
        }   
        String htmlcode = sb.toString();   
        // 解析html源码，取出<meta />区域，并取出charset   
        String strbegin = "<meta";   
        String strend = ">";   
        String strtmp;   
        int begin = htmlcode.indexOf(strbegin);   
        int end = -1;   
        int inttmp;   
        while (begin > -1) {   
            end = htmlcode.substring(begin).indexOf(strend);   
            if (begin > -1 && end > -1) {   
                strtmp = htmlcode.substring(begin, begin + end).toLowerCase();   
                inttmp = strtmp.indexOf("charset");   
                if (inttmp > -1) {   
                    strencoding = strtmp.substring(inttmp + 7, end).replace(   
                            "=", "").replace("/", "").replace("\"", "")   
                            .replace("\'", "").replace(" ", "");   
                    return strencoding;   
                }   
            }   
            htmlcode = htmlcode.substring(begin);   
            begin = htmlcode.indexOf(strbegin);   
        }   
  
        /**  
         * 分析字节得到网页编码  
         */  
        strencoding = getFileEncoding(url);   
  
        // 设置默认网页字符编码   
        if (strencoding == null) {   
            strencoding = "GBK";   
        }   
  
        return strencoding;   
    }   
  
    /**  
     *   
     *<br>  
     * 方法说明：通过网页内容识别网页编码  
     *   
     *<br>  
     * 输入参数：strUrl 网页链接; timeout 超时设置  
     *   
     *<br>  
     * 返回类型：网页编码  
     */  
    public static String getFileEncoding(URL url) {   
  
        java.nio.charset.Charset charset = null;   
        try {   
  
            charset = detector.detectCodepage(url);   
  
        } catch (Exception e) {   
  
            System.out.println(e.getClass() + "分析" + "编码失败");   
  
        }   
  
        if (charset != null)   
  
            return charset.name();   
  
        return null;   
  
    }   
}  

import info.monitorenter.cpdetector.io.CodepageDetectorProxy;
import info.monitorenter.cpdetector.io.HTMLCodepageDetector;
import info.monitorenter.cpdetector.io.JChardetFacade;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Set;

public class WebEncoding {
	private static CodepageDetectorProxy detector = CodepageDetectorProxy
			.getInstance();
	static {

		detector.add(new HTMLCodepageDetector(false));

		detector.add(JChardetFacade.getInstance());

	}
	/**	测试用例
	 * @param args
	 */
	public static void main(String[] args) {
		WebEncoding web=new WebEncoding();
		try {
			System.out.println(web.getCharset("http://www.pujia.com/"));
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
	/**
	 * @param strurl
	 *            页面url地址,需要以 http://开始，例：http://www.pujia.com
	 * @return
	 * @throws IOException
	 */
	public String getCharset(String strurl) throws IOException {
		// 定义URL对象
		URL url = new URL(strurl);
		// 获取http连接对象
		HttpURLConnection urlConnection = (HttpURLConnection) url
				.openConnection();
		;
		urlConnection.connect();
		// 网页编码
		String strencoding = null;

		/**
		 * 首先根据header信息，判断页面编码
		 */
		// map存放的是header信息(url页面的头信息)
		Map<String, List<String>> map = urlConnection.getHeaderFields();
		Set<String> keys = map.keySet();
		Iterator<String> iterator = keys.iterator();

		// 遍历,查找字符编码
		String key = null;
		String tmp = null;
		while (iterator.hasNext()) {
			key = iterator.next();
			tmp = map.get(key).toString().toLowerCase();
			// 获取content-type charset
			if (key != null && key.equals("Content-Type")) {
				int m = tmp.indexOf("charset=");
				if (m != -1) {
					strencoding = tmp.substring(m + 8).replace("]", "");
					return strencoding;
				}
			}
		}

		/**
		 * 通过解析meta得到网页编码
		 */
		// 获取网页源码(英文字符和数字不会乱码，所以可以得到正确<meta/>区域)
		StringBuffer sb = new StringBuffer();
		String line;
		try {
			BufferedReader in = new BufferedReader(new InputStreamReader(url
					.openStream()));
			while ((line = in.readLine()) != null) {
				sb.append(line);
			}
			in.close();
		} catch (Exception e) { // Report any errors that arise
			System.err.println(e);
			System.err
					.println("Usage:   java   HttpClient   <URL>   [<filename>]");
		}
		String htmlcode = sb.toString();
		// 解析html源码，取出<meta />区域，并取出charset
		String strbegin = "<meta";
		String strend = ">";
		String strtmp;
		int begin = htmlcode.indexOf(strbegin);
		int end = -1;
		int inttmp;
		while (begin > -1) {
			end = htmlcode.substring(begin).indexOf(strend);
			if (begin > -1 && end > -1) {
				strtmp = htmlcode.substring(begin, begin + end).toLowerCase();
				inttmp = strtmp.indexOf("charset");
				if (inttmp > -1) {
					strencoding = strtmp.substring(inttmp + 7, end).replace(
							"=", "").replace("/", "").replace("\"", "")
							.replace("\'", "").replace(" ", "");
					return strencoding;
				}
			}
			htmlcode = htmlcode.substring(begin);
			begin = htmlcode.indexOf(strbegin);
		}

		/**
		 * 分析字节得到网页编码
		 */
		strencoding = getFileEncoding(url);

		// 设置默认网页字符编码
		if (strencoding == null) {
			strencoding = "GBK";
		}

		return strencoding;
	}

	/**
	 * 
	 *<br>
	 * 方法说明：通过网页内容识别网页编码
	 * 
	 *<br>
	 * 输入参数：strUrl 网页链接; timeout 超时设置
	 * 
	 *<br>
	 * 返回类型：网页编码
	 */
	public static String getFileEncoding(URL url) {

		java.nio.charset.Charset charset = null;
		try {

			charset = detector.detectCodepage(url);

		} catch (Exception e) {

			System.out.println(e.getClass() + "分析" + "编码失败");

		}

		if (charset != null)

			return charset.name();

		return null;

	}
}

文章中用到的lib包，在附件中有可以下载。写出来，希望大家都happy，不用再为这个烦恼。

分享到：

java 连接数据库[转] | android Service Activity三种交互方式【转 ...

2011-10-31 19:39
浏览 1352
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java获取页面编码【转】

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java获取页面编码【转】

评论

发表评论

相关推荐

并发队列ConcurrentLinkedQueue和阻塞队列LinkedBlockingQueue用法

RabbitMQ （五）主题（Topic）

RabbitMQ （四） 路由选择 (Routing)

RabbitMQ （三） 发布/订阅

RabbitMQ （二）工作队列

RabbitMQ 入门 Helloworld

生成文本聚类java实现 (3)

生成文本聚类java实现 (2)

生成文本聚类java实现 (1)

JAVA中List、Map、Set的区别与选用

一个简单的MongoDB操作类

Java设计模式总结

mongodb——java封装（id自增，gridFS）

做MongoDB并发测试

【MongoDB for Java】Java操作MongoDB

java泛型

Java synchronized详解

BufferedImage与byte[]互转

网络BMP图片本地保存

图形数字的识别算法: 车牌识别及验证码识别的一般思路

最近访客更多访客>>

RabbitMQ （四）路由选择 (Routing)

RabbitMQ （三）发布/订阅