`
lxwt909
  • 浏览: 573739 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Java获取网页编码

阅读更多

       使用爬虫从网上抓取到一个网页内容,要想能正确显示,必须要获取网页的原始编码,否则会出现乱码。首先需要获取网页内容,最简单的办法就是通过JDK自带的HttpURLConnection类,要实现更复杂的抓取操作,请使用开源的爬虫框架,如Crawler4j,Web-Harvest,JSpider,WebMagic,Heritrix,Nutch等,我并不是来说爬虫相关技术的,只是网页内容的获取需要使用到爬虫技术,所以顺带提提有关爬虫的框架,具体你们自己去研究。这里为了简便起见,我就以JDK自带的HttpURLConnection类来抓取网页内容,抓取示例代码如下:

 

package com.yida.test;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
/**
 * 提取网页内容
 * @author Lanxiaowei
 *
 */
public class FetchWebPageTest {
    public static void main(String[] args) throws IOException {
        String charset = "UTF-8";
        String line = "";
        StringBuffer buffer = new StringBuffer();
        URL url = new URL("http://www.baidu.com");
        //开始访问该URL
        HttpURLConnection urlConnection = (HttpURLConnection)url.openConnection();
        //获取服务器响应代码
        int responsecode = urlConnection.getResponseCode();
        String contentType = urlConnection.getContentType();
        //打印出content-type值,然后就可以从content-type中提取出网页编码
        System.out.println("content-type:" + contentType);
        if(responsecode == 200){
            //获取网页输入流
            BufferedReader reader = new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),charset));
            while((line = reader.readLine()) != null){
                buffer.append(line).append("\n");
            }
            System.out.println(buffer.toString());
        }
        else{
            System.out.println("获取不到网页的源码,服务器响应代码为:"+responsecode);
        }
        urlConnection.disconnect();
    }
}

     关键点在这一句代码:

 

 

BufferedReader reader = new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),charset));

   这里的charset表示网页内容的字符集编码,上面的示例代码中charset是直接定义为UTF-8,实际我们期望是能自动判断,因为并不是所有网页内容的字符集编码都为UTF-8,这也是我们今天这篇文章的主题:如何获取网页内容的原始字符集编码。

 

    首先,我们可以通过URLConnection类的getContentType()方法的返回值中获取,比如:

 

String contentType = urlConnection.getContentType();

     返回值类似这样:

 

 

content-type:text/html; charset=utf-8

     然后我们从字符串中提取出字符集编码,剩下这就是字符串处理了,没什么难度,你们都懂的!

 

    当然,URLConnection类的getContentType()方法的返回值并不能保证一定会包含字符集编码,这时我们就需要另辟蹊径,我们都知道一般HTML页面源代码中都会包含<meta标签,如:

 

<%@ page language="java" contentType="text/html; charset=UTF-8"
    pageEncoding="UTF-8"%>
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>欢迎页面</title>
</head>
<body>
欢迎页面
</body>
</html>  

     关键点在这里:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

     我们可以通过正则表达式从中提取出编码,示例代码如下:

package com.yida.test;

import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
 * 从HTML网页的meta元素中提取页面编码
 * 这里采用的是正则表达式方式提取,你也可以采用XML解析的方式来提取[HTML其实就是XML]
 * @author Lanxiaowei
 *
 */
public class CharsetExtractTest {
    public static void main(String[] args) {
        //test1();
        test2();
    }
    
    /**
     * 常规情况
     */
    public static void test1() {
        String content="<html xmlns=\"http://www.w3.org/1999/xhtml\">\n" +
                "<head>\n" +
                "<meta http-equiv = \"Content-Type\" content = \"text/html; charset=utf-8\" />\n" +
                "<meta content=\"java获取 html网页编码\" name=\"Keywords\"/>...\n";
        Pattern pattern = Pattern.compile("<meta\\s+http-equiv\\s*=\\s*\"Content-Type\"\\s+content\\s*=\\s*\"[\\s\\S]*?charset=(\\S+?)\"\\s*/>");
        Matcher matcher=pattern.matcher(content);
        if(matcher.find()){
            System.out.println(matcher.group(1));
        }
    }
    
    /**
     * 非常规情况,比如http-equiv和content属性颠倒了
     */
    public static void test2() {
        String content="<html xmlns=\"http://www.w3.org/1999/xhtml\">\n" +
                "<head>\n" +
                "<meta content = \"text/html; charset=utf-8\" http-equiv = \"Content-Type\" />\n" +
                "<meta content=\"java获取 html网页编码\" name=\"Keywords\"/>...\n";
        String regex = "(<meta\\s+http-equiv\\s*=\\s*\"Content-Type\"\\s+content\\s*=\\s*\"[\\s\\S]*?charset=(\\S+?)\"\\s*/>)|" + 
                "(<meta\\s+content\\s*=\\s*\"[\\s\\S]*?charset=(\\S+?)\"\\s+http-equiv\\s*=\\s*\"Content-Type\"\\s*/>)";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher=pattern.matcher(content);
        if(matcher.find()){
            System.out.println(matcher.group(4));
        }
    }
}

     但遗憾的是,并不是每个网页内容都包含meta标签,因为总有些人不遵守HTML规范,这是我们该怎么办?还好我们还有一招可以来应对这种情形,那就是IBM的icu4j类库,icu4j可以从指定的字节数据从自动推断出其采用的字符集编码,具体示例代码如下:

    

package com.yida.test;

import java.io.IOException;
import java.io.InputStream;

import com.ibm.icu.text.CharsetDetector;
import com.ibm.icu.text.CharsetMatch;

/**
 * 使用icu4j探测内容编码,这里的内容可以来自于字符串,字节数组,输入流等等
 * 
 * @author Lanxiaowei
 * 
 */
public class Icu4jTest {
    public static void main(String[] args) {
        String data = "ICU4J 是IBM的国际化开发组件ICU的Java语言实现版本。";
        String encode = getEncode(data);
        System.out.println("encode:" + encode);
    }
    
    public static String getEncode(String data) {
        return getEncode(data.getBytes());
    }
    public static String getEncode(byte[] data) {
        CharsetDetector detector = new CharsetDetector();
        detector.setText(data);
        CharsetMatch match = detector.detect();
        //取Confidence值最大的
        String encoding = match.getName();
        System.out.println("The Content in " + match.getName());
        CharsetMatch[] matches = detector.detectAll();
        System.out.println("All possibilities");
        for (CharsetMatch m : matches) {
            System.out.println("CharsetName:" + m.getName() + " Confidence:"
                    + m.getConfidence());
        }
        return encoding;
    }

    public static String getEncode(InputStream data)
            throws IOException {
        CharsetDetector detector = new CharsetDetector();
        detector.setText(data);
        CharsetMatch match = detector.detect();
        String encoding = match.getName();
        System.out.println("The Content in " + match.getName());
        CharsetMatch[] matches = detector.detectAll();
        System.out.println("All possibilities");
        for (CharsetMatch m : matches) {
            System.out.println("CharsetName:" + m.getName() + " Confidence:"
                    + m.getConfidence());
        }
        return encoding;
    }
}

     还有一点需要注意的就是,如果抓取到的网页内容输入流不管是使用GBK还是UTF-8,都全是乱码,那很有可能是该网页所在服务器对其采用GZip压缩,所以在获取到网页输入流时首先需要对其进行GZip解压缩,那如何确定对方服务器是否有对网页进行GZip压缩呢,一般可以通过响应头信息中获取到,如果响应头里包含了如下信息:

Accept-Encoding: gzip,deflate  

     则表明该网页被GZip压缩过,在获取网页内容之前,需要一个GZip解压缩过程,特此提醒!GZip解压缩示例代码如下:

InputStream is = urlConnection.getInputStream();
//用GZIPInputStream 对原始的输入流包装一下
GZIPInputStream gis = new GZIPInputStream(he.getContent());
BufferedReader reader = new BufferedReader(new InputStreamReader(gis,charset));

   上述所有示例代码打包上传到我的百度网盘,代码下载地址如下:

    http://pan.baidu.com/s/1kTgQi0Z

 

    如果你还有什么问题请加我Q-Q:7-3-6-0-3-1-3-0-5,

或者加裙
一起交流学习!

4
2
分享到:
评论
2 楼 ljl_ss 2015-04-28  
111111
1 楼 yangsong158 2015-04-26  
正则表达式提取HTML属性很强大。
顺手推荐另一个东西,有一个叫:cpdetector的东东,可以直接根据文件内容,基于统计学原理,去猜测文件所使用的编码。
大体代码如下:
/**
* @describe Guess the encoding of the file specified by filename
* @param filename
* @return the encoding of the file
*/
public String guessEncoding(File file) {
try {
CharsetPrinter charsetPrinter = new CharsetPrinter();
String encode = charsetPrinter.guessEncoding(file);
return encode;
} catch (Exception e) {
throw new RuntimeException("猜测文件编码出错",e);
}
}

不知道这个东东,对你有用否。

相关推荐

    获取网页的编码格式(含JAVA源码 )

    下面是一个简单的Java代码示例,展示了如何使用这些库来获取网页的编码格式: ```java import net.sourceforge.cpptools.detector.CPDetectionResult; import ...

    JAVA获取网页有效邮箱地址

    ### JAVA获取网页有效邮箱地址 #### 知识点解析 本篇文章主要介绍了一种通过Java程序来抓取网页上的有效邮箱地址的方法。该程序能够接收一个网页URL作为输入,然后解析网页源代码并从中提取出所有符合标准格式的...

    java 实现整张网页快照

    例如,可以执行一个JavaScript脚本来获取网页的canvas元素,然后调用`toDataURL()`方法将canvas内容转换为Base64编码的图像数据。 5. **处理图像数据**:在Java端接收到Base64编码的图像数据后,将其解码并保存为...

    Java图形界面获取网页的源代码

    在Java编程语言中,开发一个图形用户界面(GUI)来获取网页源代码涉及到多个关键知识点。这个项目使用了Java Swing库来创建JFrame窗口,并利用Java的网络编程能力来抓取网页内容。以下是对这些技术的详细解释: 1. ...

    java获取微信小程序openid

    在Java编程环境中,获取微信...总之,Java获取微信小程序OpenID是一个涉及客户端和服务器端交互的过程,涉及到微信API的调用、数据安全处理等多个方面。理解并掌握这一过程,对于开发与微信小程序集成的应用至关重要。

    java获取网网页中出现的图片及判断网页代码中是否包含有效图片

    ### Java获取网页中图片的方法与判断网页代码中是否包含有效图片 在当今互联网时代,从网页中抓取图片是常见的需求之一,特别是在数据抓取、网络爬虫或内容分析等应用中。Java作为一种广泛使用的编程语言,提供了...

    java获取邮箱联系人库文件

    总结来说,Java获取邮箱联系人库文件是一个涉及网络编程、HTML解析和网页模拟的复杂过程。借助如`flyerhzm-contactlist-855a71f`这样的工具库和辅助调试工具,如httpwatch,开发者可以更高效地完成这一任务。在实际...

    Java获取网页数据步骤方法详解

    Java获取网页数据步骤方法详解 Java获取网页数据是指使用Java语言从互联网上获取网页数据的过程。这个过程主要包括使用HttpClient请求网页、获取网页源码、查看源码是否有需要提取的数据、对源码进行拆解、获取需要...

    根据url来获取页面的截图

    2. **打开连接并获取页面内容**:使用`openStream()`方法打开与URL的连接,并获取网页的HTML内容。这一步通常涉及到HTTP请求,但在这里我们假设已经完成了这个步骤,因为描述中提到的是直接修改URL。 3. **使用...

    Java获取积分Java获取积分

    在Java编程语言中,"获取积分"通常是指在软件系统中处理用户积分的逻辑,这可能涉及到用户行为的记录、积分计算、积分存储以及积分查询等多个方面。在开发这样的功能时,我们需要关注以下几个核心知识点: 1. **...

    java+FFmpeg+JavaCV实现无控件HTML页面视频实时预览,录像等,RTSP协议

    Java后端将从RTSP源获取的视频流通过WebSocket推送到前端,`&lt;video&gt;`标签则负责实时解码并显示这些数据。 6. **录像功能**:项目可能使用JavaCV库来捕获视频流,并将其保存为本地文件。FFmpeg可以在此过程中帮助...

    通过URL地址获取网页生成jpg图片

    本教程将详细介绍如何通过URL地址获取网页并生成jpg图片,同时解决32位和64位运行环境下的兼容性问题。我们将主要使用Java语言来实现这一功能,因为它具有丰富的库和跨平台的特性。 首先,我们需要一个能够处理网络...

    Java获取新浪微博评论

    首先,通过`API Key`和`API Secret`获取请求码(Request Token),然后引导用户访问授权页面,用户同意授权后,新浪会将授权码(Access Token)返回到你设置的回调URL。 一旦获得Access Token,就可以将其存储起来...

    url获取的java源代码

    本示例的"GetURL.java"文件可能包含了获取网页HTML内容,然后从中提取出链接URL的功能。 5. **HTML解析**: 要从HTML文档中提取URL,通常需要解析HTML。Java有多种库可用于解析HTML,如Jsoup,它提供了方便的方法...

    java字符串编码转换

    ### Java字符串编码转换详解 #### 一、Java 字符串编码转换基础 在Java中,字符串的处理是非常常见的操作之一,而字符编码是确保数据正确显示的关键因素。本篇文章将重点介绍Java中字符串编码的转换方法及其在Web...

    java读取网页 生成页面

    在IT领域,特别是Java...总之,使用Java读取网页并生成静态页面涉及到网络编程、输入输出流操作、编码处理、异常管理等多个方面的知识。掌握这些核心技能,不仅能够提升个人编程能力,还能在实际项目中发挥重要作用。

    java将网页保存成mht格式程序

    - **HTTP请求**:使用`java.net.URL`和`URLConnection`类来发起HTTP请求并获取网页的HTML内容。 - **资源定位**:通过解析HTML文档,使用`org.htmlparser`库或其他HTML解析库来提取页面中的资源链接,如图片、样式...

    获取编码的jar

    java用来获取网页编码的jar,可以用来判定目标链接的页面的编码格式

    java实现免费代理IP的获取方式 并实时校验代理IP是否有效

    Java 实现免费代理IP的获取方式 并动态实时校验是否有效,java文件项目内含有Jsoup的Jar包(Jsoup是加工过的,含请求),有2个主入口程序: 其一:用于请求代理IP,并立即校验是否是一个有效的代理IP,如果有效,...

    java网页登录页面

    Java网页登录页面是Web开发中的基础模块,它用于获取用户的身份信息并验证其合法性。在这个过程中,我们通常会涉及到HTML、CSS、JavaScript等前端技术来构建界面,而后端则使用Java JSP(JavaServer Pages)处理请求...

Global site tag (gtag.js) - Google Analytics