java抓取网页的乱码问题(通用)

zhou363667565

浏览: 2001632 次
性别:
来自: 深圳

最近访客更多访客>>

cyclonejava

冰~水

yang_50

hh_qq_love_hi

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

JavaEE

Java .net Windows HTML

java抓取网页的乱码问题（通用）2010-12-22 13:34//解决抓取页面的乱码问题

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.URL;
import java.net.URLConnection;

public class DownPage {
    public static void main(String args[]) throws IOException{

//抓取的页面地址
        String urlStr = "http://www.baidu.com";
        URL url = new URL(urlStr);
        URLConnection connection = url.openConnection();

//获得该网页的编码
        String ss = connection.getContentType();
        System.out.println(ss);

//查InputStreamReader的构造方法，gb2312为该页面的编码
        BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(),"gb2312"));
        File file = new File("d:/a.html");
        BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)));
        if(br != null){
            String s = null;
            while((s = br.readLine())!=null){
                //String sss = new String(s.getBytes("gb2312"),"windows-31J");
                System.out.println(s);
                bw.write(s);
                bw.flush();
            }
            bw.close();
            br.close();
        }
    }
}

分享到：

解决Java抓取页面遇到客户端身份认证的办法 | 爬网入门：JAVA抓取网站网页内容

2011-03-17 23:59
浏览 6573
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java抓取网页的乱码问题(通用)

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java抓取网页的乱码问题(通用)

评论

发表评论

相关推荐

解决Java服务器端插入数据到Mysql中乱码问题--简单几步轻松解决乱码问题

设计模式之-代理模式-Proxy

构建高并发、服务化、低耦合企业级脚骨：springmvc+mybatis+restfull+webservice+bootstrap html5

教您搭建大型互联网企业架构：springmvc+mybatis+restful+webservice+quartz+bootstrap

大型互联网服务集成平台:springmvc+mybatis+restful+webservice+quartz+bootstrap html5

大型互联网服务集成平台:springmvc+mybatis+restfull+JMS+webservice+bootstrap

大型互联网服务集成平台:springmvc+mybatis+restfull+JMS+webservice+bootstrap

Maven构建大型互联网架构springmvc+mybatis+Restfull+Webservice+Bootstrap

maven构建高大上开源架构：springmvc+mybatis+rest+bootstrap html5

手机App后台架构:Springmvc+SpringSecurity+mybatis+Rest+Quartz+Bootstrap Html5( Maven构建)

maven构建springmvc+mybatis+rest+webservice+bootstrap html5(cms开源项目)

Java正则表达式

Cannot convert value of type [org.springframework.cache.ehcache.EhCacheCache

Collections工具类中的frequency方法统计单词出现的次数

Java 压缩Excel文件生成.zip文件

Java 解压缩zip文件

Jxl操作Excel设置背景、字体颜色、对齐方式、列的宽度

java获取字节的长度.

StringBuffer-reverse()字符反转功能

java 打开IE

最近访客更多访客>>