`

java抓取网页的乱码问题(通用)

阅读更多

java抓取网页的乱码问题(通用)2010-12-22 13:34//解决抓取页面的乱码问题

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.URL;
import java.net.URLConnection;

public class DownPage {
    public static void main(String args[]) throws IOException{

//抓取的页面地址
        String urlStr = "http://www.baidu.com";
        URL url = new URL(urlStr);
        URLConnection connection = url.openConnection();

//获得该网页的编码
        String ss = connection.getContentType();
        System.out.println(ss);

//查InputStreamReader的构造方法,gb2312为该页面的编码
        BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(),"gb2312"));
        File file = new File("d:/a.html");
        BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)));
        if(br != null){
            String s = null;
            while((s = br.readLine())!=null){
                //String sss = new String(s.getBytes("gb2312"),"windows-31J");
                System.out.println(s);
                bw.write(s);
                bw.flush();
            }
            bw.close();
            br.close();
        }
    }
}
 

 

分享到:
评论

相关推荐

    java模拟http请求登陆抓取海投网信息

    在Java中,确保请求和响应的字符编码与数据库一致,避免乱码问题。 5. **MySQL数据库操作**:使用JDBC(Java Database Connectivity)驱动与MySQL交互,执行SQL语句将抓取的数据插入到合适的表中。创建数据库表时,...

    爬虫 建档的样例

    当网页的编码不匹配时,可能会出现乱码问题。`parseUnicode()`函数的作用就是将接收到的Unicode编码的网页内容转化为UTF-8编码,以确保正确显示和处理抓取到的信息。这通常涉及到对字符串进行解码和再编码的操作。 ...

    抓取http报头

    2. **编码兼容性**:当前代码默认使用`iso-8859-1`编码读取内容,但在实际应用中,应根据实际情况选择正确的字符集,以避免乱码问题。 3. **性能考量**:当处理大量或频繁的HTTP请求时,考虑使用连接池或其他并发...

    crawler4j抓取页面使用jsoup解析html时的解决方法

    在进行网页抓取的过程中,`crawler4j`是一个非常实用的Java库,它提供了一种简单的方式来爬取网站内容。然而,在处理某些特定情况时,尤其是遇到那些响应中没有明确指定编码的页面时,可能会遇到解析HTML内容时出现...

    用Python写网络爬虫-35页

    *中文网页的乱码问题:解决方法是编码转换。 * 设置延迟时间:例如,设置每10秒翻开一个新的网页,以避免占用过多的带宽。 在实践中,爬虫的策略是多种多样的,例如深度优先、广度优先等。根据实际情况选择合适的...

    用Python写网络爬虫-35

    传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 网络爬虫有什么用?爬虫可以作为通用搜索引擎网页收集器...

    Python和数据分析

    2. **编码问题**: 处理中文网页时常见的乱码问题及解决方案,如使用`chardet`库检测编码类型并进行转换。 3. **高级特性**: 如何实现更加健壮的爬虫,包括错误处理、模拟浏览器行为等。 4. **动态网页处理**: 如何...

Global site tag (gtag.js) - Google Analytics