`

Java URL抓取页面内容乱码问题解决办法

    博客分类:
  • java
阅读更多

 

 

页面utf-8 乱码 

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

gbk正常

<meta http-equiv="Content-Type" content="text/html; charset=gbk" />

 

这个是字符说明

 

http://download.oracle.com/javase/6/docs/api/java/nio/charset/Charset.html

 

如何抓取的时候正常显示呢?

 

一种办法是同一按字节码来抓取,写到文件中,这样要 i/o file ,增加系统负担

 

另一种办法就是要根据页面的编码格式适当转码了

 

下面是我的解决办法 

 

弄了好几个办法,这个最简单

 

 

绝对原创,转载请注明   http://tomfish88.iteye.com/

 

BufferedReader in = new BufferedReader(

new InputStreamReader(

yahoo.openStream(),"utf-8"));

 

先查看页面的编码格式,页面是啥编码格式,上面的编码格式就用啥,一点乱码没有,搞定

 

 

分享到:
评论
1 楼 kevintop 2011-06-27  
页面的编码格式不一定有,也不一定对! 你肿么办? :)

相关推荐

    java读取远程网页乱码解决方案

    在Java编程中,读取远程网页内容是一项常见的任务,但可能会遇到编码问题导致乱码。本文将深入探讨这个问题,提供有效的解决方案,确保正确地读取和处理远程网页的字符编码。 首先,理解网页编码至关重要。网页通常...

    java URL转PDF文件(完美支持中文)

    在Linux环境下,由于字符编码的问题,中文字符可能会出现乱码,但通过特定的方法和库可以解决这个问题。 首先,`itext`是一个流行的Java库,用于处理PDF文档。它提供了创建、修改和操作PDF文档的功能。在URL转PDF的...

    java模拟http请求登陆抓取海投网信息

    在Java中,确保请求和响应的字符编码与数据库一致,避免乱码问题。 5. **MySQL数据库操作**:使用JDBC(Java Database Connectivity)驱动与MySQL交互,执行SQL语句将抓取的数据插入到合适的表中。创建数据库表时,...

    nutch部分网页乱码BUG修正

    总的来说,解决Nutch的网页乱码问题需要深入理解字符编码原理,以及Nutch内部的处理流程。通过优化URL解码、HTTP头解析、字符集探测和转换逻辑,我们可以有效地避免或修复乱码问题,从而提高Nutch的抓取质量和用户...

    java实现新浪微博抓取关注和粉丝的课程设计报告

    - 提高利用面向对象程序设计方法解决实际问题的能力。 #### 设计原理及方案 ##### 使用的软件工具和环境 - **开发工具**:Eclipse - **操作系统**:Windows 8 - **依赖库**:Apache HttpClient,用于发送HTTP请求...

    Java图形界面获取网页的源代码

    这个项目使用了Java Swing库来创建JFrame窗口,并利用Java的网络编程能力来抓取网页内容。以下是对这些技术的详细解释: 1. **Java Swing**: Swing是Java的一个图形用户界面工具包,用于构建桌面应用程序。它提供了...

    java网页下载的四种不同实现

    本篇文章将深入探讨四种不同的Java实现方法,帮助初学者理解如何在处理中文乱码问题的同时,有效地下载网页内容。 一、使用`java.net.URL`和`java.io` 这是最基础的下载网页的方法,通过`java.net.URL`类建立与...

    JAVA100例之实例49 获取URL文本

    在Java编程中,获取URL文本是一项基础且重要的任务,它涉及到网络编程和数据抓取等领域。本实例"JAVA100例之实例49 获取URL文本"将详细讲解如何使用Java从URL地址中读取并下载文本内容。下面我们将深入探讨这个知识...

    一个简单的java爬虫产品

    原先公司的网站是用GB2312编码做的页面,现在采用的是UTF-8的编码,虽然我已经判断了页面的编码,可是依然不能解决保存的文件中文乱码的问题,不知道大家有什么好办法没有。错误信息为:java.io....

    Android读取网页源代码解决编码错误问题

    在本教程中,我们将深入探讨如何在Android应用中正确地以GET方式读取网页源代码,并解决可能出现的编码错误导致的乱码问题。 首先,我们需要使用`HttpURLConnection`或者第三方库如`Volley`、`OkHttp`来发起...

    Java指定编码生成静态网页技术.pdf

    Java 指定编码生成静态网页技术涉及到一系列的编程概念和方法,主要目的是从网络上获取HTML页面内容,并将其保存到本地文件系统中,形成一个静态网页。在Java中,这个过程通常涉及到网络请求、输入输出流处理以及...

    Amazon.rar_amazon 爬_java爬虫

    总结来说,这个Java爬虫项目涵盖了网络爬虫的基本要素,包括请求、解析、下载和存储,同时也可能涉及到更高级的技术,如API利用、动态内容抓取和多线程。用户可以通过这个项目学习到如何构建一个完整的网络爬虫,并...

    Java编写的简单爬虫程序

    Java编写的简单爬虫程序是一种基础的网络数据抓取工具,它主要利用Java语言的特性,结合网络编程的原理,实现对网页内容的自动化获取。在这个项目中,爬虫程序运用了Socket通信来与服务器建立连接,从而获取HTML网页...

    Java网络爬虫程序(源程序和数据库文件)

    在这个"Java网络爬虫程序(源程序和数据库文件)"中,我们看到的是一个完整的爬虫项目,它能够从指定的网页抓取`Title`标签的内容,并将这些信息存储到SQL数据库中。以下是对这个项目中涉及的关键知识点的详细说明:...

    JAVA爬虫程序

    9. **字符编码识别**:`charset`变量定义了网页的字符编码,通常用来正确解码网页内容,防止乱码问题。这里设定为"GB2312",可能需要根据实际网页的编码进行调整。 10. **状态追踪**:`webSuccessed`和`webFailed`...

    抓取http报头

    2. **编码兼容性**:当前代码默认使用`iso-8859-1`编码读取内容,但在实际应用中,应根据实际情况选择正确的字符集,以避免乱码问题。 3. **性能考量**:当处理大量或频繁的HTTP请求时,考虑使用连接池或其他并发...

    网页转换成word,excel

    2. **编码问题**:确保内容编码与页面编码一致,以避免乱码现象。 3. **安全性**:处理用户输入时要格外小心,防止XSS攻击等安全风险。 4. **性能优化**:考虑到性能问题,在处理大数据量时可能需要采取分批处理的...

    Nutch使用入门

    2. **网页快照乱码** - 对于网页快照的乱码问题,需要修改 `cached.jsp` 文件,将内容转换为正确的字符编码。 通过以上步骤,你已经成功地入门了Nutch的使用,能够进行网页抓取和搜索。不过,实际使用中还需要注意...

    爬虫 建档的样例

    当网页的编码不匹配时,可能会出现乱码问题。`parseUnicode()`函数的作用就是将接收到的Unicode编码的网页内容转化为UTF-8编码,以确保正确显示和处理抓取到的信息。这通常涉及到对字符串进行解码和再编码的操作。 ...

    Android读取网页源代码

    本文将详细讲解如何在Android应用中以GET方式读取网页源代码,并解决可能出现的乱码问题。 首先,我们需要理解HTTP协议中的GET方法。GET是最基本的HTTP请求方法,它向服务器请求指定资源。在Android中,我们通常...

Global site tag (gtag.js) - Google Analytics