- 浏览: 1159217 次
- 性别:
- 来自: nibiru
文章分类
- 全部博客 (407)
- lucene (1)
- java (147)
- j2se (1)
- javascript (2)
- spring (5)
- hibernate (1)
- mysql (1)
- oracle (10)
- 工作 (10)
- JPA (13)
- 网站 (5)
- xml (2)
- mina (3)
- 思想 (16)
- httpclient (10)
- JFreeChart (1)
- 多线程 (0)
- swing (2)
- socket (0)
- 网络 (3)
- protocol buffer (0)
- jmx (2)
- jboss/weblogic (1)
- flex3 (12)
- 设计模式 (1)
- apache (0)
- php (4)
- struts1&2 (2)
- oracle SOA (2)
- 微博短链接的生成算法(Java版本) (1)
- htmlparser (3)
- quartz (2)
- mail (1)
- 乱码 (2)
- txt (1)
- eclipse (7)
- 分类 (0)
- 数据库 (1)
- svn (1)
- 日志 (1)
- struts2 (4)
- jquery (2)
- 编码 (1)
- 路径,java (1)
- SOHO (1)
- 娱乐 (2)
- frameset (1)
- maven (1)
- 反射 (1)
- truts2 (1)
- 敏捷,scrum (1)
- OA (1)
- english (1)
- oralce (1)
- wampserver (1)
- 会计 (1)
- springmvc (1)
- js (1)
- CMA (1)
最新评论
-
ludabing:
[/color][color=yellow]
spring @component的作用 -
netwelfare:
EL表达式中null和empty的区别,可以看这篇文章:htt ...
EL表达式中empty的用法 -
wjs王结胜:
...
spring @component的作用 -
di1984HIT:
哈哈。真不错啊。~
微博短链接的生成算法(Java版本) -
di1984HIT:
不错,不错。。。
spring @component的作用
页面utf-8 乱码
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
gbk正常
<meta http-equiv="Content-Type" content="text/html; charset=gbk" />
这个是字符说明
http://download.oracle.com/javase/6/docs/api/java/nio/charset/Charset.html
如何抓取的时候正常显示呢?
一种办法是同一按字节码来抓取,写到文件中,这样要 i/o file ,增加系统负担
另一种办法就是要根据页面的编码格式适当转码了
下面是我的解决办法
弄了好几个办法,这个最简单
绝对原创,转载请注明 http://tomfish88.iteye.com/
BufferedReader in = new BufferedReader(
new InputStreamReader(
yahoo.openStream(),"utf-8"));
先查看页面的编码格式,页面是啥编码格式,上面的编码格式就用啥,一点乱码没有,搞定
发表评论
-
DISCUE盖楼器
2013-10-24 13:34 1222package com.soft.hr.per.service ... -
svn文件影响编译速度解决办法
2011-11-05 10:06 1677在eclipse开发环境中正常编译java文件时,eclip ... -
项目经理,产品经理,架构师
2011-08-29 12:54 2022理想:产品经理设计出简单好用的产品,并能理解技术约束和 ... -
题目
2011-08-28 13:01 17内容22222222222222222222222222222 ... -
如何用QTP录制鼠标右键点击事件
2011-08-25 17:09 1667qtp录制鼠标右键单击事件要通过模拟键盘操作来实现st ... -
Eclipse中要导出jar包中引用了第三方jar包怎么办【】
2011-08-25 15:17 3576单击菜单栏中 ... -
面试题整理2
2011-08-25 12:13 709现有n个人和m个桌子.当每桌做3个人时,多出来2个人. ... -
java把下载html批量换成chm电子书
2011-08-25 10:11 1367利用微软的hhc.exe来把需要转换成chm的htm ... -
java用链表解约瑟夫环问题
2011-08-25 09:36 10721到20的数围成一个圈,隔两个取出一个,直到所有的数都 ... -
CKEditor用法
2011-08-25 09:23 1499config.js ckeditor.editor ... -
工作难题
2011-08-24 15:00 1143function showitem(oid,order ... -
Rational.Rose7.0系统软件
2011-08-24 14:13 3043ibm.rational.rose7.0系统软件01. ... -
[] 探索建立私人的科技资料检索系统
2011-08-23 10:42 1335由于经济条 ... -
一、Java字节代码的操纵
2011-08-22 14:54 624<address style="tex ... -
线程状态的换
2011-08-22 13:09 996<div><div>scjp5 ... -
线程的调度—优先级
2011-08-22 12:53 1143<div>与线程休眠类似,线程的优先级仍然 ... -
类 Hibernate Session DBUtil
2011-08-22 12:16 1236package com.core.util;impor ... -
利用Annotation构建针对POJO进行增删改操作
2011-08-22 12:12 1142package com.core.annotation ... -
360 Or QQ
2011-08-22 08:48 1168前几天,360忽然跳 ... -
XML JAVA解析 -- DOM
2011-08-19 14:27 1326dom : document object model ...
相关推荐
在Java编程中,读取远程网页内容是一项常见的任务,但可能会遇到编码问题导致乱码。本文将深入探讨这个问题,提供有效的解决方案,确保正确地读取和处理远程网页的字符编码。 首先,理解网页编码至关重要。网页通常...
在Linux环境下,由于字符编码的问题,中文字符可能会出现乱码,但通过特定的方法和库可以解决这个问题。 首先,`itext`是一个流行的Java库,用于处理PDF文档。它提供了创建、修改和操作PDF文档的功能。在URL转PDF的...
在Java中,确保请求和响应的字符编码与数据库一致,避免乱码问题。 5. **MySQL数据库操作**:使用JDBC(Java Database Connectivity)驱动与MySQL交互,执行SQL语句将抓取的数据插入到合适的表中。创建数据库表时,...
总的来说,解决Nutch的网页乱码问题需要深入理解字符编码原理,以及Nutch内部的处理流程。通过优化URL解码、HTTP头解析、字符集探测和转换逻辑,我们可以有效地避免或修复乱码问题,从而提高Nutch的抓取质量和用户...
- 提高利用面向对象程序设计方法解决实际问题的能力。 #### 设计原理及方案 ##### 使用的软件工具和环境 - **开发工具**:Eclipse - **操作系统**:Windows 8 - **依赖库**:Apache HttpClient,用于发送HTTP请求...
这个项目使用了Java Swing库来创建JFrame窗口,并利用Java的网络编程能力来抓取网页内容。以下是对这些技术的详细解释: 1. **Java Swing**: Swing是Java的一个图形用户界面工具包,用于构建桌面应用程序。它提供了...
本篇文章将深入探讨四种不同的Java实现方法,帮助初学者理解如何在处理中文乱码问题的同时,有效地下载网页内容。 一、使用`java.net.URL`和`java.io` 这是最基础的下载网页的方法,通过`java.net.URL`类建立与...
在Java编程中,获取URL文本是一项基础且重要的任务,它涉及到网络编程和数据抓取等领域。本实例"JAVA100例之实例49 获取URL文本"将详细讲解如何使用Java从URL地址中读取并下载文本内容。下面我们将深入探讨这个知识...
原先公司的网站是用GB2312编码做的页面,现在采用的是UTF-8的编码,虽然我已经判断了页面的编码,可是依然不能解决保存的文件中文乱码的问题,不知道大家有什么好办法没有。错误信息为:java.io....
在本教程中,我们将深入探讨如何在Android应用中正确地以GET方式读取网页源代码,并解决可能出现的编码错误导致的乱码问题。 首先,我们需要使用`HttpURLConnection`或者第三方库如`Volley`、`OkHttp`来发起...
Java 指定编码生成静态网页技术涉及到一系列的编程概念和方法,主要目的是从网络上获取HTML页面内容,并将其保存到本地文件系统中,形成一个静态网页。在Java中,这个过程通常涉及到网络请求、输入输出流处理以及...
总结来说,这个Java爬虫项目涵盖了网络爬虫的基本要素,包括请求、解析、下载和存储,同时也可能涉及到更高级的技术,如API利用、动态内容抓取和多线程。用户可以通过这个项目学习到如何构建一个完整的网络爬虫,并...
Java编写的简单爬虫程序是一种基础的网络数据抓取工具,它主要利用Java语言的特性,结合网络编程的原理,实现对网页内容的自动化获取。在这个项目中,爬虫程序运用了Socket通信来与服务器建立连接,从而获取HTML网页...
在这个"Java网络爬虫程序(源程序和数据库文件)"中,我们看到的是一个完整的爬虫项目,它能够从指定的网页抓取`Title`标签的内容,并将这些信息存储到SQL数据库中。以下是对这个项目中涉及的关键知识点的详细说明:...
9. **字符编码识别**:`charset`变量定义了网页的字符编码,通常用来正确解码网页内容,防止乱码问题。这里设定为"GB2312",可能需要根据实际网页的编码进行调整。 10. **状态追踪**:`webSuccessed`和`webFailed`...
2. **编码兼容性**:当前代码默认使用`iso-8859-1`编码读取内容,但在实际应用中,应根据实际情况选择正确的字符集,以避免乱码问题。 3. **性能考量**:当处理大量或频繁的HTTP请求时,考虑使用连接池或其他并发...
2. **编码问题**:确保内容编码与页面编码一致,以避免乱码现象。 3. **安全性**:处理用户输入时要格外小心,防止XSS攻击等安全风险。 4. **性能优化**:考虑到性能问题,在处理大数据量时可能需要采取分批处理的...
2. **网页快照乱码** - 对于网页快照的乱码问题,需要修改 `cached.jsp` 文件,将内容转换为正确的字符编码。 通过以上步骤,你已经成功地入门了Nutch的使用,能够进行网页抓取和搜索。不过,实际使用中还需要注意...
当网页的编码不匹配时,可能会出现乱码问题。`parseUnicode()`函数的作用就是将接收到的Unicode编码的网页内容转化为UTF-8编码,以确保正确显示和处理抓取到的信息。这通常涉及到对字符串进行解码和再编码的操作。 ...
本文将详细讲解如何在Android应用中以GET方式读取网页源代码,并解决可能出现的乱码问题。 首先,我们需要理解HTTP协议中的GET方法。GET是最基本的HTTP请求方法,它向服务器请求指定资源。在Android中,我们通常...