- 浏览: 2001735 次
- 性别:
- 来自: 深圳
-
文章分类
- 全部博客 (509)
- JavaEE (122)
- Oracle数据库 (29)
- JavaScript (37)
- SAP (5)
- MySql数据库 (7)
- JavaSE (4)
- Ajax (1)
- jQuery (13)
- SSH框架 (36)
- Web Service (10)
- JSF框架 (2)
- JBPM (0)
- ireport报表 (2)
- ibatis (5)
- Hibernate (31)
- JSP (11)
- Tomcat 服务器 (20)
- Other (19)
- JavaWeb (4)
- Maven (11)
- OSWorkFlow (10)
- HTML (13)
- Exception汇总 (7)
- SVN (2)
- 笑话 (1)
- JSTL (1)
- WebSphere Message Broker (13)
- ANT命令 (3)
- Liunx (12)
- Struts2 (26)
- Eclipse (6)
- DOS (3)
- Flex (11)
- WebSphere (1)
- 开发常用工具 (3)
- Junit (2)
- EJB (4)
- Struts1.2 (2)
- Jboss (1)
- Android (2)
- Java框架源码解析 (1)
- Spring (4)
- MyBatis (6)
- SpringMVC (4)
- Jetty (2)
- 数据库表设计 (1)
- SSO (4)
最新评论
-
贝塔ZQ:
也可以试试PageOffice插件,觉得更简单点
Jxl操作Excel设置背景、字体颜色、对齐方式、列的宽度 -
jia1208:
...
Could not publish server configuration for Tomcat v6.0 Server at localhost. -
u011274527:
赞
java.io.EOFException java.io.ObjectInputStream$PeekInputStream.readFully 错误 -
旭旭小牛啦:
怎么没哟了,继续赛
jQuery 选择器 -
wzw3919:
100行会报空指针
Java 解压缩zip文件
java抓取网页的乱码问题(通用)2010-12-22 13:34//解决抓取页面的乱码问题 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.io.OutputStreamWriter; import java.net.URL; import java.net.URLConnection; public class DownPage { public static void main(String args[]) throws IOException{ //抓取的页面地址 String urlStr = "http://www.baidu.com"; URL url = new URL(urlStr); URLConnection connection = url.openConnection(); //获得该网页的编码 String ss = connection.getContentType(); System.out.println(ss); //查InputStreamReader的构造方法,gb2312为该页面的编码 BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(),"gb2312")); File file = new File("d:/a.html"); BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file))); if(br != null){ String s = null; while((s = br.readLine())!=null){ //String sss = new String(s.getBytes("gb2312"),"windows-31J"); System.out.println(s); bw.write(s); bw.flush(); } bw.close(); br.close(); } } }
发表评论
-
解决Java服务器端插入数据到Mysql中乱码问题--简单几步轻松解决乱码问题
2015-11-13 17:52 2604当写入数据到mysql数据库中发生乱码时.请检查以下几个地 ... -
设计模式之-代理模式-Proxy
2015-04-28 21:24 1047使用代理模式之前需要知道代理模式能做什么? 能有哪些好处以及 ... -
构建高并发、服务化、低耦合企业级脚骨:springmvc+mybatis+restfull+webservice+bootstrap html5
2015-04-14 01:17 85SpringMVC + Mybatis + SpringS ... -
教您搭建大型互联网企业架构:springmvc+mybatis+restful+webservice+quartz+bootstrap
2015-04-13 21:54 99SpringMVC + Mybatis + SpringS ... -
大型互联网服务集成平台:springmvc+mybatis+restful+webservice+quartz+bootstrap html5
2015-04-13 21:49 81SpringMVC + Mybatis + SpringSe ... -
大型互联网服务集成平台:springmvc+mybatis+restfull+JMS+webservice+bootstrap
2015-04-12 23:36 22SpringMVC + Mybatis + SpringS ... -
大型互联网服务集成平台:springmvc+mybatis+restfull+JMS+webservice+bootstrap
2015-04-12 23:33 83SpringMVC + Mybatis + SpringS ... -
Maven构建大型互联网架构springmvc+mybatis+Restfull+Webservice+Bootstrap
2015-04-12 23:28 71SpringMVC + Mybatis + SpringS ... -
maven构建高大上开源架构:springmvc+mybatis+rest+bootstrap html5
2015-04-12 23:25 23SpringMVC + Mybatis + SpringS ... -
手机App后台架构:Springmvc+SpringSecurity+mybatis+Rest+Quartz+Bootstrap Html5( Maven构建)
2015-04-09 01:39 76APP后台架构Maven构建,模拟大型互联网架构,支持高并发 ... -
maven构建springmvc+mybatis+rest+webservice+bootstrap html5(cms开源项目)
2015-04-09 01:21 85SpringMVC + Mybatis + SpringS ... -
Java正则表达式
2014-11-26 21:03 1416Java正则表达式: package pack.ja ... -
Cannot convert value of type [org.springframework.cache.ehcache.EhCacheCache
2014-11-10 20:03 6291错误信息: [org.springframework.be ... -
Collections工具类中的frequency方法统计单词出现的次数
2013-11-05 21:30 2846最近发现了一个Collections中有一个很好用的方法: ... -
Java 压缩Excel文件生成.zip文件
2013-05-08 22:22 7970首先创建文件目录,然后生成Excel文件到创建的目录下, ... -
Java 解压缩zip文件
2013-05-08 13:14 8378不借助于其他的第三方 ... -
Jxl操作Excel设置背景、字体颜色、对齐方式、列的宽度
2013-04-06 22:26 58103最近项目中需要用到导出Excel文件,以下是我写了一个通过j ... -
java获取字节的长度.
2012-05-17 22:00 6771我们经常要获取中文,数字,或者英文字符所占字节的长度,下面就列 ... -
StringBuffer-reverse()字符反转功能
2012-05-17 21:42 7115在书上看到一个这样的例子, 采用最简便的方式把一串字符串反转过 ... -
java 打开IE
2012-05-23 22:14 1327Runtime.getRuntime().exec(" ...
相关推荐
在Java中,确保请求和响应的字符编码与数据库一致,避免乱码问题。 5. **MySQL数据库操作**:使用JDBC(Java Database Connectivity)驱动与MySQL交互,执行SQL语句将抓取的数据插入到合适的表中。创建数据库表时,...
当网页的编码不匹配时,可能会出现乱码问题。`parseUnicode()`函数的作用就是将接收到的Unicode编码的网页内容转化为UTF-8编码,以确保正确显示和处理抓取到的信息。这通常涉及到对字符串进行解码和再编码的操作。 ...
2. **编码兼容性**:当前代码默认使用`iso-8859-1`编码读取内容,但在实际应用中,应根据实际情况选择正确的字符集,以避免乱码问题。 3. **性能考量**:当处理大量或频繁的HTTP请求时,考虑使用连接池或其他并发...
在进行网页抓取的过程中,`crawler4j`是一个非常实用的Java库,它提供了一种简单的方式来爬取网站内容。然而,在处理某些特定情况时,尤其是遇到那些响应中没有明确指定编码的页面时,可能会遇到解析HTML内容时出现...
*中文网页的乱码问题:解决方法是编码转换。 * 设置延迟时间:例如,设置每10秒翻开一个新的网页,以避免占用过多的带宽。 在实践中,爬虫的策略是多种多样的,例如深度优先、广度优先等。根据实际情况选择合适的...
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 网络爬虫有什么用?爬虫可以作为通用搜索引擎网页收集器...
2. **编码问题**: 处理中文网页时常见的乱码问题及解决方案,如使用`chardet`库检测编码类型并进行转换。 3. **高级特性**: 如何实现更加健壮的爬虫,包括错误处理、模拟浏览器行为等。 4. **动态网页处理**: 如何...