通过JAVA的API可以顺利的抓取网络上的大部分指定的网页内容

zhou363667565

浏览: 2002146 次
性别:
来自: 深圳

最近访客更多访客>>

cyclonejava

冰~水

yang_50

hh_qq_love_hi

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

JavaEE

Java 正则表达式互联网

JAVA 抓取网页内容2011-01-06 16:43通过JAVA的API可以顺利的抓取网络上的大部分指定的网页内容，现与大家分享一下这方法理解与心得。最简单的一种抓取方法就是：

URL url = new URL(myurl);

BufferedReader br = new BufferedReader(newInputStreamReader(url.openStream()));

String s = "";

StringBuffer sb = new StringBuffer("");

while ((s = br.readLine()) != null) {

i++;

sb.append(s+"\r\n");

}

这种方法抓取一般的网页应该没有问题，但当有些网页中存在一些嵌套的redirect连接时，它就会报Server redirected too many times这样的错误，这是因为此网页内部又有一些代码是转向其它网页的，循环过多导致程序出错。如果只想抓取本URL中的网页内容，而不愿意让它有其它的网页跳转，可以用以下的代码。

URL urlmy = new URL(myurl);

HttpURLConnection con = (HttpURLConnection) urlmy.openConnection();

con.setFollowRedirects(true);

con.setInstanceFollowRedirects(false);

con.connect();

BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream(),"UTF-8"));

String s = "";

StringBuffer sb = new StringBuffer("");

while ((s = br.readLine()) != null) {


sb.append(s+"\r\n");

}

这样的话，抓取的时候程序就不会跳换其它页面去抓取其它的内容了，这就达到我们的目的了。

如果是我们是处于内部网的话，还需要专门给它加上代理, Java以特殊的系统属性为代理服务器提供支持，只要在上面的程序加上以下程序就可以了。

System.getProperties().setProperty( "http.proxyHost", proxyName );

System.getProperties().setProperty( "http.proxyPort", port );

这样的话就可以实现处于内部网中而向互联网抓取自己想要的东西了。

上面的程序抓取回来的全部内容都存放在sb这个字符串，我们就可以通过正则表达式对它进行分析，提取出自己想要的具体的内容，为我所用，呵呵，这是多么美妙的一件事情啊！

分享到：

实现java读取网页内容并下载网页中出现的图 ... | 解决Java抓取页面遇到客户端身份认证的办法

2011-03-18 00:08
浏览 1823
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

通过JAVA的API可以顺利的抓取网络上的大部分指定的网页内容

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

通过JAVA的API可以顺利的抓取网络上的大部分指定的网页内容

评论

发表评论

相关推荐

解决Java服务器端插入数据到Mysql中乱码问题--简单几步轻松解决乱码问题

设计模式之-代理模式-Proxy

构建高并发、服务化、低耦合企业级脚骨：springmvc+mybatis+restfull+webservice+bootstrap html5

教您搭建大型互联网企业架构：springmvc+mybatis+restful+webservice+quartz+bootstrap

大型互联网服务集成平台:springmvc+mybatis+restful+webservice+quartz+bootstrap html5

大型互联网服务集成平台:springmvc+mybatis+restfull+JMS+webservice+bootstrap

大型互联网服务集成平台:springmvc+mybatis+restfull+JMS+webservice+bootstrap

Maven构建大型互联网架构springmvc+mybatis+Restfull+Webservice+Bootstrap

maven构建高大上开源架构：springmvc+mybatis+rest+bootstrap html5

手机App后台架构:Springmvc+SpringSecurity+mybatis+Rest+Quartz+Bootstrap Html5( Maven构建)

maven构建springmvc+mybatis+rest+webservice+bootstrap html5(cms开源项目)

Java正则表达式

Cannot convert value of type [org.springframework.cache.ehcache.EhCacheCache

Collections工具类中的frequency方法统计单词出现的次数

Java 压缩Excel文件生成.zip文件

Java 解压缩zip文件

Jxl操作Excel设置背景、字体颜色、对齐方式、列的宽度

java获取字节的长度.

StringBuffer-reverse()字符反转功能

java 打开IE

最近访客更多访客>>