网页抓取--2（页面嵌套连接/嵌套页面） -

2277259257

浏览: 525741 次
性别:
来自: 杭州

最近访客更多访客>>

jcyanfan

zhaoshijie

juegege

waterfire119

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

网页抓取--2（页面嵌套连接/嵌套页面）

博客分类：

抓取数据

通过JAVA的API可以顺利的抓取网络上的大部分指定的网页内容，现与大家分享一下这方法理解与心得。最简单的一种抓取方法就是：

Java代码  
URL url = new URL(myurl);  
  
BufferedReader br = new BufferedReader(newInputStreamReader(url.openStream()));  
  
String s = "";  
  
StringBuffer sb = new StringBuffer("");  
  
while ((s = br.readLine()) != null) {  
  
i++;  
  
sb.append(s+"\r\n");  
  
}

这种方法抓取一般的网页应该没有问题，但当有些网页中存在一些嵌套的redirect连接时，它就会报Server redirected too many times这样的错误，这是因为此网页内部又有一些代码是转向其它网页的，循环过多导致程序出错。如果只想抓取本URL中的网页内容，而不愿意让它有其它的网页跳转，可以用以下的代码。

Java代码  
URL urlmy = new URL(myurl);  
  
HttpURLConnection con = (HttpURLConnection) urlmy.openConnection();  
  
con.setFollowRedirects(true);  
  
con.setInstanceFollowRedirects(false);  
  
con.connect();  
  
BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream(),"UTF-8"));  
  
String s = "";  
  
StringBuffer sb = new StringBuffer("");  
  
while ((s = br.readLine()) != null) {  
  
sb.append(s+"\r\n");  
  
}

这样的话，抓取的时候程序就不会跳换其它页面去抓取其它的内容了，这就达到我们的目的了。

如果是我们是处于内部网的话，还需要专门给它加上代理, Java以特殊的系统属性为代理服务器提供支持，只要在上面的程序加上以下程序就可以了。

Java代码  
System.getProperties().setProperty( "http.proxyHost", proxyName );  
  
System.getProperties().setProperty( "http.proxyPort", port );  

这样的话就可以实现处于内部网中而向互联网抓取自己想要的东西了。

上面的程序抓取回来的全部内容都存放在sb这个字符串，我们就可以通过正则表达式对它进行分析，提取出自己想要的具体的内容，为我所用，呵呵，这是多么美妙的一件事情啊！！

分享到：

网卡抓取--1（数据包） | Android开发整套博客

2015-04-28 11:30
浏览 847
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

网页抓取--2（页面嵌套连接/嵌套页面）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

网页抓取--2（页面嵌套连接/嵌套页面）

评论

发表评论

相关推荐

抓包工具--2（利用360随身wifi抓取移动设备通信数据）

抓包工具--1（移动手机）

网页抓取--4（破解反制）

网卡抓取--2（监听数据包）

网页抓取--3（定时器）

网卡抓取--1（数据包）

网页抓取--1（原网页+Javascript返回数据）

最近访客更多访客>>