java 网页解析工具包 Jsoup -

xcy13638760

浏览: 52469 次

最近访客更多访客>>

afra.liu

woodding2008

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

java 网页解析工具包 Jsoup

Jsoup是一个非常好的解析网页的包，用java开发的，提供了类似DOM，CSS选择器的方式来查找和提取文档中的内容。

相关资料如下：

下载地址：http://jsoup.org/download

中文文档资料：http://www.open-open.com/jsoup/

比较好的文档：http://www.ostools.net/apidocs/apidoc?api=jsoup-1.6.3

今天做了一个Jsoup解析网站的项目，使用Jsoup.connect(url).get()连接某网站时偶尔会出现

java.net.SocketTimeoutException:Read timed out异常。

原因是默认的Socket的延时比较短，而有些网站的响应速度比较慢，

所以会发生超时的情况。

解决方法：

链接的时候设定超时时间即可。

doc = Jsoup.connect(url).timeout(5000).get();

5000表示延时时间设置为5s。

测试代码如下：

1，不设定timeout时：

[java]view
 plaincopyprint?

packagejsoupTest;

importjava.io.IOException;

importorg.jsoup.*;

importorg.jsoup.helper.Validate;

importorg.jsoup.nodes.Document;

importorg.jsoup.nodes.Element;

importorg.jsoup.select.Elements;

publicclassJsoupTest{

publicstaticvoidmain(String[]args)throwsIOException{

Stringurl="http://www.weather.com.cn/weather/101010400.shtml";

longstart=System.currentTimeMillis();

Documentdoc=null;

try{

doc=Jsoup.connect(url).get();

}

catch(Exceptione){

e.printStackTrace();

}

finally{

System.out.println("Timeis:"+(System.currentTimeMillis()-start)+"ms");

}

Elementselem=doc.getElementsByTag("Title");

System.out.println("Titleis:"+elem.text());

}

}

有时发生超时：

java.net.SocketTimeoutException: Read timed out
at java.net.SocketInputStream.socketRead0(Native Method)
at java.net.SocketInputStream.read(Unknown Source)
at java.net.SocketInputStream.read(Unknown Source)
at java.io.BufferedInputStream.fill(Unknown Source)
at java.io.BufferedInputStream.read1(Unknown Source)
at java.io.BufferedInputStream.read(Unknown Source)
at sun.net.www.http.ChunkedInputStream.fastRead(Unknown Source)
at sun.net.www.http.ChunkedInputStream.read(Unknown Source)
at java.io.FilterInputStream.read(Unknown Source)
at sun.net.www.protocol.http.HttpURLConnection$HttpInputStream.read(Unknown Source)
at java.util.zip.InflaterInputStream.fill(Unknown Source)
at java.util.zip.InflaterInputStream.read(Unknown Source)
at java.util.zip.GZIPInputStream.read(Unknown Source)
at java.io.BufferedInputStream.read1(Unknown Source)
at java.io.BufferedInputStream.read(Unknown Source)
at java.io.FilterInputStream.read(Unknown Source)
at org.jsoup.helper.DataUtil.readToByteBuffer(DataUtil.java:113)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:447)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:393)
at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:159)
at org.jsoup.helper.HttpConnection.get(HttpConnection.java:148)
at jsoupTest.JsoupTest.main(JsoupTest.java:17)
Time is:3885ms
Exception in thread "main" java.lang.NullPointerException
at jsoupTest.JsoupTest.main(JsoupTest.java:25)

2,设定了则一般不会超时

[java]view
 plaincopyprint?

packagejsoupTest;

importjava.io.IOException;

importorg.jsoup.*;

importorg.jsoup.helper.Validate;

importorg.jsoup.nodes.Document;

importorg.jsoup.nodes.Element;

importorg.jsoup.select.Elements;

publicclassJsoupTest{

publicstaticvoidmain(String[]args)throwsIOException{

Stringurl="http://www.weather.com.cn/weather/101010400.shtml";

longstart=System.currentTimeMillis();

Documentdoc=null;

try{

doc=Jsoup.connect(url).timeout(5000).get();

}

catch(Exceptione){

e.printStackTrace();

}

finally{

System.out.println("Timeis:"+(System.currentTimeMillis()-start)+"ms");

}

Elementselem=doc.getElementsByTag("Title");

System.out.println("Titleis:"+elem.text());

}

}

输出为：

Time is:4158ms
Title is:顺义天气预报-今日_明日_一周天气预报:16日星期五多云转晴 11/-4℃

3、

分享到：

Jsoup解析HTML实例及文档方法详解 | 关于alibaba的fastjson

2014-03-11 10:09
浏览 192
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java 网页解析工具包 Jsoup

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java 网页解析工具包 Jsoup

评论

发表评论

相关推荐

最近访客更多访客>>