解析通过模拟浏览器得到的HtmlPage

小丑虾

浏览: 52490 次
性别:
来自: 郑州

最近访客更多访客>>

zxlfast

广东林发

lzj0.0

扮猪吃老虎

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

虾米-网页解析

之所以运用WebClient 是因为我们有时候查看网页源代码的时候看到的只有js代码经常遇到的就是【发布日期】

WebClient可以实现先把网页下载到一个指定路径然后进行解析

不过这里没有通过下载而且直接解析WebClient获取到的HtmlPage

url:网页路径 code：编码一般都是utf-8或者gb2312

public static ResultGetInfo getDom(String url,String code) throws FailingHttpStatusCodeException,

MalformedURLException, IOException {

ResultGetInfo rgi=new ResultGetInfo();

final WebClient webClient = new WebClient();

// WebClient 相当于一个浏览器

// 设置webClient的相关参数

webClient.setJavaScriptEnabled(true);

webClient.setCssEnabled(false);

webClient.setAjaxController(new NicelyResynchronizingAjaxController());

webClient.setTimeout(30000);

webClient.setThrowExceptionOnScriptError(false);

// 模拟浏览器打开一个目标网址

final HtmlPage page = (HtmlPage) webClient.getPage(url);

//摘要

String summary="";

if(url.contains("qq")&&url.contains("blog")){

//处理标题

title=HandlerSummary.getQQTitle(page);

String tt=title;

String t1=title.substring(0,title.lastIndexOf("."));

title=t1.substring(0,t1.lastIndexOf(".")-4);

summary=HandlerSummary.getQQSummary(page, title);

//标题：不能浅尝辄止 2013.8.4 2013.7.28

//把"."换成"-"

String t=tt.replace(".", "-");

//把字符串日期转换为Date类型的日期

d=GetDate.getTimeThread(t);

}

rg.setSummary(summary);

rg.setDate(d);

//关闭模拟浏览器

webClient.closeAllWindows();

return rgi;

}

//下面就是解析HtmlPage

//腾讯博客

public static String getQQSummary(HtmlPage page,String title){

String summary=title;

//blogDetailDiv

list.add("div");

//获取div中id=“blogDetailDiv ”的文本

//我这里是通过把Htmlpage对象转换为HtmlElement对象集合

List<HtmlElement> x=page.getDocumentElement().getHtmlElementsByTagNames(list);

for(int i=0;i<x.size();i++){

HtmlElement element=x.get(i);

if(element.getAttribute("id").equals("blogDetailDiv")){

summary=element.asText();

break;

}

return summary;

}

//遍历HtmlElement集合这里和遍历org.jsoup.select.Elements是一样的道理!

htmlunit-core-js-2.11.jar (986.2 KB)
下载次数: 6

httpclient-4.2.2.jar (418.3 KB)
下载次数: 8

httpcore-4.2.2.jar (218.3 KB)
下载次数: 4

httpmime-4.2.2.jar (26 KB)
下载次数: 1

htmlunit-2.11.jar (1.2 MB)
下载次数: 1

分享到：

Luence全文检索工具 | 通过Js实现高亮显示

2013-08-24 18:41
浏览 1610
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论