网络爬虫读取js生成的页面

wbj0110

浏览: 1645287 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

网络爬虫
Js

网络爬虫 js

还有js逻辑的页面，对网络爬虫的信息抓取工作造成了很大障碍。DOM树，只有执行了js的逻辑才可以完整的呈现。而有的时候，有要对js修改后的 dom树进行解析。在搜寻了大量资料后，发现了一个开源的项目cobra。cobra支持JavaScript引擎，其内置的JavaScript引擎是 mozilla下的 rhino,利用rhino的API，实现了对嵌入在html的JavaScript的解释执行。测试用例：

js.html

<html>
<title>test javascript</title>
<script language="javascript">
var go = function(){
document.getElementById("gg").innerHTML="google";
}
</script>
<body onLoad="javascript:go();">
<a id = "gg" onClick="javascript:go();" href="#">baidu</a>
</body>
</html>

Test.java

package net.cooleagle.test.cobra;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.Reader;
import java.net.URL;
import org.lobobrowser.html.UserAgentContext;
import org.lobobrowser.html.domimpl.HTMLDocumentImpl;
import org.lobobrowser.html.parser.DocumentBuilderImpl;
import org.lobobrowser.html.parser.InputSourceImpl;
import org.lobobrowser.html.test.SimpleUserAgentContext;
import org.w3c.dom.Document;
import org.w3c.dom.Element;
public class Test{
private static final String TEST_URI = "http://localhost/js.html";
public static void main(String[] args) throws Exception {
UserAgentContext uacontext = new SimpleUserAgentContext();
DocumentBuilderImpl builder = new DocumentBuilderImpl(uacontext);
URL url = new URL(TEST_URI);
InputStream in = url.openConnection().getInputStream();
try {
Reader reader = new InputStreamReader(in, "ISO-8859-1");
InputSourceImpl inputSource = new InputSourceImpl(reader, TEST_URI);
Document d = builder.parse(inputSource);
HTMLDocumentImpl document = (HTMLDocumentImpl) d;
Element ele = document.getElementById("gg");
System.out.println(ele.getTextContent());
} finally {
in.close();
}
}
}

执行结果：

google

测试成功。

分享到：

JAVA生成商品条形码（一维码），等比例放大 ... | RStudio Server: Running with a Proxy

2014-01-15 10:41
浏览 1705
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

网络爬虫读取js生成的页面

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

网络爬虫读取js生成的页面

评论

发表评论

相关推荐

【jquery】jquery.cookie.js 的使用指南

【javascript】cookie 基础

Javascript跨域访问解决方案

优雅绝妙的Javascript跨域问题解决方案

JS面向对象教程

Javascript闭包

Javascript 面向对象编程

Jcrop是一个功能强大的图像裁剪引擎

12 款优秀的 JavaScript MVC 框架评估

scrollWidth,clientWidth等区别

八款Js框架介绍及比较

b-s开发中经常用到的javaScript技术

使用JS让链接从新窗口打开

Javascript模板引擎

JS+CSS实现隔行换色

网页文本替换技术

SuperFish一款基于jQuery的级联下拉菜单

前端安全须知(淘宝)

谷歌地图开发入门

基于ip的手机地理定位

最近访客更多访客>>