Gecko(jrex)研究记录 JS AJAX页面内容抓取处理（1）

yy8354

浏览: 80403 次
性别:
来自: 北京

最近访客更多访客>>

zhengwei9994

ideologist

KEYS123456789

whut_chj2016

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎杂类

Ajax 浏览器 Socket Linux Firefox

为了解决JS AJAX网站问题必须一个能够模拟用户操作行为来得到页面上数据的展示，在模拟用户行为上我们需要解决两件事情：
1、得到渲染后的网页HTML代码一般在浏览器中查看页面代码是浏览器直接下载到的页面代码在未经渲染前对于JS AJAX输出的内容是无法得到的这样我们得到的页面内容和直接走socket抓取回来无任何区别还是无法得到需要的页面内容
2、JS函数及页面元素事件的调用这些很简单都是依靠用户的EVENT去驱动的，而我们通过SOCKET抓取页面对我们只是流而已无法去模拟用户的EVENT 没有这些EVENT 页面上需要EVENT驱动而展现的内容连显示都不可能更无从抓取了

在windows下通过WEBBROWSER控件，我们能很简单的解决以上两个问题，但LINUX下暂时只能依赖于FIREFOX内核GECKO想办法了。由于使用JAVA作为开发语言，我们使用了JREX的JAR包，它包装了GECKO的DLL进行本地化调用，可以使我们直接使用JAVA语言来使用GECKO。

核心部分就是对通过JRexCanvas得到一个Document对象转换为DocumentRange然后利用它自带的方法createRange得到渲染后的页面内容（如果熟悉WEBBROWSER的同志们会发现基本很多类名方法名很相似，不过就是JREX缺乏文档只能自己瞎折腾了）

Document doc =navigation.getDocument();
DocumentRange range=((org.mozilla.jrex.dom.JRexDocumentImpl)doc).getDocumentRange();
System.out.println(xmlToString(range.createRange().getCommonAncestorContainer())); 与WEBBROWSER不同没有createTXTRange()方法来直接得到纯的HTML文本，所以只能得到NODE 然后自己去处理

辅助函数用来输出NODE：

public static String xmlToString(Node node) throws Exception {

Source source = new DOMSource(node);

StringWriter stringWriter = new StringWriter();

Result result = new StreamResult(stringWriter);

TransformerFactory factory = TransformerFactory.newInstance();

Transformer transformer = factory.newTransformer();

transformer.setOutputProperty(OutputKeys.METHOD, "html");

transformer.transform(source, result);

return stringWriter.getBuffer().toString();

}

分享到：

Gecko(jrex)研究记录 JS AJAX页面内容抓取 ... | 目前主要的开源索引库列表

2009-04-09 09:20
浏览 7995
评论(7)
查看更多

7 楼 xiang861206 2011-03-04

用navigation.loadURI()加载时，要是https协议的就不行

6 楼 mashimaro 2010-03-11

希望能得到解答谢谢

5 楼 mashimaro 2010-03-11

这是什么原因啊
public void onStateChange(ProgressEvent event) {
if (!event.isLoadingDocument()) {
if (done)
return;
done = true;
}
}
这段代码中，怎么判断浏览器是否加载完啊 event.isLoadingDocument这个方法的原理是什么

4 楼 mashimaro 2010-03-11

我看到浏览器中由JS动态生成的一部分内容也没显示出来

3 楼 mashimaro 2010-03-11

你好这个程序是不是说等页面内的所有JS都加载完后生成了HTML后可获得的源码啊但是为什么我得到的仍然是静态的源码呢

2 楼 yy8354 2009-04-22

这里只是得到渲染后的代码不代表任何动态信息都能得到首先这部分信息必须会被渲染同时渲染以后生成了HTML代码你才可能获取
比如说是鼠标移动到上面才显示的内容首先你得保证它先显示出来显示出来的时候浏览器才等于渲染出了这个内容这时候获取渲染后代码才能得到它的内容所以第二篇研究的就是怎么调用DOM元素的事件响应这样可以模拟用户操作来让浏览器进行JS处理和对应HTML渲染

1 楼 cynthia2009 2009-04-20

最近在学习您讲的这个方法，但是我调通之后，动态信息返回值仍然为空，还在研究中。
不知道您是否遇到此种情况，但愿能得您点播一下。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论