网页抓取之新方法 (在java程序中使用jQuery)

Mybeautiful

浏览: 300927 次
性别:
来自: 武汉

最近访客更多访客>>

choulisa

wgx19830922

zpf82118

lgl4223939

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java 综合

爬虫网页抓取 Rhino javascript

你想要的任何信息，基本上在互联网上存在了，问题是如何把它们整理成你所需要的，比如在某个行业网站上抓取所有相关公司的的名字，联系电话，Email等，然后存到Excel里面做分析。网页信息抓取变得原来越有用了。

一般传统的网页，web服务器直接返回Html，这类网页很好抓，不管是用何种方式，只要得到html页面，然后做Dom解析就可以了。但对于需要Javascript生成的网页，就不那么容易了。张瑜目前也没有找到好办法解决此问题。各位有抓javascript网页经验的朋友，欢迎指点。

所以今天要谈的还是传统html网页的信息抓取。虽然前面说了，没有技术难度，但是是否能有相对更容易的方法呢？用过jQuery等js框架的朋友，可能都会觉得javascript貌似抓取网页信息的天然助手，而且其出生就是为了网页解析而存在的。当然现在有更多的应用了，如Server端的javascript应用，NodeJs.

如果能在我们的应用程序，如java程序中，能使用jQuery去抓网页，绝对是件激动人心的事情。确实有现成的解决方案，一个Javascript引擎，一个能支撑jQuery运行的环境就可以了。

工具 : java, Rhino, envJs. 其中 Rhino是Mozzila提供的开源Javascript引擎，envJs是一个模拟浏览器额环境，如Window等。代码如下，

package stony.zhang.scrape;


import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.lang.reflect.InvocationTargetException;

import org.mozilla.javascript.Context;
import org.mozilla.javascript.ContextFactory;
import org.mozilla.javascript.Scriptable;
import org.mozilla.javascript.ScriptableObject;

/**
 * @author MyBeautiful
 * @Emal: zhangyu0182@sina.com
 * @date Mar 7, 2012
 */
public class RhinoScaper {
	private String url;
	private String jsFile;

	private Context cx;
	private Scriptable scope;

	public String getUrl() {
		return url;
	}

	public String getJsFile() {
		return jsFile;
	}

	public void setUrl(String url) {
		this.url = url;
		putObject("url", url);
	}

	public void setJsFile(String jsFile) {
		this.jsFile = jsFile;
	}

	public void init() {
		cx = ContextFactory.getGlobal().enterContext();
		scope = cx.initStandardObjects(null);
		cx.setOptimizationLevel(-1);
		cx.setLanguageVersion(Context.VERSION_1_5);

		String[] file = { "./lib/env.rhino.1.2.js", "./lib/jquery.js" };
		for (String f : file) {
			evaluateJs(f);
		}
		
		try {
			ScriptableObject.defineClass(scope, ExtendUtil.class);
		} catch (IllegalAccessException e1) {
			e1.printStackTrace();
		} catch (InstantiationException e1) {
			e1.printStackTrace();
		} catch (InvocationTargetException e1) {
			e1.printStackTrace();
		}
		ExtendUtil util = (ExtendUtil) cx.newObject(scope, "util");
		scope.put("util", scope, util);
	}

	protected void evaluateJs(String f) {
		try {
			FileReader in = null;
			in = new FileReader(f);
			cx.evaluateReader(scope, in, f, 1, null);
		} catch (FileNotFoundException e1) {
			e1.printStackTrace();
		} catch (IOException e1) {
			e1.printStackTrace();
		}
	}

	public void putObject(String name, Object o) {
		scope.put(name, scope, o);
	}

	public void run() {
		evaluateJs(this.jsFile);
	}
}

测试代码：

package stony.zhang.scrape;

import java.util.HashMap;
import java.util.Map;

import junit.framework.TestCase;

public class RhinoScaperTest extends TestCase {

	public RhinoScaperTest(String name) {
		super(name);
	}

	public void testRun() {
		RhinoScaper rs = new RhinoScaper();
		rs.init();
		rs.setUrl("http://www.baidu.com");
		rs.setJsFile("test.js");
//		Map<String, String> o = new HashMap<String, String>();
//		rs.putObject("result", o);
		rs.run();
//		System.out.println(o.get("imgurl"));
	}

}

test.js文件，如下

$.ajax({
  url: "http://www.baidu.com",
  context: document.body,
  success: function(data){
 //   util.log(data);
    
    var result =parseHtml(data);
    
    var $v= jQuery(result);
 //   util.log(result);
    $v.find('#u a').each(function(index) {
         util.log(index + ': ' + $(this).attr("href"));
  //        arr.add($(this).attr("href"));
    });
  }
});


 function parseHtml(html) {
       //Create an iFrame object that will be used to render the HTML in order to get the DOM objects
        //created - this is a far quicker way of achieving the HTML to DOM conversion than trying
        //to transform the HTML objects one-by-one
         var oIframe = document.createElement('iframe');
     //Hide the iFrame from view
         oIframe.style.display = 'none';
         if (document.body)
            document.body.appendChild(oIframe);
        else
            document.documentElement.appendChild(oIframe);
        
        //Open the iFrame DOM object and write in our HTML
        oIframe.contentDocument.open();
        oIframe.contentDocument.write(html);
        oIframe.contentDocument.close();
    
        //Return the document body object containing the HTML that was just
        //added to the iFrame as DOM objects
        var oBody = oIframe.contentDocument.body;
    
        //TODO: Remove the iFrame object created to cleanup the DOM
    
        return oBody;
    }

我们执行Unit Test，将会在控制台打印从网页上抓取的三个baidu的连接，

0: http://www.baidu.com/gaoji/preferences.html
1: http://passport.baidu.com/?login&tpl=mn
2: https://passport.baidu.com/?reg&tpl=mn

测试成功，故证明在java程序中用jQuery抓取网页是可行的.

----------------------------------------------------------------------

张瑜，Mybeautiful , zhangyu0182@sina.com

Java学习这七年  如何阅读源代码 我应该做的更差吗？

Rhino-test.zip (2 MB)
下载次数: 397

查看图片附件

4
顶

3
踩

分享到：

如何抓取需要验证码的网页？ | 节日重定义

2012-03-07 13:57
浏览 11709
评论(8)
分类:编程语言
查看更多

8 楼 Mybeautiful 2014-11-04

hanjiangit 写道

青峰大辉写道

你好，整个工程直接运行报错：
Exception in thread "main" org.mozilla.javascript.EvaluatorException: uncaught JavaScript runtime exception: ReferenceError: "util" is not defined. (./js/pair.js#3)

受累看下。

同问，楼主

我刚才测试了下，没有发现你们说的问题；附上我测试图片。我用的jdk1.7;不知是否有关。

7 楼 hanjiangit 2014-11-04

青峰大辉写道

同问，楼主

6 楼青峰大辉 2014-07-02

5 楼 Mybeautiful 2013-03-19

sbear 写道

楼主可以提供一下源码吗

389331837 写道

代码有错 ExtendUtil 这个类是在那里定义的呢？

yxzkm 写道

嗯，不错！不过，请看一下jsoup，似乎在服务端就能解决dom的遍历问题

对不起没有及时回复，已经把整个项目附上了，大家试试看。

4 楼 yxzkm 2013-02-05

嗯，不错！不过，请看一下jsoup，似乎在服务端就能解决dom的遍历问题

3 楼 sbear 2013-01-23

楼主可以提供一下源码吗

2 楼 389331837 2012-11-21

代码有错 ExtendUtil 这个类是在那里定义的呢？

1 楼 Mybeautiful 2012-03-09

补充一下，
经过研究，如果Rhino能结合jsdom那将能解决javascript的问题，就如同node.js一样。有相关经验的朋友，提示一下。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

外加热强制循环蒸发器装配图（CAD).rar: 外加热强制循环蒸发器装配图（CAD).rar

数控车床纵向进给系统设计.zip: 数控车床纵向进给系统设计.zip

vault_side_off_ominous.png: j

爬虫 bangumi名称和评论数: 爬虫 bangumi名称和评论数

基于SpringBoot的垃圾分类回收系统(源码+数据库+万字文档)526: 基于SpringBoot的垃圾分类回收系统，系统包含两种角色：管理员、用户主要功能如下。【用户功能】首页：浏览垃圾分类回收系统信息。个人中心：管理个人信息，查看历史记录和订单状态。运输管理：查看运输信息，垃圾回收的时间和地点。公告管理：阅读系统发布的相关通知和公告。垃圾回收管理：查看垃圾回收的信息，回收类型和进度。垃圾出库申请管理：提交和查看垃圾出库申请的状态。【管理员功能】首页：查看垃圾分类回收系统。个人中心：管理个人信息。管理员管理：审核和管理注册管理员用户的信息。用户管理：审核和管理注册用户的信息。运输管理：监管和管理系统中的运输信息。公告管理：发布、编辑和删除系统的通知和公告。垃圾回收管理：监管和管理垃圾回收的信息。垃圾出库申请管理：审批和管理用户提交的垃圾出库申请。基础数据管理：管理系统的基础数据，运输类型、公告类型和垃圾回收类型。二、项目技术编程语言：Java 数据库：MySQL 项目管理工具：Maven 前端技术：Vue 后端技术：SpringBoot 三、运行环境操作系统：Windows、macOS都可以 JDK版本：JDK1.8以上都可以开发工具：IDEA、Ecplise、Myecplise都可以数据库: MySQL5.7以上都可以 Maven：任意版本都可以

这篇文章是台湾大学（NTU）计算机科学与信息工程系（CSIE）2021年秋季学期算法设计与分析课程的第一份作业（Homework#1）的具体要求和题目描述以下是主要内容的总结：: 内容概要：本文档是台湾大学计算机科学与信息工程系2021年秋季学期《算法设计与分析》课程的第一次作业（Homework#1）。作业包含四道编程题和三道手写题，旨在考察学生对算法设计和分析的理解与应用能力。编程题涉及汉诺塔、数组计算、矩形点对、糖果分配等问题；手写题涵盖渐近符号证明、递归方程求解、幽灵腿游戏优化、不公平的卢卡斯问题等。文档详细描述了每个问题的具体要求、输入输出格式、测试用例以及评分标准。此外，还提供了编程技巧和注意事项，如避免延迟提交、正确引用资料、处理大输入文件等。适合人群：具备一定编程基础的本科生或研究生，特别是修读过或正在修读算法设计与分析相关课程的学生。使用场景及目标：①帮助学生巩固课堂所学的算法理论知识；②通过实际编程练习提高解决复杂问题的能力；③为后续更深入的学习和研究打下坚实的基础。其他说明：此作业强调团队合作和个人独立思考相结合的重要性，鼓励学生在讨论后用自己的语言表达解决方案，并注明参考资料。对于编程题，特别提醒学生注意输入文件可能较大，建议采取适当的优化措施以确保程序运行效率。

基于SpringBoot的铁路订票管理系统(源码+数据库+万字文档+ppt)528: 基于SpringBoot的铁路订票管理系统，系统包含两种角色：管理员、用户主要功能如下。【用户功能】首页：浏览铁路订票管理系统的主要信息。火车信息：查看火车的相关信息，包括车次、出发地、目的地和票价等。公告资讯：阅读系统发布的相关通知和资讯。后台管理：进行系统首页、个人中心、车票预订管理、车票退票管理等操作。个人中心：管理个人信息，查看订单历史记录等。【管理员功能】首页：查看铁路订票管理系统。个人中心：修改密码、管理个人信息。用户管理：审核和管理注册用户的信息。火车类型管理：管理系统中的火车类型信息。火车信息管理：监管和管理系统中的火车信息，添加、编辑、删除等。车票预订管理：处理用户的车票预订请求。车票退票管理：处理用户的车票退票请求。系统管理：管理系统的基本设置，公告资讯、关于我们、系统简介和轮播图管理。二、项目技术编程语言：Java 数据库：MySQL 项目管理工具：Maven 前端技术：Vue 后端技术：SpringBoot 三、运行环境操作系统：Windows、macOS都可以 JDK版本：JDK1.8以上都可以开发工具：IDEA、Ecplise、Myecplise都可以数据库: MySQL5.7以上都可以 Maven：任意版本都可以

塑料架注射模具设计.rar: 塑料架注射模具设计.rar

基于json文件数据驱动的的接口测试框架.zip: 基于json文件数据驱动的的接口测试框架

铁丝缠绕包装机设计-缠绕盘设计.rar: 铁丝缠绕包装机设计-缠绕盘设计.rar

Linux操作系统及常用命令详解.zip: linux

圆柱体相贯线焊接专机工作台设计.rar: 圆柱体相贯线焊接专机工作台设计.rar

硬币分拣机设计.rar: 硬币分拣机设计.rar

【机器学习与数据挖掘】行业级机器学习软件开发经验与教训：从LIBSVM和LIBLINEAR看算法部署及软件设计挑战: 内容概要：本文探讨了开发行业级机器学习和数据挖掘软件的经验与教训，指出当前研究界与工业界之间的脱节问题。作者分享了开发LIBSVM和LIBLINEAR的经验，强调了用户需求的重要性。大多数用户并非机器学习专家，期望简单易用的工具来获得良好结果。文章还详细介绍了支持向量机（SVM）的实际应用案例，包括数据预处理（如特征缩放）、参数选择等步骤，并提出了为初学者设计的简易流程。此外，作者讨论了在设计机器学习软件时应考虑的功能选择、选项数量、性能优化与数值稳定性等问题，强调了软件开发与实验代码的区别以及鼓励研究人员参与高质量软件开发的重要性。适合人群：对机器学习软件开发感兴趣的科研人员、工程师及从业者，尤其是那些希望了解如何将学术研究成果转化为实际可用工具的人士。使用场景及目标：①帮助非机器学习专家的用户更好地理解和使用机器学习方法；②指导开发者在设计机器学习软件时考虑用户需求、功能选择、性能优化等方面的问题；③促进学术界与工业界之间的合作，推动高质量机器学习软件的发展。其他说明：本文不仅提供了具体的开发经验和技巧，还呼吁建立激励机制，鼓励更多研究人员投入到机器学习软件的开发中，以解决当前存在的研究与应用脱节的问题。

pandas学习代码，jypyter格式: 一天入门pandas代码

joblib-0.12.0-py2.py3-none-any.whl: 该资源为joblib-0.12.0-py2.py3-none-any.whl，欢迎下载使用哦！

深度学习基于PyTorch==2.6.0和Transformers==4.48.0的XTuner环境配置：AI模型开发与优化依赖库列表: 内容概要：本文档《xtuner_requirements.txt》列出了用于支持特定项目（可能是机器学习或深度学习项目）运行所需的所有Python包及其版本。其中不仅包括常见的数据处理和科学计算库如numpy、pandas，还包括了与深度学习密切相关的库如torch、transformers等。值得注意的是，文档中还特别指定了NVIDIA CUDA相关组件的具体版本，确保了GPU加速环境的一致性和兼容性。此外，文档中也包含了从GitHub直接安装的xtuner库，明确了具体的提交哈希值，保证了代码来源的精确性。适合人群：对机器学习、深度学习领域有一定了解并需要搭建相应开发环境的研发人员，尤其是那些希望复现特定实验结果或基于已有模型进行二次开发的研究者和技术爱好者。使用场景及目标：①帮助开发者快速搭建完整的开发环境，确保所有依赖项正确无误；②为研究人员提供一个稳定的实验平台，以便于重复实验和验证结果；③作为项目协作的基础，确保团队成员之间的环境一致性，减少因环境差异带来的问题。阅读建议：由于该文档主要为技术性依赖列表，在阅读时应重点关注所需安装的库及其版本号，特别是CUDA相关组件和自定义库（如xtuner）的安装方式。对于非技术人员而言，可能需要额外查阅相关资料来理解各库的作用。同时，在实际操作过程中，建议按照文档中的顺序逐一安装依赖，避免版本冲突等问题的发生。

vault_side_on_ominous.png: j

液氮带控制点工艺流程图.rar: 液氮带控制点工艺流程图.rar

joblib-0.9.4-py2.py3-none-any.whl: 该资源为joblib-0.9.4-py2.py3-none-any.whl，欢迎下载使用哦！

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论