Selenium2.41.0—获取动态资源

ShihLei

浏览: 340952 次
性别:
来自: 北京

最近访客更多访客>>

webinweb

xiaomabobo

我怀念的不过是镜花水月

meixianping

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

HttpFetcher

Selenium2.41.0 Selenium 动态网页 JS处理之后的网页

编写不易，转载请注明（http://shihlei.iteye.com/blog/2067716）！

一概述

获取动态资源，可以使用HtmlUnit，但是其对JS的支持还是不够完善。相对与HtmlUnit还有一种驱动浏览器的下载还原工具Selenium。可以打开浏览器，获取网页，下载解析，支持dom，js，解析效果更好，但是打开浏览器速度方面有一定损失。个人实验，禁用CSS，图片下载，速度还尚可。

Selenium也是自动化测试工具，支持驱动不同的浏览器，Firefox，IE，Chrome等，也包含HtmlUnit提供的驱动实现。

本文描述Selenium驱动Firefox，请求响应，设置cookies，驱动JS等方法，用他登录某主流weibo还是不错的。

二版本

<dependency>
	<groupId>org.seleniumhq.selenium</groupId>
	<artifactId>selenium-java</artifactId>
	<version>2.41.0</version>
</dependency>

三典型应用

1）打开Google，搜索baidu

可以看到Firefox从打开，填写表单，到提交打开新页面过程。

/**
 * 打开google搜索百度
 * 
 * @param queryStr
 */
public static void demo() {
	String url = "http://www.google.com.hk";

	WebDriver webDriver = new FirefoxDriver();
	// 打开google
	webDriver.get(url);

	// 使用Selenium的dom模型获取form
	WebElement webElement = webDriver.findElement(By.name("q"));
	webElement.sendKeys("baidu");
	webElement.submit();

	// 通过判断 title 内容等待搜索页面加载完毕，Timeout 设置10秒

	(new WebDriverWait(webDriver, 100)).until(new ExpectedCondition<Boolean>() {
		public Boolean apply(WebDriver d) {
			return d.getTitle().toLowerCase().indexOf("baidu") != -1;
		}
	});

	String responseBody = webDriver.getPageSource();
	System.out.println("Response : " + responseBody);

	// 关闭浏览器
	webDriver.close();
}

2）获取动态网页

与下面的请求响应一样，打开页面等待加载完毕即可，JS填充页面，AJAX都OK。

四样例

（1）请求响应

public static void main(String[] args) throws Exception {
	String url = "http://www.google.com";
	WebDriver webDriver = new FirefoxDriver();
	// 打开google
	webDriver.get(url);
        String responseBody = webDriver.getPageSource();  
        System.out.println("Response : " + responseBody);  
	webDriver.quit();
}

（2）配置不加载资源

/**
 * 获得不加载 css，图片，flash的浏览器
 * @return
 */
public WebDriver getNoResouceWebDriver(){
	FirefoxProfile firefoxProfile = new FirefoxProfile();
	// 去掉css
	firefoxProfile.setPreference("permissions.default.stylesheet", 2);
	// 去掉图片
	firefoxProfile.setPreference("permissions.default.image", 2);
	// 去掉flash
	firefoxProfile.setPreference("dom.ipc.plugins.enabled.libflashplayer.so", false);
	return new FirefoxDriver(firefoxProfile);
}

（3）配置Firefox路径

启动报找不到Firefox的时候可以使用：System.setProperty("webdriver.firefox.bin", firefoxPath)

（4）Cookies

1）设置Cookies

public void setCookies(WebDriver,webDriver,Map<String, String> cookies) {
	if (cookies != null && cookies.size() > 0) {
		for (Entry<String, String> c : cookies.entrySet()) {
			Cookie cookie = new Cookie(c.getKey(), c.getValue());
			webDriver.manage().addCookie(cookie);

			System.out.println("Set Cookies : " + c.getKey() + " | " + c.getValue());
		}
	}
}

2）获取响应Cookies

public Map<String,String> getCookies(WebDriver webDriver){
	Set<Cookie> cookies = webDriver.manage().getCookies();
	Map<String, String> responseCookies = new HashMap<String,String>();
	for (Cookie c : cookies) {
		responseCookies.put(c.getName(), c.getValue());
	}
	
	return responseCookies;
}

3）清理Cookies

/**
 * 清除所有cookie
 */
public void clearCookies(WebDriver webDriver) {
	webDriver.manage().deleteAllCookies();
}

（5）驱动JS

Selenium 的Dom对不可见的Element（html有但是CSS属性为不显示等）找不到，这时候使用JS操作和提交是个不错的选择：

public void doWeb(WebDriver webDriver) {
	StringBuilder js = new StringBuilder();
	js.append("document.getElementsByName('username')[1].value='").append(WeiboAccount.USERNAME)
			.append("';");
	js.append("document.getElementsByName('password')[1].value='").append(WeiboAccount.PASSWORD)
			.append("';");
	js.append("document.getElementsByClassName('W_btn_g')[1].click();");
	((JavascriptExecutor) webDriver).executeScript(js.toString());

	(new WebDriverWait(webDriver, 100)).until(new ExpectedCondition<Boolean>() {
		public Boolean apply(WebDriver d) {
			return d.getTitle().indexOf("我的首页") != -1;
		}
	});
}

分享到：

Zookeeper功能及应用场景 | HtmlUnit2.14使用样例—获取动态网页

2014-05-17 21:18
浏览 3353
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

htmlunit-2.41.0-bin 官方包: 2. **资源消耗**：不需要图形界面，占用系统资源少。 3. **自动化测试**：提供了丰富的API，可以方便地编写测试脚本，适用于单元测试和集成测试。 4. **JavaScript支持**：内嵌了Rhino JavaScript引擎，可以处理复杂...

MATLAB实现基于LSTM-AdaBoost长短期记忆网络结合AdaBoost时间序列预测（含模型描述及示例代码）: 内容概要：本文档详细介绍了基于 MATLAB 实现的 LSTM-AdaBoost 时间序列预测模型，涵盖项目背景、目标、挑战、特点、应用领域以及模型架构和代码示例。随着大数据和AI的发展，时间序列预测变得至关重要。传统方法如 ARIMA 在复杂非线性序列中表现欠佳，因此引入了 LSTM 来捕捉长期依赖性。但 LSTM 存在易陷局部最优、对噪声鲁棒性差的问题，故加入 AdaBoost 提高模型准确性和鲁棒性。两者结合能更好应对非线性和长期依赖的数据，提供更稳定的预测。项目还展示了如何在 MATLAB 中具体实现模型的各个环节。适用人群：对时间序列预测感兴趣的开发者、研究人员及学生，特别是有一定 MATLAB 编程经验和熟悉深度学习或机器学习基础知识的人群。使用场景及目标：①适用于金融市场价格预测、气象预报、工业生产故障检测等多种需要时间序列分析的场合；②帮助使用者理解并掌握将LSTM与AdaBoost结合的实现细节及其在提高预测精度和抗噪方面的优势。其他说明：尽管该模型有诸多优点，但仍存在训练时间长、计算成本高等挑战。文中提及通过优化数据预处理、调整超参数等方式改进性能。同时给出了完整的MATLAB代码实现，便于学习与复现。

palkert_3ck_01_0918.pdf: palkert_3ck_01_0918

pepeljugoski_01_1106.pdf: pepeljugoski_01_1106

tatah_01_1107.pdf: tatah_01_1107

[AB PLC例程源码][MMS_046393]Motor Speed Reference.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

基于51的步进电机控制系统20250302: 题目：基于单片机的步进电机控制系统模块：主控：AT89C52RC 步进电机（ULN2003驱动）按键（3个）蓝牙（虚拟终端模拟）功能： 1、可以通过蓝牙远程控制步进电机转动 2、可以通过按键实现手动与自动控制模式切换。 3、自动模式下，步进电机正转一圈，反转一圈，循环 4、手动模式下可以通过按键控制步进电机转动（顺时针和逆时针）

[AB PLC例程源码][MMS_041234]Logix Fault Handler.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

[AB PLC例程源码][MMS_042348]Using an Ultra3000 as an Indexer on DeviceNet with a CompactLogix.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

智慧校园平台建设全流程详解：从需求到持续优化: 内容概要：本文详细介绍了建设智慧校园平台所需的六个关键步骤。首先通过需求分析深入了解并确定校方和使用者的具体需求；其次是规划设计阶段，依据所得需求制定全面的建设方案。再者是对现有系统的整合——系统集成，确保新旧平台之间的互操作性和数据一致性。培训支持帮助全校教职工和学生快速熟悉新平台，提高效率。实施试点确保系统逐步稳定部署。最后，强调持续改进的重要性，以适应技术和环境变化。通过这一系列有序的工作，可以使智慧校园建设更为科学高效，减少失败风险。适用人群：教育领域的决策者和技术人员，包括负责信息化建设和运维的团队成员。使用场景及目标：用于指导高校和其他各级各类学校规划和发展自身的数字校园生态链；目的是建立更加便捷高效的现代化管理模式和服务机制。其他说明：智慧校园不仅仅是简单的IT设施升级或软件安装，它涉及到全校范围内的流程再造和创新改革。

AI淘金实战手册：100+高收益变现案例解析: 该文档系统梳理了人工智能技术在商业场景中的落地路径，聚焦内容生产、电商运营、智能客服、数据分析等12个高潜力领域，提炼出100个可操作性变现模型。内容涵盖AI工具开发、API服务收费、垂直场景解决方案、数据增值服务等多元商业模式，每个思路均配备应用场景拆解、技术实现路径及收益测算框架。重点呈现低代码工具应用、现有平台流量复用、细分领域自动化改造三类轻量化启动方案，为创业者提供从技术选型到盈利闭环的全流程参考。

palkert_3ck_02_0719.pdf: palkert_3ck_02_0719

2006-2023年地级市-克鲁格曼专业化指数.zip: 克鲁格曼专业化指数，最初是由Krugman于1991年提出，用于反映地区间产业结构的差异，也被用来衡量两个地区间的专业化水平，因而又称地区间专业化指数。该指数的计算公式及其含义可以因应用背景和具体需求的不同而有所调整，但核心都是衡量地区间的产业结构差异或专业化程度。指标年份、城市、第一产业人数（first_industry1）、第二产业人数（second_industry1）、第三产业人数（third_industry1）、专业化指数（ksi）。

[AB PLC例程源码][MMS_046305]R2FX.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

精品推荐-通信技术LTE干货资料合集（19份）.zip: 精品推荐，通信技术LTE干货资料合集，19份。 LTE PCI网络规划工具.xlsx LTE-S1切换占比专题优化分析报告.docx LTE_TDD问题定位指导书-吞吐量篇.docx LTE三大常见指标优化指导书.xlsx LTE互操作邻区配置核查原则.docx LTE信令流程详解指导书.docx LTE切换问题定位指导一（定位思路和问题现象）.docx LTE劣化小区优化指导手册.docx LTE容量优化高负荷小区优化指导书.docx LTE小区搜索过程学习.docx LTE小区级与邻区级切换参数说明.docx LTE差小区处理思路和步骤.docx LTE干扰日常分析介绍.docx LTE异频同频切换.docx LTE弱覆盖问题分析与优化.docx LTE网优电话面试问题-应答技巧.docx LTE网络切换优化.docx LTE高负荷小区容量优化指导书.docx LTE高铁优化之多频组网优化提升“用户感知，网络价值”.docx

matlab程序代码项目案例：matlab程序代码项目案例matlab中Toolbox中带有的模型预测工具箱.zip: matlab程序代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！