开始使用 [WWW::Mechanize](http://mechanize.rubyforge.org/mechanize/classes/WWW/Mechanize.html)
—————————
本教程的目的是帮助你开始使用Mechanize。读完这篇教程之后,你将可以抓取页面,点击链接,填写和提交form,抽取数据和其他一些可能有用的事情。此教程仅仅只是涉及到了非常粗浅的功能,但因该已经足够帮助你起步了。
让我们抓取一个页面
—————–
你要做得第一件事情就是在代码里引用mechanize,然后初始化一个新的mechanize实例:
1 2 3 4 |
require 'rubygems' require 'mechanize' agent = WWW::Mechanize .new |
现在我们将使用刚刚创建的agent来抓取一个页面。就拿Google开刀吧:
1 |
page = agent.get ( 'http://google.com/' ) |
发生了什么事情?我们让mechanize去抓取Google的主页。Mechanize会自动存贮相关的cookie,甚至会跟踪Google发过来的自动跳转。Agent会帮我们抓回来一个页面,我们可以用来抽取数据,找到并且点击链接或者填写一个form.
接下来,让我们找一些链接出来点点看。
找到链接
——–
当你抓取页面、提交数据或者提交一个form的时候mechanzie都回返回一个page,agent将会解析抓取到的页面并且把一系列的链接放进page里面。
现在让我们尝试从刚才拿到的google主页上找出所有的链接:
1 2 3 |
page.links .each do | link| puts link.text end |
我们能列出所有的链接,但是mechanize提供了几个更加方便的捷径帮我们找到一个链接并且点击它。假设我们需要找到一个text属性是’News’的链接并且点击。一般来说,我们会这样做:
1 |
page = agent.click page.links .find { | l| l.text == 'News' } |
但是mechanize提供了捷径,所以我们可以这样做:
1 |
page = agent.click page.links .text ( 'News' ) |
这个捷径表示“找到所有text为’News’的链接”。你也许已经想到了“可能存在很多符合这个条件的链接”,没错!如果你把一组链接发送给“click”方法,mechanize只会点击第一个。如果你想要点击第二个,那你应该这样做:
1 |
agent.click page.links .text ( 'News' ) [ 1 ] |
我们甚至可以找到一个包含特定href的链接:
1 |
page.links .href ( '/something' ) |
或者把它们连起来,找到一个包含特定text和href的链接:
1 |
page.links .text ( 'News' ) .href ( '/something' ) |
Mechanize提供的这些捷径可以用在任意一组你找到的东西上面,例如一组frame、iframe或者form。现在你应该已经知道如何找到并且点击链接了,让我们试试更加复杂的事情,比如填写一个form。
填写Form
———
让我们继续Google的例子。当前我们有了一下代码:
1 2 3 4 5 |
require 'rubygems' require 'mechanize' agent = WWW::Mechanize .new page = agent.get ( 'http://google.com/' ) |
如果我们打印这个页面的源代码,就会发现有一个form叫做’f',它包含几个按钮和几个要填写的域:
1 |
pp page |
现在我们知道了这个form的名字,让我们把它抓出来:
1 |
google_form = page.form ( 'f' ) |
Mechanize可以让你通过几种不同的方式访问form里面可以输入的域,但是最方便的方式就是把输入域当作form的一个属性来访问。所以让我们把一个叫做’q'的域的值设置成’ruby mechanize’:
1 |
google_form.q = 'ruby mechanize' |
为了确保我们设置了这个值,让我们打印这个form,然后你应该能看到一行类似的代码:
1 |
#<www::Mechanize::Field:0x1403488 @name="q", @value="ruby mechanize">
|
如果你看到’q'的值变了,说明你成功了!现在我们可以提交这个form,’点击’提交按钮和打印结果:
1 2 |
page = agent.submit ( google_form, google_form.buttons .first ) pp page |
我们刚刚做得事情等同于在google的搜索框里填写了’ruby mechanize’然后点击’Google Search’按钮。如果我们没有点击那个按钮而直接提交form,就等同于填写值之后按回车键。
让我们看看到现在为止写的代码:
1 2 3 4 5 6 7 8 9 |
require 'rubygems' require 'mechanize' agent = WWW::Mechanize .new page = agent.get ( 'http://google.com/' ) google_form = page.form ( 'f' ) google_form.q = 'ruby mechanize' page = agent.submit ( google_form) pp page |
在开始抓抽取数据之前,让我们深入了解一下form。除非你对数据抓取实在感兴趣。
高级form技巧
————
在这一节里,我想试试form里面可能包含的各种输入控件。Password和Textarea可以直接当作text控件来处理。Select非常类似
text,但是它会包含很多相关的子选项。如果你选择了一个option,mechanize会取消其他option的选择(除非允许多选!)。
例如,在一个列表里面选择一个option:
1 |
form.fields .name ( 'list' ) .options [ 0 ] .select |
现在让我们来看看checkbox和radio button。要选择一个checkbox,只需要这样做:
1 |
form.checkboxes .name ( 'box' ) .check |
Radio button和checkbox很像,但是在选择一个radio button之后其他同名的radio button都会被取消选择。像操作checkbox一样操作radio button。
1 |
form.radiobuttons .name ( 'box' ) [ 1 ] .check |
Mechanize同样可以轻易支持文件上传!只需要找到上传文件的控件,然后告诉它你想要上传的文件名:
1 |
form.file_uploads .file_name = "somefile.jpg" |
抽取数据
——–
Mechanize使用hpricot来解析html。这代表了什么?你可以把mechanize的page当作一个hpricot对象。在你用
machanize找到目标页面之后,就可以使用[hpricot](http://code.whytheluckystiff.net
/hpricot/)的方法来抽取上面的任何东西:
1 |
agent.get ( 'http://someurl.com/' ) .search ( "//p[@class='posted']" ) |
更多关于这个强悍的数据抽取器的信息,请参考[HpricotBasics](http://code.whytheluckystiff.net/hpricot/wiki/HpricotBasics).
相关推荐
在这个名为“Mechanize相关资料”的压缩包中,很可能包含了关于如何使用Mechanize库的文档、教程、示例代码以及可能的库更新信息。 Mechanize库的核心功能包括: 1. **页面导航**:可以使用`get()`方法来请求URL,...
- Mechanize 0.2.2,从SourceForge的mechanize项目页面下载。 - BeautifulSoup 3.1.0,从其官方网站下载。 - Mako 0.3.4,从Mako模板的官方网站下载。 2. 浏览器兼容性(WebBrowser) - 本指南指出,任何现代...
这个数据集提供了2010年至2021年间加拿大各省的家庭支出与收入数据,这些数据根据人口统计和地理指标进行了分类。每行代表了年份(REF_DATE)、省份(GEO)以及编码后的支出或收入类型的唯一组合(COORDINATE)。以下是该数据集的关键特点及包含的列信息: 关键特点: 支出数据:家庭支出按照收入五分位数和支出类别进行分类。 收入数据:家庭收入值根据家庭类型、较年长成年人的年龄组别和收入水平细分。 地理位置匿名化:为了保护隐私,原始的地理位置标识符被替换为如“Province 1”这样的标签。 时间序列:涵盖了超过十年的财务数据(2010–2021),适合用于纵向经济和社会趋势分析。 包含的列: REF_DATE:记录年份(2010–2021) GEO:省份标签(例如,“Province 1”) Statistic:度量类型(例如,平均家庭支出) Before-tax household income quintile:税前家庭收入水平分组 Household expenditures, summary-level categories:支出类别 UOM:计量单位 COORD
1.【锂电池剩余寿命预测】GRU门控循环单元锂电池剩余寿命预测(Matlab完整源码和数据) 2.数据集:NASA数据集,已经处理好,B0005电池训练、测试; 3.环境准备:Matlab2023b,可读性强; 4.模型描述:GRU门控循环单元在各种各样的问题上表现非常出色,现在被广泛使用。 5.领域描述:近年来,随着锂离子电池的能量密度、功率密度逐渐提升,其安全性能与剩余使用寿命预测变得愈发重要。本代码实现了GRU门控循环单元在该领域的应用。 6.作者介绍:机器学习之心,博客专家认证,机器学习领域创作者,2023博客之星TOP50,主做机器学习和深度学习时序、回归、分类、聚类和降维等程序设计和案例分析,文章底部有博主联系方式。从事Matlab、Python算法仿真工作8年,更多仿真源码、数据集定制私信。
2000-2024年各省专利侵权案件结案数数据 1、时间:2000-2024年 2、来源:国家知识产权J 3、指标:专利侵权案件结案数 4、范围:31省 5、用途:可用于衡量知识产权保护水平
- 使用`<div>` 容器组织游戏界面,包含得分显示、游戏画布和操作按钮 - 支持三种游戏模式选择(一般模式、困难模式、无敌模式) - 移动端和桌面端兼容,提供触摸和键盘两种控制方式 2. CSS样式 : - 采用Flex布局实现页面居中显示 - 使用Grid布局实现方向按钮的排列 - 定义了游戏容器的阴影、圆角等视觉效果 - 为按钮添加了hover效果和过渡动画 3. JavaScript逻辑 : - 使用Canvas API实现游戏渲染 - 实现了蛇的移动、食物生成、碰撞检测等核心游戏逻辑 - 支持三种游戏模式,不同模式对应不同的游戏速度和规则 - 使用localStorage保存最高分记录 - 实现随机颜色生成,使游戏更具趣味性 代码整体结构清晰,功能完整,具有良好的可扩展性和可维护性。
台区终端电科院送检文档
内容概要:本文详细介绍了一个基于强化学习(RL)的飞机升阻力特性预测模型的实现过程。首先,定义了飞机空气动力学环境,包括状态空间、动作空间以及目标——预测升力系数(Cl)和阻力系数(Cd)。接着,通过生成模拟数据并进行预处理,创建了用于训练的数据集。然后,构建了一个神经网络代理模型,用于联合编码状态和动作,并预测升阻力系数。最后,实现了PPO算法来训练强化学习代理,使其能够根据当前状态选择最优动作,并通过不断迭代提高预测精度。文中还提供了完整的代码实现和详细的注释。 适合人群:航空航天领域的研究人员、机器学习工程师、对强化学习感兴趣的开发者。 使用场景及目标:适用于需要预测飞机升阻力特性的应用场景,如飞行器设计优化、性能评估等。目标是通过强化学习方法提升预测模型的准确性,从而为实际工程提供可靠的理论支持和技术手段。 其他说明:本文不仅涵盖了模型的设计与实现,还包括了数据生成、预处理等多个环节,有助于读者全面理解整个建模过程。同时,提供的代码可以作为研究和开发的基础,方便进一步扩展和改进。
cmock ut aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
lsm6d datasheet
风力发电机传动机构的设计(增速器)
genesys-zu(5ev)配置petalinux(从安装到嵌入)
django自建博客app
Android项目原生java语言课程设计,包含LW+ppt
幼儿园预防肺结核教育培训课件资料
STM32F103RCT6单片机控制气泵和电磁阀的开关 1、气泵和电磁阀的开和关均为开关量,实现控制方法有多种,比如继电器,但是继电器动作有噪声且体积较大,更好的方法为使用mos管。 2、mos管的选型:mos管选择主要注意两个参数即可,一是导通的电流,二是耐压值,并且常用NMOS管,根据要求,气泵和电磁阀供电电压为12V,所以选择的mos管耐压值要大于12V,这里选用耐压值为30V的MOS管,并且导通电流为5.8A。
因文件较多,数据存放网盘,txt文件内包含下载链接及提取码,永久有效。失效会第一时间进行补充。样例数据及详细介绍参见文章:https://blog.csdn.net/T0620514/article/details/146916073
将 Windows 系统中 “C:\windows\fonts” 目录下的所有字体文件
智能量测终端最新标准
滑道式提升机及其控制电路的设计.zip