WWW：：Mechanize使用手册

kankan1218

浏览: 279858 次
性别:
来自: 大连

最近访客更多访客>>

jialong520

Ahkam

leimingchao

xx5333

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

perl

Google Ruby rubygems .net F#

Mechanize使用手册（翻译）。

http://blog.codingmylife.com/?p=51

1,715 views, Ruby , by Allen Dang.

开始使用 [WWW::Mechanize](http://mechanize.rubyforge.org/mechanize/classes/WWW/Mechanize.html)
—————————
本教程的目的是帮助你开始使用Mechanize。读完这篇教程之后，你将可以抓取页面，点击链接，填写和提交form，抽取数据和其他一些可能有用的事情。此教程仅仅只是涉及到了非常粗浅的功能，但因该已经足够帮助你起步了。
让我们抓取一个页面
—————–
你要做得第一件事情就是在代码里引用mechanize，然后初始化一个新的mechanize实例：

require
 'rubygems'

require
 'mechanize'

 
agent = WWW::Mechanize
.new

现在我们将使用刚刚创建的agent来抓取一个页面。就拿Google开刀吧：

1	page = agent.get ( 'http://google.com/' )

发生了什么事情？我们让mechanize去抓取Google的主页。Mechanize会自动存贮相关的cookie，甚至会跟踪Google发过来的自动跳转。Agent会帮我们抓回来一个页面，我们可以用来抽取数据，找到并且点击链接或者填写一个form.

接下来，让我们找一些链接出来点点看。
找到链接
——–
当你抓取页面、提交数据或者提交一个form的时候mechanzie都回返回一个page，agent将会解析抓取到的页面并且把一系列的链接放进page里面。
现在让我们尝试从刚才拿到的google主页上找出所有的链接：

1
2
3

page.links
.each
 do
 |
link|

  puts
 link.text

end

我们能列出所有的链接，但是mechanize提供了几个更加方便的捷径帮我们找到一个链接并且点击它。假设我们需要找到一个text属性是’News’的链接并且点击。一般来说，我们会这样做：

1	page = agent.click page.links .find { \| l\| l.text == 'News' }

但是mechanize提供了捷径，所以我们可以这样做：

1	page = agent.click page.links .text ( 'News' )

这个捷径表示“找到所有text为’News’的链接”。你也许已经想到了“可能存在很多符合这个条件的链接”，没错！如果你把一组链接发送给“click”方法，mechanize只会点击第一个。如果你想要点击第二个，那你应该这样做：

1	agent.click page.links .text ( 'News' ) [ 1 ]

我们甚至可以找到一个包含特定href的链接：

1	page.links .href ( '/something' )

或者把它们连起来，找到一个包含特定text和href的链接：

1	page.links .text ( 'News' ) .href ( '/something' )

Mechanize提供的这些捷径可以用在任意一组你找到的东西上面，例如一组frame、iframe或者form。现在你应该已经知道如何找到并且点击链接了，让我们试试更加复杂的事情，比如填写一个form。
填写Form
———
让我们继续Google的例子。当前我们有了一下代码：

require
 'rubygems'

require
 'mechanize'

 
agent = WWW::Mechanize
.new

page = agent.get
(
'http://google.com/'
)

如果我们打印这个页面的源代码，就会发现有一个form叫做’f'，它包含几个按钮和几个要填写的域：

pp page

现在我们知道了这个form的名字，让我们把它抓出来：

1	google_form = page.form ( 'f' )

Mechanize可以让你通过几种不同的方式访问form里面可以输入的域，但是最方便的方式就是把输入域当作form的一个属性来访问。所以让我们把一个叫做’q'的域的值设置成’ruby mechanize’:

1	google_form.q = 'ruby mechanize'

为了确保我们设置了这个值，让我们打印这个form，然后你应该能看到一行类似的代码：

1	#<www::Mechanize::Field:0x1403488 @name="q", @value="ruby mechanize">

如果你看到’q'的值变了，说明你成功了！现在我们可以提交这个form，’点击’提交按钮和打印结果：

1 2	page = agent.submit ( google_form, google_form.buttons .first ) pp page

我们刚刚做得事情等同于在google的搜索框里填写了’ruby mechanize’然后点击’Google Search’按钮。如果我们没有点击那个按钮而直接提交form，就等同于填写值之后按回车键。
让我们看看到现在为止写的代码：

require
 'rubygems'

require
 'mechanize'

 
agent = WWW::Mechanize
.new

page = agent.get
(
'http://google.com/'
)

google_form = page.form
(
'f'
)

google_form.q
 = 'ruby mechanize'

page = agent.submit
(
google_form)

pp page

在开始抓抽取数据之前，让我们深入了解一下form。除非你对数据抓取实在感兴趣。
高级form技巧
————
在这一节里，我想试试form里面可能包含的各种输入控件。Password和Textarea可以直接当作text控件来处理。Select非常类似 text，但是它会包含很多相关的子选项。如果你选择了一个option，mechanize会取消其他option的选择（除非允许多选！）。
例如，在一个列表里面选择一个option：

1	form.fields .name ( 'list' ) .options [ 0 ] .select

现在让我们来看看checkbox和radio button。要选择一个checkbox，只需要这样做：

1	form.checkboxes .name ( 'box' ) .check

Radio button和checkbox很像，但是在选择一个radio button之后其他同名的radio button都会被取消选择。像操作checkbox一样操作radio button。

1	form.radiobuttons .name ( 'box' ) [ 1 ] .check

Mechanize同样可以轻易支持文件上传！只需要找到上传文件的控件，然后告诉它你想要上传的文件名：

1	form.file_uploads .file_name = "somefile.jpg"

抽取数据
——–
Mechanize使用hpricot来解析html。这代表了什么？你可以把mechanize的page当作一个hpricot对象。在你用 machanize找到目标页面之后，就可以使用[hpricot](http://code.whytheluckystiff.net /hpricot/)的方法来抽取上面的任何东西：

1	agent.get ( 'http://someurl.com/' ) .search ( "//p[@class='posted']" )

更多关于这个强悍的数据抽取器的信息，请参考[HpricotBasics](http://code.whytheluckystiff.net/hpricot/wiki/HpricotBasics).

分享到：

perl模块推介 | 用LWP简单编写WEB访问的应用 ----需要登 ...

2010-10-26 09:57
浏览 1959
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Mechanize相关资料: 在这个名为“Mechanize相关资料”的压缩包中，很可能包含了关于如何使用Mechanize库的文档、教程、示例代码以及可能的库更新信息。 Mechanize库的核心功能包括： 1. **页面导航**：可以使用`get()`方法来请求URL，...

DarunGrim3 Installation & Usage Guide: - Mechanize 0.2.2，从SourceForge的mechanize项目页面下载。 - BeautifulSoup 3.1.0，从其官方网站下载。 - Mako 0.3.4，从Mako模板的官方网站下载。 2. 浏览器兼容性（WebBrowser） - 本指南指出，任何现代...

家庭支出与收入数据数据集，根据人口统计和地理指标进行了分类，加拿大为例，适用于数据分析、机器学习: 这个数据集提供了2010年至2021年间加拿大各省的家庭支出与收入数据，这些数据根据人口统计和地理指标进行了分类。每行代表了年份（REF_DATE）、省份（GEO）以及编码后的支出或收入类型的唯一组合（COORDINATE）。以下是该数据集的关键特点及包含的列信息：关键特点：支出数据：家庭支出按照收入五分位数和支出类别进行分类。收入数据：家庭收入值根据家庭类型、较年长成年人的年龄组别和收入水平细分。地理位置匿名化：为了保护隐私，原始的地理位置标识符被替换为如“Province 1”这样的标签。时间序列：涵盖了超过十年的财务数据（2010–2021），适合用于纵向经济和社会趋势分析。包含的列： REF_DATE：记录年份（2010–2021） GEO：省份标签（例如，“Province 1”） Statistic：度量类型（例如，平均家庭支出） Before-tax household income quintile：税前家庭收入水平分组 Household expenditures, summary-level categories：支出类别 UOM：计量单位 COORD

【锂电池剩余寿命预测】GRU门控循环单元锂电池剩余寿命预测（Matlab完整源码和数据）: 1.【锂电池剩余寿命预测】GRU门控循环单元锂电池剩余寿命预测（Matlab完整源码和数据） 2.数据集：NASA数据集，已经处理好，B0005电池训练、测试； 3.环境准备：Matlab2023b，可读性强； 4.模型描述：GRU门控循环单元在各种各样的问题上表现非常出色，现在被广泛使用。 5.领域描述：近年来，随着锂离子电池的能量密度、功率密度逐渐提升，其安全性能与剩余使用寿命预测变得愈发重要。本代码实现了GRU门控循环单元在该领域的应用。 6.作者介绍：机器学习之心，博客专家认证，机器学习领域创作者，2023博客之星TOP50，主做机器学习和深度学习时序、回归、分类、聚类和降维等程序设计和案例分析，文章底部有博主联系方式。从事Matlab、Python算法仿真工作8年，更多仿真源码、数据集定制私信。

【更新至2024年】2000-2024年各省专利侵权案件结案数数据: 2000-2024年各省专利侵权案件结案数数据 1、时间：2000-2024年 2、来源：国家知识产权J 3、指标：专利侵权案件结案数 4、范围：31省 5、用途：可用于衡量知识产权保护水平

HMTL+JS+CSS实现贪吃蛇游戏，包含有一般模式，困难模式，还有无敌模式: - 使用`<div>` 容器组织游戏界面，包含得分显示、游戏画布和操作按钮 - 支持三种游戏模式选择（一般模式、困难模式、无敌模式） - 移动端和桌面端兼容，提供触摸和键盘两种控制方式 2. CSS样式： - 采用Flex布局实现页面居中显示 - 使用Grid布局实现方向按钮的排列 - 定义了游戏容器的阴影、圆角等视觉效果 - 为按钮添加了hover效果和过渡动画 3. JavaScript逻辑： - 使用Canvas API实现游戏渲染 - 实现了蛇的移动、食物生成、碰撞检测等核心游戏逻辑 - 支持三种游戏模式，不同模式对应不同的游戏速度和规则 - 使用localStorage保存最高分记录 - 实现随机颜色生成，使游戏更具趣味性代码整体结构清晰，功能完整，具有良好的可扩展性和可维护性。

附件2-5：台区智能融合终端入网专业检测送检样品主要元器件清单.docx: 台区终端电科院送检文档

基于强化学习的飞机升阻力特性预测模型实现及应用（含详细可运行代码及解释）: 内容概要：本文详细介绍了一个基于强化学习（RL）的飞机升阻力特性预测模型的实现过程。首先，定义了飞机空气动力学环境，包括状态空间、动作空间以及目标——预测升力系数（Cl）和阻力系数（Cd）。接着，通过生成模拟数据并进行预处理，创建了用于训练的数据集。然后，构建了一个神经网络代理模型，用于联合编码状态和动作，并预测升阻力系数。最后，实现了PPO算法来训练强化学习代理，使其能够根据当前状态选择最优动作，并通过不断迭代提高预测精度。文中还提供了完整的代码实现和详细的注释。适合人群：航空航天领域的研究人员、机器学习工程师、对强化学习感兴趣的开发者。使用场景及目标：适用于需要预测飞机升阻力特性的应用场景，如飞行器设计优化、性能评估等。目标是通过强化学习方法提升预测模型的准确性，从而为实际工程提供可靠的理论支持和技术手段。其他说明：本文不仅涵盖了模型的设计与实现，还包括了数据生成、预处理等多个环节，有助于读者全面理解整个建模过程。同时，提供的代码可以作为研究和开发的基础，方便进一步扩展和改进。

cmock ut aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa: cmock ut aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

lsm6d datasheet: lsm6d datasheet

风力发电机传动机构的设计（增速器）.rar: 风力发电机传动机构的设计（增速器）

genesys-zu（5ev）配置petalinux（从安装到嵌入）: genesys-zu（5ev）配置petalinux（从安装到嵌入）

django自建博客app: django自建博客app

基于android平台的学生选课系统的设计与实现.zip: Android项目原生java语言课程设计，包含LW+ppt

幼儿园预防肺结核教育培训课件资料.pptx: 幼儿园预防肺结核教育培训课件资料

STM32F103RCT6单片机控制气泵和电磁阀的开关，气泵和电磁阀的开和关均为开关量，使用mos管控制，mos管选择主要注意两个参数即可，一是导通的电流，二是耐压值，并且常用NMOS管: STM32F103RCT6单片机控制气泵和电磁阀的开关 1、气泵和电磁阀的开和关均为开关量，实现控制方法有多种，比如继电器，但是继电器动作有噪声且体积较大，更好的方法为使用mos管。 2、mos管的选型：mos管选择主要注意两个参数即可，一是导通的电流，二是耐压值，并且常用NMOS管，根据要求，气泵和电磁阀供电电压为12V，所以选择的mos管耐压值要大于12V，这里选用耐压值为30V的MOS管，并且导通电流为5.8A。

面板数据-全国各省金融监管强度数据集-含处理代码（2009-2023年）.txt: 因文件较多，数据存放网盘，txt文件内包含下载链接及提取码，永久有效。失效会第一时间进行补充。样例数据及详细介绍参见文章：https://blog.csdn.net/T0620514/article/details/146916073

将 Windows 系统中 “C:\windows\fonts” 目录下的所有字体文件: 将 Windows 系统中 “C:\windows\fonts” 目录下的所有字体文件

计量自动化终端技术规范第2-5部分：智能量测终端功能模组接口协议（2023年6月）.pdf: 智能量测终端最新标准

滑道式提升机及其控制电路的设计.zip: 滑道式提升机及其控制电路的设计.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论