`
kankan1218
  • 浏览: 277657 次
  • 性别: Icon_minigender_1
  • 来自: 大连
社区版块
存档分类
最新评论

WWW::Mechanize使用手册

    博客分类:
  • perl
阅读更多

Mechanize使用手册(翻译)。

http://blog.codingmylife.com/?p=51

 

1,715 views, Ruby , by Allen Dang.

开始使用 [WWW::Mechanize](http://mechanize.rubyforge.org/mechanize/classes/WWW/Mechanize.html)
—————————
本教程的目的是帮助你开始使用Mechanize。读完这篇教程之后,你将可以抓取页面,点击链接,填写和提交form,抽取数据和其他一些可能有用的事情。此教程仅仅只是涉及到了非常粗浅的功能,但因该已经足够帮助你起步了。
让我们抓取一个页面
—————–
你要做得第一件事情就是在代码里引用mechanize,然后初始化一个新的mechanize实例:

1
2
3
4
require
 'rubygems'

require
 'mechanize'

 
agent = WWW::Mechanize
.new

现在我们将使用刚刚创建的agent来抓取一个页面。就拿Google开刀吧:

1
page = agent.get
(
'http://google.com/'
)

发生了什么事情?我们让mechanize去抓取Google的主页。Mechanize会自动存贮相关的cookie,甚至会跟踪Google发过来的自动跳转。Agent会帮我们抓回来一个页面,我们可以用来抽取数据,找到并且点击链接或者填写一个form.

 

接下来,让我们找一些链接出来点点看。
找到链接
——–
当你抓取页面、提交数据或者提交一个form的时候mechanzie都回返回一个page,agent将会解析抓取到的页面并且把一系列的链接放进page里面。
现在让我们尝试从刚才拿到的google主页上找出所有的链接:

1
2
3
page.links
.each
 do
 |
link|

  puts
 link.text

end

我们能列出所有的链接,但是mechanize提供了几个更加方便的捷径帮我们找到一个链接并且点击它。假设我们需要找到一个text属性是’News’的链接并且点击。一般来说,我们会这样做:

1
page = agent.click
 page.links
.find
 {
 |
l|
 l.text
 == 'News'
 }

但是mechanize提供了捷径,所以我们可以这样做:

1
page = agent.click
 page.links
.text
(
'News'
)

这个捷径表示“找到所有text为’News’的链接”。你也许已经想到了“可能存在很多符合这个条件的链接”,没错!如果你把一组链接发送给“click”方法,mechanize只会点击第一个。如果你想要点击第二个,那你应该这样做:

1
agent.click
 page.links
.text
(
'News'
)
[
1
]

我们甚至可以找到一个包含特定href的链接:

1
page.links
.href
(
'/something'
)

或者把它们连起来,找到一个包含特定text和href的链接:

1
page.links
.text
(
'News'
)
.href
(
'/something'
)

Mechanize提供的这些捷径可以用在任意一组你找到的东西上面,例如一组frame、iframe或者form。现在你应该已经知道如何找到并且点击链接了,让我们试试更加复杂的事情,比如填写一个form。
填写Form
———
让我们继续Google的例子。当前我们有了一下代码:

1
2
3
4
5
require
 'rubygems'

require
 'mechanize'

 
agent = WWW::Mechanize
.new

page = agent.get
(
'http://google.com/'
)

如果我们打印这个页面的源代码,就会发现有一个form叫做’f',它包含几个按钮和几个要填写的域:

1
pp page

现在我们知道了这个form的名字,让我们把它抓出来:

1
google_form = page.form
(
'f'
)

Mechanize可以让你通过几种不同的方式访问form里面可以输入的域,但是最方便的方式就是把输入域当作form的一个属性来访问。所以让我们把一个叫做’q'的域的值设置成’ruby mechanize’:

1
google_form.q
 = 'ruby mechanize'

为了确保我们设置了这个值,让我们打印这个form,然后你应该能看到一行类似的代码:

1
#<www::Mechanize::Field:0x1403488 @name="q", @value="ruby mechanize">

如果你看到’q'的值变了,说明你成功了!现在我们可以提交这个form,’点击’提交按钮和打印结果:

1
2
page = agent.submit
(
google_form, google_form.buttons
.first
)

pp page

我们刚刚做得事情等同于在google的搜索框里填写了’ruby mechanize’然后点击’Google Search’按钮。如果我们没有点击那个按钮而直接提交form,就等同于填写值之后按回车键。
让我们看看到现在为止写的代码:

1
2
3
4
5
6
7
8
9
require
 'rubygems'

require
 'mechanize'

 
agent = WWW::Mechanize
.new

page = agent.get
(
'http://google.com/'
)

google_form = page.form
(
'f'
)

google_form.q
 = 'ruby mechanize'

page = agent.submit
(
google_form)

pp page

在开始抓抽取数据之前,让我们深入了解一下form。除非你对数据抓取实在感兴趣。
高级form技巧
————
在这一节里,我想试试form里面可能包含的各种输入控件。Password和Textarea可以直接当作text控件来处理。Select非常类似 text,但是它会包含很多相关的子选项。如果你选择了一个option,mechanize会取消其他option的选择(除非允许多选!)。
例如,在一个列表里面选择一个option:

1
form.fields
.name
(
'list'
)
.options
[
0
]
.select

现在让我们来看看checkbox和radio button。要选择一个checkbox,只需要这样做:

1
form.checkboxes
.name
(
'box'
)
.check

Radio button和checkbox很像,但是在选择一个radio button之后其他同名的radio button都会被取消选择。像操作checkbox一样操作radio button。

1
form.radiobuttons
.name
(
'box'
)
[
1
]
.check

Mechanize同样可以轻易支持文件上传!只需要找到上传文件的控件,然后告诉它你想要上传的文件名:

1
form.file_uploads
.file_name
 = "somefile.jpg"

抽取数据
——–
Mechanize使用hpricot来解析html。这代表了什么?你可以把mechanize的page当作一个hpricot对象。在你用 machanize找到目标页面之后,就可以使用[hpricot](http://code.whytheluckystiff.net /hpricot/)的方法来抽取上面的任何东西:

1
agent.get
(
'http://someurl.com/'
)
.search
(
"//p[@class='posted']"
)

更多关于这个强悍的数据抽取器的信息,请参考[HpricotBasics](http://code.whytheluckystiff.net/hpricot/wiki/HpricotBasics).

分享到:
评论

相关推荐

    www-mechanize-firefox:WWW :: Mechanize的API,结合了Firefox的Javascript功能

    1. **执行JavaScript**:WWW::Mechanize::Firefox可以加载网页并执行其中的JavaScript代码,这对于自动化测试、数据抓取或任何需要页面完全加载和JavaScript执行的场景都极为有用。 2. **自动填充表单**:和标准的...

    等到页面加载完毕www :: mechanize perl

    Mechanize的主要优点在于其易于使用的API,使得自动化网页操作变得简单。 在Mechanize中,我们通常使用`get`方法来请求一个URL。例如: ```perl use WWW::Mechanize; my $mech = WWW::Mechanize-&gt;new(); $mech-&gt;...

    WWW-Mechanize-Chrome:自动化Chrome浏览器

    在使用WWW-Mechanize-Chrome时,你需要确保已安装了正确的Perl环境、WWW-Mechanize库、ChromeDriver以及匹配的Chrome浏览器版本。通常,这需要配置环境变量,使ChromeDriver能够被Perl脚本找到。 **...

    www-mechanize-phantomjs:使用Perl和PhantomJS自动化JavascriptAjax网站

    名称WWW :: Mechanize :: PhantomJS-自动运行PhantomJS浏览器概要use WWW::Mechanize::PhantomJS;my $mech = WWW::Mechanize::PhantomJS-&gt;new();$mech-&gt;get('http://google.com');$mech-&gt;eval_in_page('alert&#40;...

    test-www-mechanize:测试::Mechanize,一个用于测试网页的Perl对象

    【测试::Mechanize】是Perl编程语言中一个强大的库...如果你想要深入了解或使用测试::Mechanize,你可以从这个压缩包中提取代码,阅读文档,甚至参与项目的开发和改进,为你的Perl Web自动化和测试工作添加强大的工具。

    Mechanize相关资料

    在这个名为“Mechanize相关资料”的压缩包中,很可能包含了关于如何使用Mechanize库的文档、教程、示例代码以及可能的库更新信息。 Mechanize库的核心功能包括: 1. **页面导航**:可以使用`get()`方法来请求URL,...

    ruby mechanize安装需要的gem包

    在终端或命令行中输入以下命令来安装 Mechanize: ``` gem install mechanize ``` 这将从官方 Gem 仓库下载并安装最新版本的 Mechanize。 3. **依赖的 Gem**: Mechanize 可能依赖于其他一些 gem,例如解析 ...

    刮板:使用Nokogiri和Mechanize编译基于Ruby的手工刮板

    Mechanize与Nokogiri结合使用,可以方便地实现网页抓取任务,从登录到数据提取,形成一个完整的自动化流程。 **Web刮板基础** Web刮板是一种程序,用于自动从网站上收集和提取数据。在Ruby中,Nokogiri和Mechanize...

    mechanize-2.7.3.gem

    ruby mechanize包,mechanize-2.7.3.gem

    multi-mechanize-master

    在实际应用中,"multi-mechanize-master"项目可能还包括数据存储和清洗部分,如使用CSV、JSON或数据库(如SQLite)来保存抓取的数据,以及使用正则表达式或BeautifulSoup等库进行数据清洗和结构化。 总的来说,...

    Ruby中的Mechanize的使用教程

    Ruby中实现网页抓取,一般用的是mechanize,使用非常简单。 安装 代码如下: sudo gem install mechanize 抓取网页 代码如下: require ‘rubygems’ require ‘mechanize’ agent = Mechanize.new page = agent.get...

    ruby mechanize 2.7.2 gem 包

    ruby mechanize 2.7.2 gem 包

    mechanize:Mechanize是一个ruby库,可以轻松实现自动的Web交互

    机械化描述Mechanize库用于自动与网站进行交互。 Mechanize自动存储和发送Cookie,...开发者使用捆绑程序安装依赖项: bundle install使用以下命令运行所有测试: bundle exec rake test另请参阅Mechanize :: TestCa

    Ruby-Mechanize一个让自动化web交互变得容易的ruby库

    在获取页面后,Mechanize将解析HTML并创建一个表示页面的`Mechanize::Page`对象。你可以通过该对象来遍历页面上的链接、表格和表单。例如,查找页面上的所有链接: ```ruby links = page.links links.each do |link...

    mechanize_guanacast:用于下载所有 guanacasts 的网络抓取工具

    mechanize_guanacast 用于下载所有 guanacasts 的网络抓取工具 :) 要使用它,首先执行: gem install mechanize 然后使用它:ruby mechanize_guanacast.rb

    python mechanize 0.2.5

    Python Mechanize是一个强大的库,主要用于自动化Web浏览,它在Python编程中扮演着重要角色,尤其在Web...在实际项目中,Python Mechanize常与其他库(如BeautifulSoup、requests等)结合使用,以增强其功能和灵活性。

    Python使用Mechanize模块编写爬虫的要点解析

    初始化一个浏览器对象是使用Mechanize的第一步。通过`mechanize.Browser()`创建实例,并可进行一些设置,如处理HTTP_equiv、gzip压缩、重定向、referer头和robots.txt规则。此外,还可以设置HTTP调试选项和User-...

    perl&spidering hacks

    - **Hack 21**:WWW::Mechanize 101(WWW::Mechanize入门)。简要介绍WWW::Mechanize模块的基本用法。 - **Hack 22**:Scraping with WWW::Mechanize(使用WWW::Mechanize进行抓取)。进一步探讨WWW::Mechanize的...

    mechanize-源码.rar

    《深入解析mechanize:Python网页爬虫利器》 在Python的世界里,mechanize库是一个强大的工具,专为模拟浏览器行为而设计,尤其适用于自动化Web浏览和数据抓取任务。"mechanize-源码.rar"这个压缩包文件包含了...

    mechanize4j源程序及所有依赖的jar

    在使用mechanize4j时,将这些依赖库添加到项目的类路径中是至关重要的,这样程序才能正确识别并调用这些库的功能。 在实际开发中,使用构建工具如Maven或Gradle管理这些依赖可以简化工作流程。只需在配置文件中指定...

Global site tag (gtag.js) - Google Analytics