让 Mechanize 也能 “跑”javascript

diyuxinlang

浏览: 31629 次
性别:
来自: 大连

最近访客更多访客>>

uncleheart

sdu_hanson

kolnick

huangwei1024

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Mechanize

JavaScript rubygems IE Ruby PHP

由于工作方面的需要，让我对 mechanize 爱不择手。

但是 mechanize 也有她的缺点，她不能解释网页中的 javascript代码。

可是就在某一天里，我有了一个不小的发现。

我记得我需要做的是一个自动登陆，这对于 mechanize 来说轻而易举事。而事实却并非想像的那样简单。

原因是，在登陆的 submit 被点下时，网页中的 javascript 却将原来的 action 值给“掉包”了。

<html>
<head>
<title>sample</title>
</head>


<body>
function validateForm() {
  var elm = document.getElementById('postForm');
  elm.action = './write.php';
  return true;
}


<form action="javascript.php" method="post" onSubmit="return validateForm();">
<input type="text" name="user" value=""> 
<input type="text" name="pass" value="">
<input type="submit" name="submit" value="登陆">

</form>


</body>
</html>

我记得在 mechanize 里是可以对 action 进行赋值的，所以就很简单的解决了这个问题。

require 'rubygems'
gem 'mechanize', '0.8.5'
require 'mechanize'


# 生成模拟浏览器

agent = WWW::Mechanize.new
agent.user_agent_alias = 'Windows IE 7'

# 抓取网页源码

page = agent.get('http://www.sample.com/')

# 添写 form 信息

form = page.forms.action('javascript.php').first
form.action = './write.php'
form['user'] = 'user_id'
form['pass'] = 'user_pass'

form.submit

通过这个例子，让我有一想法：

如果将 javascript 代码的动作，用 mechanze 模拟出来的话，是不是 mechanize 就可以 “跑” javascript 呢？

很幸运，接下来我就遇到这样的问题。

在浏览器里看到的 form 完全是用 javascript 生成的。

用以往的 mechanize 抓取 form 信息，返回的结果是 nil 。

好，使用刚刚得来的经验，用 mechanze 模拟 javscript 来生成 form 的代码（需要解读 javascrpit ，找出

form 的 action 值，以及相关标签的 name 信息）。

require 'rubygems'
gem 'mechanize', '0.8.5'
require 'mechanize'


# 生成模拟浏览器

agent = WWW::Mechanize.new
agent.user_agent_alias = 'Windows IE 7'

# 抓取网页源码
page = agent.get('http://www.sample.com/')

# 将 javascript 解读出 form 信息模拟成 html 代码

form_code = "<form action='javascript.php' method='post' name='form1'>" +               
                    "<input type='text' name='user' value=''>" +
                    "<input type='text' name='pass' value=''>" +
                    "<input type='submit' name='submit' value='登陆'>"

# 向 body 标签内强制添加 form 信息 
page.root.search("body").inner_html += form_code

# 抓取 form 信息
form = page.forms.name('form1').first 
p form

只要是 form 信息找对了，完美的实现了登陆动作，不过~!?

不过，我对 javascript 可不是太了解。

现在的网站， javascrpit 脚本动则就上百行，哪一部分才是自已需要的，分析起来很是花时间。

由是，我的完美方案出现了，哈~！

不必在成堆的 javascrpit 代码里去查找自已所需要的登陆信息了。

利用 firefox 插件 live http headers 将向服务器提交表单，的数据瞬间的抓取出来。

header代码:



http://www.sample.com/write.php


POST /write.php HTTP/1.1
Host: sample.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.1.8) Gecko/20100202 Firefox/3.5.8 (.NET CLR 3.5.30729)
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: zh,en-us;q=0.7,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Connection: keep-alive
Referer: http://www.sample.com/
Content-Type: application/x-www-form-urlencoded
Content-Length: 47


user=user_id&pass=user_pass

这样就达到了不必去解读 javascript 了。无论 javascript 怎么变，向服务器提交时的数据一定是最真实的。

以上是个人在工作中的一些小总结。希望能给需要的人带去帮助。

同时，小弟正在查找一起有关 ruby mechanize 对 cookie 进行操作的资料，

如果那位哥们儿手里正好有有关资料的话，希望能共享一下。

先谢谢啦~！

分享到：

ruby的时间方法总结 | 献给所有初学编程朋友的 5 道题

2010-02-21 13:34
浏览 4852
评论(14)
论坛回复 / 浏览 (13 / 9998)
分类:编程语言
查看更多

14 楼 Hooopo 2010-05-08

huacnlee 写道

这玩意儿好啊，上次我用它帮人做一个采集功能，两晚上就完成，转了1K

....

13 楼 huacnlee 2010-05-07

这玩意儿好啊，上次我用它帮人做一个采集功能，两晚上就完成，转了1K

12 楼 jy00105276 2010-05-06

chrishzb 写道

diyuxinlang 写道

marshluca 写道

"page.root.search("body").inner_html += form_code"

在mechanize 0.9.4中好像不能硬着来吧.

因为在 mechanize 0.9.0 以上版本中默认的是用 nokogiri 来解析 HTML。
如果想使用 hpricot 的话，得先声明。

例：

require 'rubygems'  
gem 'mechanize', '0.9.3'  
require 'mechanize'  
require 'hpricot'


WWW::Mechanize.html_parser = Hpricot 
agent = WWW::Mechanize.new  
agent.user_agent_alias = 'Windows IE 7'

同问一下，跟楼上这位兄弟有同样的疑惑，nokogiri 如何强行给body 加代码呢？

强行加代码，mechanize低版本默认用hpricot解析html，有inner_html=方法。
为什么加了form可以提交，估计是mechanize封装的net/http库发送post请求？

11 楼 chrishzb 2010-05-06

diyuxinlang 写道

marshluca 写道

"page.root.search("body").inner_html += form_code"

在mechanize 0.9.4中好像不能硬着来吧.

因为在 mechanize 0.9.0 以上版本中默认的是用 nokogiri 来解析 HTML。
如果想使用 hpricot 的话，得先声明。

例：

require 'rubygems'  
gem 'mechanize', '0.9.3'  
require 'mechanize'  
require 'hpricot'


WWW::Mechanize.html_parser = Hpricot 
agent = WWW::Mechanize.new  
agent.user_agent_alias = 'Windows IE 7'

同问一下，跟楼上这位兄弟有同样的疑惑，nokogiri 如何强行给body 加代码呢？

10 楼 marshluca 2010-02-26

diyuxinlang 写道

marshluca 写道

"page.root.search("body").inner_html += form_code"

在mechanize 0.9.4中好像不能硬着来吧.

因为在 mechanize 0.9.0 以上版本中默认的是用 nokogiri 来解析 HTML。
如果想使用 hpricot 的话，得先声明。

例：

require 'rubygems'  
gem 'mechanize', '0.9.3'  
require 'mechanize'  
require 'hpricot'


WWW::Mechanize.html_parser = Hpricot 
agent = WWW::Mechanize.new  
agent.user_agent_alias = 'Windows IE 7'

我的意思是怎么把定制的form强加给 page.body

你最后不还是用mechanize去登陆form吗

9 楼 diyuxinlang 2010-02-26

鹤惊昆仑写道

firefox有个插件(https://addons.mozilla.org/en-US/firefox/addon/8154)可以把cookie导出，wget、python都可以直接利用该文件通过网站登录验证。

哈，这个插件挺有意思的，收藏了~！谢谢啦~！

8 楼鹤惊昆仑 2010-02-25

firefox有个插件(https://addons.mozilla.org/en-US/firefox/addon/8154)可以把cookie导出，wget、python都可以直接利用该文件通过网站登录验证。

7 楼 diyuxinlang 2010-02-23

marshluca 写道

"page.root.search("body").inner_html += form_code"

在mechanize 0.9.4中好像不能硬着来吧.

因为在 mechanize 0.9.0 以上版本中默认的是用 nokogiri 来解析 HTML。
如果想使用 hpricot 的话，得先声明。

例：

require 'rubygems'  
gem 'mechanize', '0.9.3'  
require 'mechanize'  
require 'hpricot'


WWW::Mechanize.html_parser = Hpricot 
agent = WWW::Mechanize.new  
agent.user_agent_alias = 'Windows IE 7'

6 楼 marshluca 2010-02-23

"page.root.search("body").inner_html += form_code"

在mechanize 0.9.4中好像不能硬着来吧.

5 楼 photon 2010-02-23

我用的python，watir就先不试了。

4 楼 diyuxinlang 2010-02-23

photon 写道

引用

我记得我需要做的是一个自动登陆，这对于 mechanize 来说轻而易举事。

试过登陆google或gmail吗？最近被这个问题困扰。

哎，google的技术太强了，我也拿他是没办法。

网站代码写的也是超难看！

用 watir 不行吗？

3 楼 diyuxinlang 2010-02-23

darkbaby123 写道

LZ的头像挺眼熟的，是希特勒？

哈，被你认出来啦~！
在网上找的，呵，感常见酷一点吧~！

2 楼 photon 2010-02-22

引用

我记得我需要做的是一个自动登陆，这对于 mechanize 来说轻而易举事。

试过登陆google或gmail吗？最近被这个问题困扰。

1 楼 darkbaby123 2010-02-22

LZ的头像挺眼熟的，是希特勒？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论