- 浏览: 77413 次
- 性别:
- 来自: 北京
最新评论
-
Foxswily:
<div class="quote_title ...
XStream转换JSON要注意的地方 -
huang_yong:
XStream 对于 List<Map& ...
XStream转换JSON要注意的地方 -
ricien:
我登录人人之类的都登录不上去,无法跳转请问一下是什么问题啊
HtmlUnit实现的网站登录 -
Foxswily:
<div class="quote_title ...
XStream转换JSON要注意的地方 -
jiangshuiy:
JsonHierarchicalStreamDriver,可是 ...
XStream转换JSON要注意的地方
最近坛子里接连出现基于httpclient登录网站的帖子,也凑个热闹,分享一点基于htmlunit的登录经验
谨以此文祭奠我刚刚逝去的鼠标
----------------------------------------------分割线---------------------------------------------------
HtmlUnit 目前最新版本2.7(2010-04-15 Foxswily本人确认)
基于httpclient封装(甚至已经做好启用httpclient4的准备),模拟浏览器操作,JavaScript支持较全面,包括主流的jQuery类库,这也是它的强大之处,一般网站的JS屏蔽可以轻松突破。
举例说明
//创建浏览器,可以选择IE、FF等等 WebClient client = new WebClient(BrowserVersion.INTERNET_EXPLORER_7); //获取某网站页面 HtmlPage page = client.getPage("http://xxx.com"); //获取某页面元素,可通过id或name,(具体方式很多 --Foxswily) HtmlElement elmt = page.getElementById("someid"); //HtmlElement elmt = page.getElementByName("somename"); //此例以文本框为例,先点击,再输入,完全跟真浏览器行为一致 elmt.click(); elmt.type("somewords"); //获取按钮 HtmlButton loginBtn = (HtmlButton)page.getElementById("btnId"); //点击并获得返回结果 Page resultPage = loginBtn.click(); //结果拿到了,想干啥您随意 log.debug(resultPage.getWebResponse().getContentAsString());
沿着这个思路展开一下,模拟登录不再需要破解什么js逻辑,用户实际做什么代码就模拟什么,轻松多了
额外的友情提示,Foxswily本人曾在登录用户量众多的discuz论坛时发现个小问题(已提交bug)
造成登录后跳转失效,如有雷同参照解决吧
问题描述
HtmlPage.executeRefreshIfNeeded()
when html header has meta like "<META HTTP-EQUIV="Refresh" CONTENT="3 URL=h
ttp://www.some.org/some.html">" it throws NumberFormatException.
cause there is no ";" after "3" in the content.
some forum sites have this bad writting html page.
大意就是,自动跳转格式有问题,htmlunit解析不了,直接Exception了,改写HtmlPage的一个方法后通过。
private void executeRefreshIfNeeded() throws IOException { // If this page is not in a frame then a refresh has already happened, // most likely through the JavaScript onload handler, so we don't do a // second refresh. final WebWindow window = getEnclosingWindow(); if (window == null) { return; } final String refreshString = getRefreshStringOrNull(); if (refreshString == null || refreshString.length() == 0) { return; } final double time; final URL url; int index = refreshString.indexOf(";"); final boolean timeOnly = (index == -1); if (timeOnly && refreshString.indexOf(" ") == -1) { // Format: <meta http-equiv='refresh' content='10'> try { time = Double.parseDouble(refreshString); } catch (final NumberFormatException e) { if (LOG.isErrorEnabled()) { LOG.error("Malformed refresh string (no ';' but not a number): " + refreshString, e); } return; } url = getWebResponse().getRequestSettings().getUrl(); } else { if (refreshString.indexOf(";") == -1) { index = refreshString.indexOf(" "); } // Format: <meta http-equiv='refresh' // content='10;url=http://www.blah.com'> try { time = Double.parseDouble(refreshString.substring(0, index).trim()); } catch (final NumberFormatException e) { if (LOG.isErrorEnabled()) { LOG.error("Malformed refresh string (no valid number before ';') " + refreshString, e); } return; } index = refreshString.toLowerCase().indexOf("url=", index); if (index == -1) { if (LOG.isErrorEnabled()) { LOG.error("Malformed refresh string (found ';' but no 'url='): " + refreshString); } return; } final StringBuilder buffer = new StringBuilder(refreshString .substring(index + 4)); if (buffer.toString().trim().length() == 0) { // content='10; URL=' is treated as content='10' url = getWebResponse().getRequestSettings().getUrl(); } else { if (buffer.charAt(0) == '"' || buffer.charAt(0) == 0x27) { buffer.deleteCharAt(0); } if (buffer.charAt(buffer.length() - 1) == '"' || buffer.charAt(buffer.length() - 1) == 0x27) { buffer.deleteCharAt(buffer.length() - 1); } final String urlString = buffer.toString(); try { url = getFullyQualifiedUrl(urlString); } catch (final MalformedURLException e) { if (LOG.isErrorEnabled()) { LOG.error("Malformed URL in refresh string: " + refreshString, e); } throw e; } } } final int timeRounded = (int) time; getWebClient().getRefreshHandler().handleRefresh(this, url, timeRounded); }
评论
<frame src="blank.jsp" scrolling="no" noresize>
<frameset rows="90,*" cols="*" frameborder="NO" border="0" framespacing="0">
<frame src="header.jsp" rows="90,*" scrolling="no" noresize name="header" >
<frameset cols="200,*" frameborder="NO" border="0" framespacing="0">
<frame src="menu.faces" scrolling="auto" noresize name="menu" >
<frame src="./SysManager/bulletin.faces?bbstype=2" scrolling="auto" noresize name="body" >
</frameset>
</frameset>
我登录成功以后返回到frame框架这里,不知道如何往下写了》。。。。
那个问题用htmlpage.executeJavaScript(script code)解决了,但最近遇到一个错误(用的是HtmlUnit 2.8):
警告: Expected content type of 'application/javascript' or 'application/ecmascript' for remotely loaded JavaScript element at 'http://www.ibcbet.com/commjs/ieupdate.js', but got 'application/x-javascript'.
似乎是个BUG,htmlunit作者承认的
比如:<a href="#" click="return submit()"></a>
还有没搞清楚,为什么HtmlForm没有直接submit的方法。。。
第二个问题,HttpClient和HtmlUnit不是一个层次上的,HtmlUnit底层使用了HttpClient,他方便的地方在于Html和JS的解析。
<form id="f_login" name="f_login" action="" target="_self" method="post" onsubmit="return checkInput();"> <input type="hidden" name="redirect" value="http://www.nate.com"> <input type="hidden" id="PASSWD_RSA" name="PASSWD_RSA" value=""> <fieldset> <legend>로그인</legend> <dl> <dt>로그인</dt> <dd> <input type="text" id="ID" name="ID" class="bg_id" maxlength="25" onclick="this.className='bg';" onKeyDown="this.className='bg';" tabindex="1" title="아이디 입력" onfocus="xXecure.showCKKeyProPopup();" onblur="xXecure.hideCKKeyProPopup();" /> @ <select id="domain" name="domain" tabindex="2"><!-- 2009.07 : ID 추가 --> <option selected="selected">nate.com</option> <option>empas.com</option> <option>lycos.co.kr</option> <option>netsgo.com</option> </select> </dd> <dd> <input type="password" id="PASSWD" name="PASSWD" class="bg_passwd" maxlength="20" onclick="this.className='bg';" onKeyDown="this.className='bg';" tabindex="3" title="비밀번호 입력" onkeypress="if (13 == event.keyCode) submit();" onfocus="xXecure.showCKKeyProPopup();" onblur="xXecure.hideCKKeyProPopup();" enc="on" /> </dd> <dd class="check"> <input type="checkbox" id="saveid" name="saveid" /> <label for="saveid" id="" tabindex="4">아이디 저장</label> <a class="btn_otp" onclick="xXecurePop.openWin(2);" title="OTP보안 안내">OTP보안 안내</a> </dd> <dd class="btn"> <input type="submit" tabindex="6" title="로그인버튼" value=""/> </dd> </dl> </fieldset> </form>
底下这部分是用来提交这个form的
<input type="submit" tabindex="6" title="로그인버튼" value=""/>
就是什么126邮箱批量注册之内的
说白了就是把验证码直接显示到软件界面上去,然后留个输入框让你手工输入,然后手工点提交,程序自动完成其他元素的填写。明白?
1.图像识别,这个可以单独拿来研究了,算法难度不小,外加现在的图片干扰越来越邪乎,不好实现。
2.显示图片人工解决,个人推荐这方式。毕竟登录一次可以程序保障长期在线,性价比高的方案:)
第二个解决方法,能不能帖段代码...
1,把登陆页面刷出来。
2,肉眼识别出验证码。
3,把验证码写死到程序里去。
是不是这样
1.图像识别,这个可以单独拿来研究了,算法难度不小,外加现在的图片干扰越来越邪乎,不好实现。
2.显示图片人工解决,个人推荐这方式。毕竟登录一次可以程序保障长期在线,性价比高的方案:)
第二个解决方法,能不能帖段代码...
1.图像识别,这个可以单独拿来研究了,算法难度不小,外加现在的图片干扰越来越邪乎,不好实现。
2.显示图片人工解决,个人推荐这方式。毕竟登录一次可以程序保障长期在线,性价比高的方案:)
这个貌似一个不错的测试工具.
发表评论
-
轻量slideshow(by markdown、pandoc、revealjs)
2013-12-30 16:44 5045又到写年终总结的时候了,用笨重的ppt写记录文字实在得不偿 ... -
小心JRE升级带来的麻烦
2011-04-06 15:56 7404Windows 2003的服务器部署了Tomcat(6.0.2 ... -
升级 Tomcat 6.0.24+ 享用内存溢出警告
2010-12-09 09:57 2335项目需要对Tomcat下部署的context做 ... -
maven filter转换时容易忽略的错误
2010-11-08 10:19 3229使用Maven管理,定义了Filter,配置文件中的动态值都由 ... -
想要不那么Bad smell 的 UnitTest真不容易
2010-10-27 11:19 1479自打用Maven做项目管理之后,直接和UnitTest接触的次 ... -
注释也可以很有爱——Top funny source code comments
2010-09-20 13:57 1299/* * OK; before you read the ... -
总结几点Quartz的经验
2010-06-03 14:18 7308总结一下经典的定时处理框架quartz的使用经验。基于 Ver ... -
logback的SizeBasedTriggeringPolicy
2010-06-01 15:32 2027slf4j+logback基本已经完全替代了log4j,偶然一 ... -
HtmlUnit 2.6处理页面刷新的bug
2009-10-29 14:37 3384HtmlUnit 2.6做了大量针对Javascript的工作 ... -
开心网外挂编写总结
2009-09-29 11:12 1472总结写开心外挂的心得 ...
相关推荐
htmlunit java版无界面浏览器 实现网页自动登录利器 官方最新下载 htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源...
2. **JavaScript支持**:HTMLUnit可以解析和执行JavaScript代码,这对于现代Web应用来说是至关重要的,因为许多动态网页依赖JavaScript来加载内容和实现交互。 3. **DOM操作**:通过HTMLUnit提供的API,开发者可以...
本项目重点介绍了如何利用htmlunit2.8和jsoup1.7这两个强大的库来实现这一目标。下面我们将深入探讨这两个工具以及它们在数据抓取中的应用。 **htmlunit2.8** HtmlUnit是一个Java库,模仿了一个无头浏览器,能够...
- 考虑网站的反爬策略,可能需要登录或使用代理IP。 - 数据清洗和格式化是必要的,以确保Excel文件的可读性。 8. **mainboard-project**: 这可能是项目的名字,可能包含了实现上述功能的源代码。如果需要进一步...
在“htmlunit爬虫技术”中,我们将深入探讨如何利用HTMLUnit来实现高效的网络爬虫。 HTMLUnit的核心特性包括: 1. **JavaScript支持**:HTMLUnit能够执行JavaScript代码,这对于许多动态加载内容的现代网站来说至...
通过查看这些文件,你可以更深入地了解HTMLUnit的用法,学习如何根据实际需求调整代码以实现特定的功能,比如抓取特定数据或进行更复杂的网页交互。 总结来说,HTMLUnit是Java环境下的一款强大工具,它可以用来进行...
标题 "利用HtmlUnit操作DLP的用户新增和删除" 暗示了本文将探讨如何使用HtmlUnit库来实现对数据泄露防护(Data Loss Prevention,简称DLP)系统的用户管理功能,包括添加新用户和删除已有用户。HtmlUnit是一个无头...
htmlunit java版无界面浏览器 实现网页自动登录利器 官方最新下载 htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源...
在这个"javahtmlunit爬虫案例入门"中,我们将深入探讨如何使用Java和HtmlUnit库来实现一个简单的电商网站爬虫,同时下载对应的图片。 首先,HtmlUnit是一个无头浏览器模拟器,它允许程序员在Java环境中执行...
这篇博客文章可能详细介绍了如何利用这两个库来实现文件的下载功能。 HttpClient 是Apache基金会的一个项目,提供了丰富的HTTP客户端API,用于执行各种HTTP协议操作,如GET、POST、PUT等。HttpClient4.1.2 版本是这...
6. **性能优势**:由于HTMLUnit是纯Java实现,不需要依赖外部浏览器,因此它的执行速度比使用真实浏览器进行自动化测试快得多。这使得它成为大规模测试的理想选择。 7. **测试框架集成**:HTMLUnit可以方便地与...
HtmlUnit是一个基于JAVA的爬虫工具,能够模拟浏览器的行为,从而实现自动化的爬虫操作。 在本案例中,我们首先需要引入HtmlUnit和Jsoup的依赖项,使用Maven配置进行依赖项的管理。HtmlUnit提供了一个WebClient类,...
本文将深入探讨如何使用HTMLUnit、PhantomJS和JBrowserDriver这三种无头浏览器技术来实现网页抓取。这些工具都基于Java语言,因此适合Java开发者进行网页抓取工作。 首先,HTMLUnit是一个强大的无头Java浏览器,它...
在实现Android爬虫实现模拟登录的实现实例时,需要选择合适的爬虫库,HtmlUnit和Jsoup是两个常用的爬虫库。HtmlUnit是一个功能强大的爬虫库,可以模拟浏览器的行为,但是它不支持Android平台。Jsoup是一个轻量级的...
模拟登录一些常见的网站 主要基于以下的 Java的第三 library HTTP请求以及响应 模拟自动登录 验证码识别 加密解密 Done (已经实现) (待实现) (已经实现) (还有点问题) (还有点问题) (已经实现) (待实现) (待实现) ...
在这个“网络爬虫实现源码”中,我们主要关注的是利用Jsoup和HtmlUnit这两个Java库来构建爬虫引擎,以及如何从网站上获取图片地址信息。 Jsoup是一个流行的Java库,用于解析HTML文档。它的主要功能包括提取结构化...
总结来说,Java实现后台打开网页存为截图的过程涉及网络请求、网页渲染和图像处理技术,需要结合使用Java标准库和其他第三方工具,如HtmlUnit、Selenium WebDriver等。通过这些技术,我们可以构建出一个灵活且功能...
我们将主要使用Java语言来实现这一功能,因为它具有丰富的库和跨平台的特性。 首先,我们需要一个能够处理网络请求和网页解析的库。Apache HttpClient是一个广泛使用的HTTP客户端库,它可以让我们方便地从URL获取...
这个“腾讯新浪微博模拟登录最新源码(java版)”提供了一种使用Java编程语言实现这一功能的方法。下面将详细介绍这个源码可能涉及的关键知识点。 1. **HTTP协议与网络请求**:模拟登录首先需要理解HTTP协议,包括...
在网络爬虫的实现过程中,还可能涉及反爬策略的应对,如处理验证码、登录验证,以及IP代理池的使用。例如,使用Selenium库模拟浏览器行为,可以解决JavaScript动态加载和验证码问题。IP代理池则能帮助更换请求的IP...