最新文章列表

无头浏览器,从phantomjs到webkit4j

一、从浏览器说起 无头浏览器即headless browser,是一种没有界面的浏览器。既然是浏览器那么浏览器该有的东西它都应该有,只是看不到界面而已。 浏览器内核 Webkit:目前最主流的浏览器内核,webkit是苹果公司开源的浏览器内核,其前身是KHTML。基于Webkit的浏览器很多,比如Safari,Chrome,Opera Gecko:是Firefox浏览器的内 ...
xtuhcy 评论(0) 有3395人浏览 2016-10-14 11:09

java爬虫gecco支持htmlunit

java爬虫gecco支持htmlunit java爬虫gecco发布了1.0.5版本,增加了对htmlunit的支持。htmlunit是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。htmlunit采用的是rhino作为javascript的解 ...
xtuhcy 评论(0) 有2917人浏览 2016-03-07 10:32

Phantomjs/Casperjs, HtmlUnit, Selenium在获取Javascript页面时特性对比

Phantomjs/Casperjs, HtmlUnit, Selenium在获取Javascript页面时特性对比 基于Phantomjs 2.0.0/Casperjs 1.1.0-beta3, Htmlunit 2.18, Selenium 2.47.1,在获取Javascript 页面时,对JavaScript engine,session/cookie支持, request url追踪 ...
Ihavegotyou 评论(0) 有2441人浏览 2015-11-28 13:53

益达教你如何抓取Ajax动态页面

       何为Ajax动态网页,我想不用我多说了吧,如果你连Ajax是啥玩意儿都不知道,那你还是先去Google学习Ajax吧。为了形象起见,这里我以抓取这个 ...
lxwt909 评论(0) 有5586人浏览 2015-08-28 10:40

Error forwarding the new session cannot find : Capabilities [{browserName=htmlun

代码: driver = webdriver.Remote(                                          command_executor=' http://127.0.0.1:4444/wd/hub',                                          desired_capabilities={'platform': ' ...
Chinaperson 评论(0) 有3245人浏览 2015-06-12 11:05

HtmlUnit ajax执行问题解决

1.问题      参照htmlUnit官方get started文档 的Submitting a form 栏,编写一个提交表单到百度搜索的例子,执行报错,错误信息:     严重: runtimeError: mes ...
unnKoel 评论(0) 有6876人浏览 2014-10-29 20:03

HttpClient和HtmlUnit的比较总结以及使用技巧(一)

       大家在做爬虫、网页采集、通过网页自动写入数据时基本上都接触过这两个组件(权且称之为组件吧),网上入门资料已经很多了,我想从实 ...
zstu_cc 评论(0) 有4283人浏览 2014-09-15 14:56

HtmlUnit 的使用

HtmlUnit是Java一个开发工具包,利用它写的Java代码可以模仿人点击link,提交表单的功能.主要是用来测试.     可以到这里http://htmlunit.sourceforge.net/了解详细信息.     模仿一个特定的浏览器     通常您会希望将模拟特定浏览器.这样做是通过传递  com.gargoylesoftware.htmlunit.BrowserVersion到的 ...
aoyouzi 评论(0) 有2600人浏览 2014-09-05 14:33

使用htmlUnit和Jsoup获取163邮箱通讯录

import java.io.IOException;import java.net.URL;import java.util.ArrayList;import java.util.List; import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements; import com. ...
sunjing 评论(0) 有14818人浏览 2014-04-08 16:08

模拟浏览器的神器 - HtmlUnit

随着Web的发展,RIA越来越多,JavaScript和Complex AJAX Libraries给网络爬虫带来了极大的挑战,解析页面的时候需要模拟浏览器执行JavaScript才能获得需要的文本内容。   好在有一个Java开源项目HtmlUnit,它能模拟Firefox、IE、Chrome等浏览器,不但可以用来测试Web应用,还可以用来解析包含JS的页面以提取信息。   下面看看H ...
yangshangchuan 评论(3) 有26765人浏览 2014-03-26 10:55

S2JH: 新增定向网站数据crawl爬取解析服务组件模块

基于过滤链设计模式、Htmlunit扩展、异步多线程等特性的简化定向数据爬取解析组件,提供基于天猫商品的数据采集演示单元测试(s2jh\crawl-service\src\test\java\lab\s2jh\crawl\service\test\CrawlServiceTest.java)   说明:此套爬虫设计主要用于一些定向网站数据抓取解析,如电商商品、交友信息等,抓取和解析特定页面的属 ...
xautlx 评论(0) 有1249人浏览 2013-12-02 13:10

使用Htmlunit上传文件

使用HtmlUnit模拟浏览器操作时,我们有时候要做一些上传文件操作。这就要利用HtmlFileInput这个类了。 WebClient client = new WebClient(); HtmlPage page = client.getPage("http://login.baidu.com/"); 通过page获得HtmlForm,再通过HtmlForm获得Ht ...
tanjiayqq 评论(0) 有1122人浏览 2013-11-14 00:32

Htmlunit / HttpClient 报 Cookie rejected 警告 的解决方案。

今天下午用 HtmlUnit做新浪的登陆,由于新浪的多域名原因,出现了下面警告 Cookie rejected: "[version: 0][name: U_TRS1][value: 000000e4.603e4743.527caa18.4f2f5b0d][domain: .sina.com.cn][path: /][expiry: Mon Nov 06 17:08:40 CST 202 ...
tanjiayqq 评论(0) 有5286人浏览 2013-11-08 17:39

使用htmlunit实现带有Ajax复杂页面的静态化技术

  1·最近项目要求要把网站的首页静态化,网站的首页是和多个jsp页面组成,整体显示的时候大概5000多行,比较困难的地方是很多地方由于做了jquery特效,所以当初直接使用$.ajax获取的数据,并直接生成的html.其中又包括了一些处理逻辑,如 if(0 == li.length){ if(2==data.columncaption.length){//样式补位 li ...
代号43 评论(3) 有7480人浏览 2013-10-11 09:58

HtmlUnit实现ajax网络爬虫(转)

/** *网上关于网络爬虫实现方式有很多种,但是很多都不支持Ajax,李兄说:模拟才是王道。确实, *如果能够模拟一个没有界面的浏览器,还有什么不能做到的呢?关于解析Ajax网站的框架也有不少, *我选择了HtmlUnit,官方网站:http://htmlunit.sourceforge.net/?,htmlunit可以说是一个Java *版本的无界面浏览器,几乎无所不能,而且很 ...
jilong-liang 评论(0) 有12838人浏览 2013-08-28 22:26

HttpUnit 模仿点击事件

最近入门HttpUnit,这是接触的第一个例子: 主要功能是模仿点击事件得到HtmlPage 相关代码如下:                           final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_10); URL url = new URL("http://www.zhiw ...
tao674613438 评论(0) 有1296人浏览 2012-12-26 09:52

HtmlUnit 获取一个<a>标签进行click事件的时候....根据Id请求

   今天在卡法中运用htmlunit爬取一个分页数据的时候,由于分页数据中开始是有1、2、3、4、5....到了5就出现点点省略的形式,我当时实现是获取的时候循环   page.getHtmlElementsByTagName("a").get(0).click();     不行,出现点点后就有问题,后来解决办法就是运用   HtmlAnchor anchor ...
jccmjl 评论(0) 有19908人浏览 2012-07-03 10:40

htmlunit分页实现

package com.htmlunit.sky; import java.math.BigDecimal; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.ArrayList; import java.util.HashMap; import java.util ...
jccmjl 评论(0) 有1977人浏览 2012-06-27 10:59

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics