`
tianyalinfeng
  • 浏览: 439677 次
  • 性别: Icon_minigender_1
  • 来自: 苏州
社区版块
存档分类
最新评论

用htmlunit模拟浏览器

    博客分类:
  • Java
 
阅读更多

public String getPageAsXml(String url) {
  final WebClient webClient = new WebClient(
    BrowserVersion.INTERNET_EXPLORER_8);
  HtmlPage page = null;
  try {
   page = webClient.getPage(url);
  } catch (FailingHttpStatusCodeException e) {
   e.printStackTrace();
  } catch (MalformedURLException e) {
   e.printStackTrace();
  } catch (IOException e) {
   e.printStackTrace();
  }

  String pageAsXml = page.asXml();
  webClient.closeAllWindows();

  return pageAsXml;
 }

 

用htmlunit的优点是它不仅可以抓到静态的页面内容,而且可以抓到页面里js执行显示的内容,即它会像浏览器一样解析js

分享到:
评论

相关推荐

    htmlunit模拟cookie登录

    htmlunit 模拟cookie 存取 cookie值登录 如: wsyyuser.xywy.com Cookie c = new Cookie("wsyyuser.xywy.com", "PHPSESSID", Common.getValue("session_id") );

    htmlunit java版无界面浏览器 网页自动登录

    htmlunit java版无界面浏览器 实现网页自动登录利器 官方最新下载 htmlunit 是一款开源的java 页面分析工具,...项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。

    htmlunit最新版2.18含api文档

    使用htmlunit模拟浏览器所需要的jar包都在里面,下载好了,全部解压,全部导入进去就行了

    通过htmlunit获取执行js代码后的html文档

    HTMLUnit是一个Java库,设计用于模拟浏览器行为,特别是在无头模式下执行JavaScript并解析HTML文档。这个库在自动化测试、网页抓取以及其他需要与网页交互的场景中非常有用。通过HTMLUnit,开发者可以编写程序来模拟...

    htmlunit依赖jar包

    4. **HTTP客户端**: HTMLUnit使用了HttpClient库来处理HTTP/HTTPS请求,模拟浏览器的网络行为。 5. **CSS解析**: 对于CSS的支持,HTMLUnit使用了Cascading Style Sheets (CSS) Object Model (CSOM)来解析和应用CSS...

    htmlunit爬虫.rar

    通过学习和实践这个“htmlunit爬虫”项目,你将能够深入理解HTMLUnit的工作原理,掌握模拟浏览器爬虫的技巧,以及如何构建高效稳定的网络爬虫。这对于数据分析师、网站测试工程师以及任何需要自动获取网页信息的人来...

    htmlunit-2.19-bin

    6. **使用场景**:HTMLUnit常用于单元测试,集成测试,网页自动化,比如爬虫,或者任何需要模拟浏览器行为但又不希望启动实际浏览器的场合。它可以大大减少测试时间和资源消耗。 7. **与其他工具的集成**:HTMLUnit...

    Htmlunit2.23-bin.zip

    1. HTMLUnit的核心库(htmlunit.jar):这是主要的库文件,包含了所有处理HTTP请求、解析HTML、执行JavaScript和模拟浏览器行为的类。 2. 可能的依赖库:HTMLUnit可能依赖于其他库,如Rhino(JavaScript引擎)或者...

    最新版HtmlUnit2.22含API文档

    2. **Ajax支持**:由于Ajax技术在现代Web应用中的广泛使用,HtmlUnit能够处理异步请求,模拟浏览器刷新和页面部分更新。 3. **浏览器兼容性**:尽管HtmlUnit并不是一个真正的浏览器,但它尽力模仿不同浏览器的行为...

    webCrawl:使用HTMLUnit,PhantomJS和JBrowserDriver抓取网址

    本文将深入探讨如何使用HTMLUnit、PhantomJS和JBrowserDriver这三种无头浏览器技术来实现网页抓取。这些工具都基于Java语言,因此适合Java开发者进行网页抓取工作。 首先,HTMLUnit是一个强大的无头Java浏览器,它...

    htmlunit 及其 依赖包

    1. **htmlunit-2.27.jar**:这是HTMLUnit的主要库文件,包含了所有用于模拟浏览器行为的类和方法。例如,`HtmlPage`代表一个网页,`WebClient`是用于与网页进行交互的对象,可以发送HTTP请求并接收响应。版本2.27...

    htmlunit-2.9-SNAPSHOT-with-dependencies.zip

    5. **模拟浏览器行为**:HTMLUnit可以模拟多种浏览器的行为,如设置User-Agent字符串、处理cookies、管理会话等。 6. **性能与速度**:由于不依赖图形界面,HTMLUnit比完整浏览器更快,适合大规模的自动化测试。 7...

    htmlunit-2.20.zip

    4. **网络请求**:HTMLUnit可以模拟浏览器发送HTTP请求,并处理响应,包括POST、GET以及其他HTTP方法。 5. **自动登录和表单提交**:它可以自动填写表单并提交,这对于模拟用户行为和测试登录过程非常有用。 6. **...

    HtmlUnit-2.5(jar  doc)

    HtmlUnit是一个强大的Java库,主要用于模拟浏览器行为,执行无头Web客户端测试。它是一个headless浏览器,意味着它可以在没有图形用户界面的情况下运行,这在自动化测试、数据抓取和性能评估等场景中非常有用。这个...

    HtmlUnit官网下载

    使用HtmlUnit进行爬虫开发时,开发者可以通过编写Java代码来控制模拟浏览器的行为,例如: ```java import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftware.htmlunit.html.HtmlPage; ...

    htmlunit依赖的所有jar

    Rhino引擎使得HTMLUnit能够理解和运行JavaScript,这对于模拟浏览器行为至关重要。 5. **其他辅助库**: 还有一些其他辅助库,比如`commons-codec-1.x.jar`(提供各种编码算法)、`commons-lang3-3.x.jar`(提供...

    JAVA使用HtmlUnit爬虫工具模拟登陆CSDN案例

    HtmlUnit是一个基于JAVA的爬虫工具,能够模拟浏览器的行为,从而实现自动化的爬虫操作。 在本案例中,我们首先需要引入HtmlUnit和Jsoup的依赖项,使用Maven配置进行依赖项的管理。HtmlUnit提供了一个WebClient类,...

    htmlunit-2.27-src.zip

    5. **模拟浏览器组件**:HTMLUnit模拟了浏览器的一些关键组件,如DOM解析器、网络通信模块、Cookie管理器等,使得它可以处理复杂的网页交互。 6. **单元测试**:源码包中通常会包含大量的单元测试,这些测试用例...

    htmlUnit所需jar包

    总之,"htmlUnit所需jar包"包含了运行和开发基于HTMLUnit的项目所需的所有必要组件,使得开发者能够在没有图形界面的情况下,模拟浏览器行为,执行自动化任务。通过理解这些jar包的功能和用途,开发者可以更有效地...

    htmlunit-2.3..zip

    1. HTMLUnit的核心库(htmlunit.jar):这是HTMLUnit的主要实现,包含解析HTML、执行JavaScript和模拟浏览器行为的类和方法。 2. 非必需的依赖项(如nekohtml.jar, xercesImpl.jar, xml-apis.jar):这些库提供了...

Global site tag (gtag.js) - Google Analytics