htmlunit抓取小说网站JS加载内容 - 伊人梦醉 - ITeye博客

`

fancyboy2050

浏览: 241199 次
性别:
来自: 皇城根儿下

最近访客更多访客>>

lindow

飞天奔月

fan0128

brucelearnen

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

悦悦余音：楼主妙笔生花的文章解决了我的问题
hessian http response code:411
297434791：返回对象有警告··返回String就没警告了，什么原因
hessian异常
lsjinpeng：这个中文乱码怎么弄啊？
Kaptcha使用
zcs540061627： wangjian95 写道我也遇到了这个问题 2012-7-1 ...
hessian异常
wangjian95：哈哈，哥刚试了，数组是可以的，嘎嘎
hessian异常

htmlunit抓取小说网站JS加载内容

博客分类：

java
js

java html JavaScript 浏览器

阅读更多

http://www.17k.com/chapter/76839/8810097.html

这是17K的一个小说的章节，内容是通过JS加载的，当我们用httpclient去抓取时，因为取得的是原始页面，所以无法获得章节的具体内容。

用HtmlUnit模拟浏览器运行，获得执行后的html页面，然后就可以抓取到想要的具体内容了^_^

public class HtmlUnitTest {
	
	public static void main(String[] args) throws Exception {
		// 新建一个WebClient对象，此对象相当于浏览器   
        final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);
        // 构造一个URL   
        URL url = new URL("http://www.17k.com/chapter/76839/8810097.html");
        // 通过getPage()方法，返回相应的页面   
        HtmlPage page = (HtmlPage) webClient.getPage(url);
        System.out.println(page.getHtmlElementById("chapterContent").asText());
	}

}

分享到：

hessian http response code:411 | Python内置数据类型

2012-10-31 13:25
浏览 6638
评论(0)
分类:Web前端
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java使用htmlunit工具抓取js中加载的数据.docx: java使用htmlunit工具抓取js中加载的数据.docx

通过htmlunit获取执行js代码后的html文档: HTMLUnit内建了一个基于WebClient的组件，它能够加载网页、执行JavaScript和处理DOM（文档对象模型）。以下是使用HTMLUnit进行此类操作的基本步骤： 1. **导入库**：在Java项目中，你需要添加HTMLUnit的依赖。如果...

htmlunit2.8 + jsoup1.7网站数据抓取: 1. **模拟浏览器行为**：HtmlUnit可以加载整个页面，包括执行JavaScript，使得它能够处理那些依赖JavaScript动态加载内容的网站。 2. **DOM操作**：它提供了对HTML文档对象模型（DOM）的访问，允许开发者通过CSS选择...

基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip: 基于Apache Nutch 1.8和Htmlunit组件，实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic ...

htmlunit-2.14: 2. **JavaScript支持**：HTMLUnit能够理解和执行JavaScript代码，这对于测试动态生成的内容或者依赖JavaScript的网站至关重要。它内置了 Rhino 和 Netty JavaScript 引擎，支持ECMAScript 5.1。 3. **DOM操作**：...

Htmlunit2.23-bin.zip: 总之，HTMLUnit 2.23提供了一个强大且高效的工具，适用于自动化测试和网页抓取，特别是对于那些依赖JavaScript的动态网站。通过理解和熟练使用这个库，开发者可以构建出精确、灵活的网页数据提取系统。

webCrawl:使用HTMLUnit，PhantomJS和JBrowserDriver抓取网址: 在进行网页抓取时，我们通常会遇到一些挑战，比如验证码、登录验证、动态加载内容等。HTMLUnit、PhantomJS和JBrowserDriver都有各自应对策略。例如，对于动态加载的内容，PhantomJS和JBrowserDriver可以等待特定元素...

针对 httpclient4.* 绕验证码获取公司信息包括 jsoup网页信息的爬虫及htmlUnit对动态网站信息的抓取: 4. 对于动态加载的内容，利用HtmlUnit模拟浏览器行为，执行页面上的JavaScript，确保所有内容都已加载完毕。 5. 使用HtmlUnit的API进一步提取动态生成的数据，如评论、评分等。 6. 整理并存储所获取的所有信息，可能...

htmlunit-2.43.0-bin.zip: 这对于自动化测试和网页抓取至关重要，因为许多现代网页依赖JavaScript来动态加载内容。 3. **WebClient**：HTMLUnit的核心组件WebClient提供了与网页交互的接口。你可以使用它来发送HTTP请求，接收响应，模拟用户...

htmlunit爬取网页并保存成Excel: HTMLUnit支持JavaScript，这意味着它可以运行网页中的脚本，这对于那些依赖JavaScript动态加载内容的网站尤其重要。通过调用`executeJavaScript()`方法，可以执行任意的JavaScript代码并获取结果。 4. **数据提取*...

htmlunit爬取数据转储excel: 总结来说，"htmlunit爬取数据转储excel"项目展示了如何利用HTMLUnit抓取网页信息，并通过Java和Apache POI将数据保存到Excel文件中，为数据处理和分析提供了便利。这是一次实用的Web抓取和数据存储实践，对于需要...

htmlunit依赖jar包: HTMLUnit是一款功能强大的Java库，它模拟了一个无头Web浏览器，允许开发者在没有真实浏览器环境的情况下执行JavaScript，处理Ajax请求，以及与网页进行交互。这个库对于自动化测试、数据抓取和网页爬虫项目非常有用...

传一个htmlunit依赖的jar包，官网所下: 2. 数据抓取：爬虫开发者可以利用HTMLUnit加载动态生成的网页，执行JavaScript并获取需要的数据。 3. 性能分析：在没有图形界面的环境中，HTMLUnit可以用来测试网页加载和执行速度。需要注意的是，虽然HTMLUnit在...

htmlunit包: - **数据抓取**：HTMLUnit可以用于爬虫程序，特别是那些需要处理JavaScript动态内容的网站。 - **性能测试**：在无GUI环境下，HTMLUnit可以帮助评估网站的性能，例如页面加载速度。操作HTMLUnit的基本步骤如下： ...

htmlunit参考文档: 3. **数据提取**：对于需要解析JavaScript生成内容的网站，HTMLUnit能提供便利的数据提取能力。三、API使用示例 1. **创建WebClient**： ```java WebClient webClient = new WebClient(); ``` 2. **设置...

htmlunit依赖的所有jar: HTMLUnit是一个Java库，模拟一个无头Web浏览器，主要用于自动化测试和网页抓取。它能够解析HTML、执行JavaScript，并返回用户可以操作的DOM元素。在Java应用中使用HTMLUnit，通常需要依赖一系列的JAR（Java Archive...

htmlunit所需要jar包: 7. **htmlunit-core-js-2.8.jar**：这是HTMLUnit的核心组件，包含了JavaScript引擎，使得HTMLUnit能够执行网页中的JavaScript代码，从而动态地加载和渲染页面。 8. **commons-logging-1.1.1.jar**：Apache Commons ...

htmlunit-2.1.5源码: 2. **JavaScript支持**：HTMLUnit不仅解析HTML，还支持执行JavaScript代码，这对于现代Web应用程序的测试至关重要，因为许多功能是通过JavaScript动态加载的。 3. **DOM解析**：HTMLUnit能解析完整的HTML文档并构建...

htmlunit-2.31.jar: 1. **JavaScript支持**：HTMLUnit不仅解析HTML，还支持执行JavaScript代码，这使得它能够处理那些依赖JavaScript动态加载内容的网页。在2.31版本中，这一功能可能得到了进一步优化，确保了与现代网页的兼容性。 2. ...

htmlunit爬虫技术: 1. **JavaScript支持**：HTMLUnit能够执行JavaScript代码，这对于许多动态加载内容的现代网站来说至关重要，因为这些网站的内容往往通过AJAX请求加载。 2. **头信息模拟**：HTMLUnit可以设置各种HTTP头信息，如User...

Global site tag (gtag.js) - Google Analytics