htmlunit相当于java的一个浏览器,可以分析页面,获得页面数据
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.WebRequestSettings;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlTable;
import com.gargoylesoftware.htmlunit.html.HtmlTableRow;
final WebClient wc = new WebClient();
wc.setJavaScriptEnabled(false);
WebRequestSettings settings = new WebRequestSettings(new URL(
QUERY_FORM_URL + "&cph=" + vehicleNo + "&cx=" + vehicleColor));
settings.setCharset("gb2312");
HtmlPage page = (HtmlPage) wc.getPage(settings);
List<HtmlTable> tables = page.getDocumentHtmlElement()
.getHtmlElementsByTagName("table");
先关连接:
http://htmlunit.sourceforge.net/
http://htmlparser.sourceforge.net/
分享到:
相关推荐
4. **DOM解析**:HTMLUnit解析网页为DOM树,允许开发者通过Java API来访问和操作页面元素。 5. **模拟浏览器行为**:HTMLUnit可以模拟多种浏览器的行为,如设置User-Agent字符串、处理cookies、管理会话等。 6. **...
HTMLUnit会加载页面内容,并解析DOM结构。可以使用XPath或CSS选择器来定位和提取网页上的特定元素,如文本、链接、表单等。 3. **执行JavaScript**: HTMLUnit支持JavaScript,这意味着它可以运行网页中的脚本,这...
4. **页面解析**:HTMLUnit能够解析HTML文档,提取出所需的信息,这对于信息抽取和数据分析至关重要。它提供了方便的方法来查找和访问DOM元素,使得开发者可以轻松地定位到网页上的特定部分。 5. **API友好**:...
parse-s2jh: 基于XPath解析页面元素内容; 基于数据库模式输出解析到结构化数据; 对于个别复杂类型AJAX页面定制判断页面加载完成的回调判断逻辑 index-s2jh: 追加设置需要额外传递给solr索引的属性...
HTMLUnit的核心是基于Jakarta HtmlUnit,这是一个高度可配置的Web客户端模拟器,能够执行JavaScript,解析和渲染HTML页面。它提供了对HTTP协议的支持,包括GET和POST请求,并能够处理cookies和其他会话管理功能。这...
这个例子展示了如何启动一个HtmlUnitDriver,导航到一个网页,并打印出页面标题。 请注意,具体的JAR文件版本可能会随着HTMLUnit的更新而变化,因此在实际使用时,最好参考HTMLUnit的官方文档或最新的Maven依赖来...
HTMLUnit是一个功能强大的Java库,它模拟了一个无头Web浏览器,允许开发者进行自动化网页测试和网络爬虫工作。这个库的核心在于它能够解析HTML、执行JavaScript,并与网页上的元素进行交互,而无需真实地打开一个...
HTMLUnit是一款功能强大的Java库,它模拟了一个无头Web浏览器,允许开发者在没有真实浏览器环境的情况下执行JavaScript,处理Ajax请求,以及与网页进行交互。这个库对于自动化测试、数据抓取和网页爬虫项目非常有用...
HTMLUnit的核心功能在于它可以解析和执行HTML、JavaScript,甚至CSS,这使得它在进行网页自动化测试时非常有用。由于它是无头的,即没有图形用户界面,所以它非常适合在服务器环境中运行,例如持续集成(CI)流程中。 ...
HTMLUnit是一个Java库,设计用于模拟浏览器行为,特别是在无头模式下执行JavaScript并解析HTML文档。这个库在自动化测试、网页抓取以及其他需要与网页交互的场景中非常有用。通过HTMLUnit,开发者可以编写程序来模拟...
2. **cssparser**:这是一个用于解析CSS(层叠样式表)的库,允许HTMLUnit解析并应用网页的样式规则,这对于准确地呈现页面的视觉效果至关重要。 3. **htmlunit**:这是HTMLUnit的核心库,它模拟了一个无头Web...
6. **网页对象模型**:HTMLUnit将网页元素封装为Java对象,如`HtmlPage`代表整个HTML页面,`HtmlAnchor`代表HTML链接,`HtmlForm`代表表单等。这些对象提供了丰富的API,可以用于获取元素属性、执行点击事件等。 7....
7. **htmlunit-core-js-2.8.jar**:这是HTMLUnit的核心组件,包含了JavaScript引擎,使得HTMLUnit能够执行网页中的JavaScript代码,从而动态地加载和渲染页面。 8. **commons-logging-1.1.1.jar**:Apache Commons ...
3. **DOM解析**:HTMLUnit能解析完整的HTML文档并构建一个DOM树,允许开发者通过编程方式访问和操作网页元素。 4. **网络通信模拟**:它可以模拟浏览器的HTTP和HTTPS请求,包括设置cookies、处理重定向等,提供了一...
HTMLUnit是一个Java库,它提供了一个无头浏览器模拟器,用于自动化Web页面的导航和交互。这个库在测试、数据抓取以及不需图形用户界面的场景中非常有用。"htmlUnit所需jar包"的标题表明这是一个包含HTMLUnit运行所需...
4. **Page对象模型**: HTMLUnit将网页解析为一系列的Page对象,如HtmlPage、TextPage等。这些对象提供了访问页面元素、执行JavaScript方法以及提取页面内容的方法。 5. **异常处理**: 在处理网页时,HTMLUnit可能会...
HTMLUnit的核心特性在于它能够解析和执行JavaScript,这使得它在处理动态内容丰富的网页时非常有效。它通过模拟浏览器的行为,如加载页面、执行脚本、处理Ajax请求等,来获取网页的最终状态。这种能力对于爬虫开发者...
HTMLUnit提供了一系列API,如`HtmlPage`,可以用来解析和操作网页元素,执行JavaScript,以及模拟用户行为,如点击按钮、填写表单等。此外,`WebConnection`接口允许自定义网络通信逻辑,以便在爬虫过程中进行更精细...
HTMLUnit是一个Java库,它提供了一个无头浏览器模拟器,用于自动化Web页面的测试和抓取。这个库的核心功能是能够解析、渲染和执行JavaScript,从而使得开发者可以在没有实际浏览器环境的情况下,对网页进行功能测试...