htmlparser简小精悍,对于抓取普通的html页面,具有按照css查找节点的功能,如:
public static void main(String[] args) throws IOException, ParserException {
String site = "http://tech.qq.com/a/20131112/011680.htm";
String site2="http://www.chinanews.com/gn/2013/11-12/5492942.shtml";
URL url = new URL(site2);
URLConnection urlConnection = url.openConnection();
Parser parser = new Parser(urlConnection);
parser.setEncoding("GBK");
/*TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
String textInPage = visitor.getExtractedText();*/
/* AndFilter andFilter = new AndFilter(new TagNameFilter("div"),new HasAttributeFilter("id","Cnt-Main-Article-QQ"));
NodeList nodes = parser.parse(andFilter);
System.out.println("html:["+nodes.toHtml()+"]");*/
//CssSelectorNodeFilter cssSelectorNodeFilter = new CssSelectorNodeFilter("#Cnt-Main-Article-QQ");
CssSelectorNodeFilter cssSelectorNodeFilter = new CssSelectorNodeFilter(".left_zw");
NodeList nodes2 = parser.parse(cssSelectorNodeFilter);
System.out.println("html:["+nodes2.toHtml()+"]");
//logger.info("text:["+textInPage+"]");
logger.info("ok");
}
相应的pom为:
<dependency>
<groupId>org.htmlparser</groupId>
<artifactId>htmlparser</artifactId>
<version>2.1</version>
</dependency>
分享到:
相关推荐
它不依赖于其他Java库,这使得它成为一个轻量级的解决方案。htmlparser以其高速、稳定和易于扩展的特性而闻名,适用于数据抓取、HTML内容修改等多种场景。 **使用htmlparser的基本步骤:** 1. **创建Parser对象**...
1. **HTMLParser简介**:HTMLParser是一个轻量级的解析器,它能够解析HTML文档并将其转换为易于操作的结构,如DOM树或事件流。这使得开发者可以方便地遍历和分析HTML文档的结构,而不必关心HTML的语法细节。 2. **...
HTMLParser库的一个重要优势是它不依赖于第三方库,因此对于简单的HTML解析任务,它是轻量级且方便的选择。然而,对于复杂的HTML文档,特别是那些包含CSS选择器和JavaScript的现代网页,可能需要更强大的库如...
2. **DOM树构建**:虽然不直接构建完整的DOM树,但HTMLParser2003可以构建一种轻量级的数据结构来表示HTML文档的结构。这种结构便于遍历和查询,降低了内存占用,适合处理大型网页。 3. **标签处理**:HTMLParser...
7. **性能**:由于其轻量级的设计,HTMLParser在处理大量HTML数据时通常具有较高的性能,比完全解析成DOM树的解析器更快。 8. **社区支持**:作为开源项目,HTMLParser有活跃的社区支持,开发者可以在遇到问题时...
它不依赖任何其他Java库,使得它成为一个轻量级且高效的解决方案。HTMLParser设计的目的是为了方便地解析、提取或修改HTML内容,适用于网页数据抓取和HTML文档处理。 在使用HTMLParser时,首先需要创建一个`Parser`...
4. **sax2.jar**:SAX(Simple API for XML)是一个轻量级的解析器,用于读取XML数据。尽管HTMLParser本身并不直接依赖于SAX,但sax2.jar可能是为了与SAX解析器集成,以便在处理HTML时利用SAX事件驱动的解析模式。这...
HTMLParser以其轻量级和速度快著称,虽然缺乏完整的官方文档支持,但通过一定的学习和实践,开发者可以很好地利用它来构建爬虫程序。 根据给出的文件内容,我们可以梳理出以下几个知识点: 1. HTMLParser的基本...
HTMLParser是一款轻量级的解析器,它的设计目标是能够处理不规则或不标准的HTML代码,这在实际网络环境中非常常见。它能够帮助开发者有效地提取网页中的数据,进行自动化处理,例如爬虫项目或内容分析。 二、API...
总的来说,HTMLParser.Net Version 1.8.0 Assembly Only是一个轻量级但功能强大的HTML解析工具,它为.NET开发者提供了便利的手段,帮助他们高效地处理HTML内容,尤其在数据提取和网页自动化领域有着广泛的应用。...
本项目是基于WebMagic实现的一个轻量级爬虫,用于爬取豆瓣电影的数据。下面将详细介绍如何使用WebMagic框架来构建这样一个爬虫以及爬取豆瓣电影数据的相关知识点。 1. **WebMagic框架介绍** WebMagic是一个无须...
这种设计使得解析过程轻量级且高效,尤其适合处理大型或复杂的HTML页面。 二、核心概念 1. **解析器(Parser)**:HtmlParser的主要组件,负责读取HTML源码并触发相应的事件。 2. **事件处理器(Handler)**:...
它不依赖任何其他Java库,使得它成为一个轻量级且独立的解决方案。HTMLParser 的设计旨在高效、稳定地解析HTML,即使面对格式不规范或复杂的网页也能准确处理。其强大的功能和灵活的结构使得它成为开发网页抓取、...
HTMLParser是基于Java语言的轻量级HTML解析器,它的设计目标是简化HTML文档的解析过程,提供一种相对简单的API来处理复杂的HTML结构。由于HTML的非结构化特性,直接处理HTML文本往往较为困难,HTMLParser则通过解析...
HTMLParser是一个轻量级的库,设计用于解析HTML文档并将其转换为可操作的数据结构,方便进一步处理。 3. **HTMLParser库**:HTMLParser库提供了一种简单的方式来处理HTML文档,支持DOM(Document Object Model)和...
JSON是一种轻量级的数据交换格式,广泛用于Web服务和客户端之间的数据传输。json-lib的2.4-jdk15版本可能是针对Java 1.5的优化版本,提供了解析和生成JSON的API。它支持多种数据模型,包括Java集合、DOM、SAX、JAXB...
然后,JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成。在爬虫程序中,JSON常用于结构化存储抓取到的数据,便于后续的分析或传输。例如,双色球的每期...
这个项目可能使用了自定义的HTML解析器或者已有的库,如HtmlAgilityPack,它是一个轻量级且高效的HTML解析器,能处理不规则的HTML文档。 使用HtmlAgilityPack提取链接的代码如下: ```csharp using ...