`
bjmike
  • 浏览: 282896 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

htmlparser,轻量级网页抓取分析工具

 
阅读更多
htmlparser简小精悍,对于抓取普通的html页面,具有按照css查找节点的功能,如:

public static void main(String[] args) throws IOException, ParserException {
        String site = "http://tech.qq.com/a/20131112/011680.htm";
        String site2="http://www.chinanews.com/gn/2013/11-12/5492942.shtml";
        URL url  = new URL(site2);
        URLConnection urlConnection = url.openConnection();
        Parser parser = new Parser(urlConnection);
        parser.setEncoding("GBK");

        /*TextExtractingVisitor visitor = new TextExtractingVisitor();
        parser.visitAllNodesWith(visitor);
        String textInPage = visitor.getExtractedText();*/


       /* AndFilter andFilter = new AndFilter(new TagNameFilter("div"),new HasAttributeFilter("id","Cnt-Main-Article-QQ"));
        NodeList nodes = parser.parse(andFilter);
        System.out.println("html:["+nodes.toHtml()+"]");*/

        //CssSelectorNodeFilter cssSelectorNodeFilter = new CssSelectorNodeFilter("#Cnt-Main-Article-QQ");
        CssSelectorNodeFilter cssSelectorNodeFilter = new CssSelectorNodeFilter(".left_zw");
        NodeList nodes2 = parser.parse(cssSelectorNodeFilter);
        System.out.println("html:["+nodes2.toHtml()+"]");
        //logger.info("text:["+textInPage+"]");

        logger.info("ok");
    }



相应的pom为:
<dependency>
            <groupId>org.htmlparser</groupId>
            <artifactId>htmlparser</artifactId>
            <version>2.1</version>
        </dependency>
分享到:
评论

相关推荐

    htmlparser实现从网页上抓取数据.doc

    它不依赖于其他Java库,这使得它成为一个轻量级的解决方案。htmlparser以其高速、稳定和易于扩展的特性而闻名,适用于数据抓取、HTML内容修改等多种场景。 **使用htmlparser的基本步骤:** 1. **创建Parser对象**...

    htmlparser实现从网页上抓取数据.pdf

    1. **HTMLParser简介**:HTMLParser是一个轻量级的解析器,它能够解析HTML文档并将其转换为易于操作的结构,如DOM树或事件流。这使得开发者可以方便地遍历和分析HTML文档的结构,而不必关心HTML的语法细节。 2. **...

    HTMLParser 2.0

    HTMLParser库的一个重要优势是它不依赖于第三方库,因此对于简单的HTML解析任务,它是轻量级且方便的选择。然而,对于复杂的HTML文档,特别是那些包含CSS选择器和JavaScript的现代网页,可能需要更强大的库如...

    HtmlParser2003源代码

    2. **DOM树构建**:虽然不直接构建完整的DOM树,但HTMLParser2003可以构建一种轻量级的数据结构来表示HTML文档的结构。这种结构便于遍历和查询,降低了内存占用,适合处理大型网页。 3. **标签处理**:HTMLParser...

    htmlparser-1.0.5

    7. **性能**:由于其轻量级的设计,HTMLParser在处理大量HTML数据时通常具有较高的性能,比完全解析成DOM树的解析器更快。 8. **社区支持**:作为开源项目,HTMLParser有活跃的社区支持,开发者可以在遇到问题时...

    htmlparser解析API

    它不依赖任何其他Java库,使得它成为一个轻量级且高效的解决方案。HTMLParser设计的目的是为了方便地解析、提取或修改HTML内容,适用于网页数据抓取和HTML文档处理。 在使用HTMLParser时,首先需要创建一个`Parser`...

    htmlparser 相关jar包

    4. **sax2.jar**:SAX(Simple API for XML)是一个轻量级的解析器,用于读取XML数据。尽管HTMLParser本身并不直接依赖于SAX,但sax2.jar可能是为了与SAX解析器集成,以便在处理HTML时利用SAX事件驱动的解析模式。这...

    网络爬虫 HTMLParser 使用指南

    HTMLParser以其轻量级和速度快著称,虽然缺乏完整的官方文档支持,但通过一定的学习和实践,开发者可以很好地利用它来构建爬虫程序。 根据给出的文件内容,我们可以梳理出以下几个知识点: 1. HTMLParser的基本...

    htmlparser电子书

    HTMLParser是一款轻量级的解析器,它的设计目标是能够处理不规则或不标准的HTML代码,这在实际网络环境中非常常见。它能够帮助开发者有效地提取网页中的数据,进行自动化处理,例如爬虫项目或内容分析。 二、API...

    HTMLParser.Net_Version 1.8.0 Assembly Only

    总的来说,HTMLParser.Net Version 1.8.0 Assembly Only是一个轻量级但功能强大的HTML解析工具,它为.NET开发者提供了便利的手段,帮助他们高效地处理HTML内容,尤其在数据提取和网页自动化领域有着广泛的应用。...

    基于webmagic框架的轻量级爬虫爬取豆瓣电影数据.zip

    本项目是基于WebMagic实现的一个轻量级爬虫,用于爬取豆瓣电影的数据。下面将详细介绍如何使用WebMagic框架来构建这样一个爬虫以及爬取豆瓣电影数据的相关知识点。 1. **WebMagic框架介绍** WebMagic是一个无须...

    HtmlParser笔记

    这种设计使得解析过程轻量级且高效,尤其适合处理大型或复杂的HTML页面。 二、核心概念 1. **解析器(Parser)**:HtmlParser的主要组件,负责读取HTML源码并触发相应的事件。 2. **事件处理器(Handler)**:...

    htmlparser实现爬虫.doc

    它不依赖任何其他Java库,使得它成为一个轻量级且独立的解决方案。HTMLParser 的设计旨在高效、稳定地解析HTML,即使面对格式不规范或复杂的网页也能准确处理。其强大的功能和灵活的结构使得它成为开发网页抓取、...

    htmlparser使用指南

    HTMLParser是基于Java语言的轻量级HTML解析器,它的设计目标是简化HTML文档的解析过程,提供一种相对简单的API来处理复杂的HTML结构。由于HTML的非结构化特性,直接处理HTML文本往往较为困难,HTMLParser则通过解析...

    基于Java的实例开发源码-HTML文档解析器 HTMLParser.zip

    HTMLParser是一个轻量级的库,设计用于解析HTML文档并将其转换为可操作的数据结构,方便进一步处理。 3. **HTMLParser库**:HTMLParser库提供了一种简单的方式来处理HTML文档,支持DOM(Document Object Model)和...

    commons系列 ezmorph-1.0.4 filterbuilder json-lib-2.4-jdk15 htmlparser

    JSON是一种轻量级的数据交换格式,广泛用于Web服务和客户端之间的数据传输。json-lib的2.4-jdk15版本可能是针对Java 1.5的优化版本,提供了解析和生成JSON的API。它支持多种数据模型,包括Java集合、DOM、SAX、JAXB...

    乐彩双色球信息爬虫

    然后,JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成。在爬虫程序中,JSON常用于结构化存储抓取到的数据,便于后续的分析或传输。例如,双色球的每期...

    网页导航信息的提取(C#语言)

    这个项目可能使用了自定义的HTML解析器或者已有的库,如HtmlAgilityPack,它是一个轻量级且高效的HTML解析器,能处理不规则的HTML文档。 使用HtmlAgilityPack提取链接的代码如下: ```csharp using ...

Global site tag (gtag.js) - Google Analytics