htmlparser，轻量级网页抓取分析工具 - - ITeye博客

`

bjmike

浏览: 282896 次
性别:
来自: 北京

最近访客更多访客>>

javamingming

ahww520

petehero

fxltsbl

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

bjmike： public static void main(String ...
检测OutOfMemoryError是否可以被捕捉
bjmike： setenfore 0,关闭防火墙
hdoop创建ssh互信
bjmike： helloboy077 写道java.lang.Object ...
检测OutOfMemoryError是否可以被捕捉
helloboy077： java.lang.Object java.lang.Thr ...
检测OutOfMemoryError是否可以被捕捉
jaedong：不如果想要这种结果只能让第一个线程制行完 td1Session ...
同一代码多线程并发的混乱情况

htmlparser，轻量级网页抓取分析工具

阅读更多

htmlparser简小精悍，对于抓取普通的html页面，具有按照css查找节点的功能，如：

public static void main(String[] args) throws IOException, ParserException {
        String site = "http://tech.qq.com/a/20131112/011680.htm";
        String site2="http://www.chinanews.com/gn/2013/11-12/5492942.shtml";
        URL url  = new URL(site2);
        URLConnection urlConnection = url.openConnection();
        Parser parser = new Parser(urlConnection);
        parser.setEncoding("GBK");

        /*TextExtractingVisitor visitor = new TextExtractingVisitor();
        parser.visitAllNodesWith(visitor);
        String textInPage = visitor.getExtractedText();*/


       /* AndFilter andFilter = new AndFilter(new TagNameFilter("div"),new HasAttributeFilter("id","Cnt-Main-Article-QQ"));
        NodeList nodes = parser.parse(andFilter);
        System.out.println("html:["+nodes.toHtml()+"]");*/

        //CssSelectorNodeFilter cssSelectorNodeFilter = new CssSelectorNodeFilter("#Cnt-Main-Article-QQ");
        CssSelectorNodeFilter cssSelectorNodeFilter = new CssSelectorNodeFilter(".left_zw");
        NodeList nodes2 = parser.parse(cssSelectorNodeFilter);
        System.out.println("html:["+nodes2.toHtml()+"]");
        //logger.info("text:["+textInPage+"]");

        logger.info("ok");
    }

相应的pom为：

<dependency>
            <groupId>org.htmlparser</groupId>
            <artifactId>htmlparser</artifactId>
            <version>2.1</version>
        </dependency>

分享到：

oschina版本管理工具git使用教程 | Package javax.enterprise.context Descrip ...

2013-11-18 18:03
浏览 1079
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

htmlparser实现从网页上抓取数据.doc: 它不依赖于其他Java库，这使得它成为一个轻量级的解决方案。htmlparser以其高速、稳定和易于扩展的特性而闻名，适用于数据抓取、HTML内容修改等多种场景。 **使用htmlparser的基本步骤：** 1. **创建Parser对象**...

htmlparser实现从网页上抓取数据.pdf: 1. **HTMLParser简介**：HTMLParser是一个轻量级的解析器，它能够解析HTML文档并将其转换为易于操作的结构，如DOM树或事件流。这使得开发者可以方便地遍历和分析HTML文档的结构，而不必关心HTML的语法细节。 2. **...

HTMLParser 2.0: HTMLParser库的一个重要优势是它不依赖于第三方库，因此对于简单的HTML解析任务，它是轻量级且方便的选择。然而，对于复杂的HTML文档，特别是那些包含CSS选择器和JavaScript的现代网页，可能需要更强大的库如...

HtmlParser2003源代码: 2. **DOM树构建**：虽然不直接构建完整的DOM树，但HTMLParser2003可以构建一种轻量级的数据结构来表示HTML文档的结构。这种结构便于遍历和查询，降低了内存占用，适合处理大型网页。 3. **标签处理**：HTMLParser...

htmlparser-1.0.5: 7. **性能**：由于其轻量级的设计，HTMLParser在处理大量HTML数据时通常具有较高的性能，比完全解析成DOM树的解析器更快。 8. **社区支持**：作为开源项目，HTMLParser有活跃的社区支持，开发者可以在遇到问题时...

htmlparser解析API: 它不依赖任何其他Java库，使得它成为一个轻量级且高效的解决方案。HTMLParser设计的目的是为了方便地解析、提取或修改HTML内容，适用于网页数据抓取和HTML文档处理。在使用HTMLParser时，首先需要创建一个`Parser`...

htmlparser 相关jar包: 4. **sax2.jar**：SAX（Simple API for XML）是一个轻量级的解析器，用于读取XML数据。尽管HTMLParser本身并不直接依赖于SAX，但sax2.jar可能是为了与SAX解析器集成，以便在处理HTML时利用SAX事件驱动的解析模式。这...

网络爬虫 HTMLParser 使用指南: HTMLParser以其轻量级和速度快著称，虽然缺乏完整的官方文档支持，但通过一定的学习和实践，开发者可以很好地利用它来构建爬虫程序。根据给出的文件内容，我们可以梳理出以下几个知识点： 1. HTMLParser的基本...

htmlparser电子书: HTMLParser是一款轻量级的解析器，它的设计目标是能够处理不规则或不标准的HTML代码，这在实际网络环境中非常常见。它能够帮助开发者有效地提取网页中的数据，进行自动化处理，例如爬虫项目或内容分析。二、API...

HTMLParser.Net_Version 1.8.0 Assembly Only: 总的来说，HTMLParser.Net Version 1.8.0 Assembly Only是一个轻量级但功能强大的HTML解析工具，它为.NET开发者提供了便利的手段，帮助他们高效地处理HTML内容，尤其在数据提取和网页自动化领域有着广泛的应用。...

基于webmagic框架的轻量级爬虫爬取豆瓣电影数据.zip: 本项目是基于WebMagic实现的一个轻量级爬虫，用于爬取豆瓣电影的数据。下面将详细介绍如何使用WebMagic框架来构建这样一个爬虫以及爬取豆瓣电影数据的相关知识点。 1. **WebMagic框架介绍** WebMagic是一个无须...

HtmlParser笔记: 这种设计使得解析过程轻量级且高效，尤其适合处理大型或复杂的HTML页面。二、核心概念 1. **解析器（Parser）**：HtmlParser的主要组件，负责读取HTML源码并触发相应的事件。 2. **事件处理器（Handler）**：...

htmlparser实现爬虫.doc: 它不依赖任何其他Java库，使得它成为一个轻量级且独立的解决方案。HTMLParser 的设计旨在高效、稳定地解析HTML，即使面对格式不规范或复杂的网页也能准确处理。其强大的功能和灵活的结构使得它成为开发网页抓取、...

htmlparser使用指南: HTMLParser是基于Java语言的轻量级HTML解析器，它的设计目标是简化HTML文档的解析过程，提供一种相对简单的API来处理复杂的HTML结构。由于HTML的非结构化特性，直接处理HTML文本往往较为困难，HTMLParser则通过解析...

基于Java的实例开发源码-HTML文档解析器 HTMLParser.zip: HTMLParser是一个轻量级的库，设计用于解析HTML文档并将其转换为可操作的数据结构，方便进一步处理。 3. **HTMLParser库**：HTMLParser库提供了一种简单的方式来处理HTML文档，支持DOM（Document Object Model）和...

commons系列 ezmorph-1.0.4 filterbuilder json-lib-2.4-jdk15 htmlparser: JSON是一种轻量级的数据交换格式，广泛用于Web服务和客户端之间的数据传输。json-lib的2.4-jdk15版本可能是针对Java 1.5的优化版本，提供了解析和生成JSON的API。它支持多种数据模型，包括Java集合、DOM、SAX、JAXB...

乐彩双色球信息爬虫: 然后，JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。在爬虫程序中，JSON常用于结构化存储抓取到的数据，便于后续的分析或传输。例如，双色球的每期...

网页导航信息的提取（C#语言）: 这个项目可能使用了自定义的HTML解析器或者已有的库，如HtmlAgilityPack，它是一个轻量级且高效的HTML解析器，能处理不规则的HTML文档。使用HtmlAgilityPack提取链接的代码如下： ```csharp using ...

Global site tag (gtag.js) - Google Analytics