`
hao861002
  • 浏览: 86415 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Htmlparse解析HTML文档(例)

阅读更多
import java.util.HashMap;  
import java.util.Map;  
import org.htmlparser.Node;  
import org.htmlparser.NodeFilter;  
import org.htmlparser.Parser;  
import org.htmlparser.tags.LinkTag;  
import org.htmlparser.util.NodeList;  
import com.yao.http.HttpRequester;  
import com.yao.http.HttpRespons;  
   
/** 
* JAVA中使用Htmlparse解析HTML文档,使用htmlparse遍历出HTML文档的所有超链接(<a>标记)。 
*  
* @author YYmmiinngg 
*/ 
public class Test {  
    public static void main(String[] args) {  
        try {  
/* 首先我们先使用HttpRequester类和HttpRespons类获得一个HTTP请求中的数据(HTML文档)。 可以从(http://download.csdn.net/source/321516)中下载htmlloader,该库中有上述类;或从我的《JAVA发送HTTP请求,返回HTTP响应内容,实例及应用》一文中摘取上述两JAVA类的代码。htmlparse可以从(http://download.csdn.net/source/321507)中下载 
*/ 
            Map<String, String> map = new HashMap<String, String>();  
            HttpRequester request = new HttpRequester();  
            HttpRespons hr = request.sendGet("http://www.baidu.com");
            Parser parser = Parser.createParser(hr.getContent(), hr  
                    .getContentEncoding());  
            try {  
                // 通过过滤器过滤出<A>标签  
                NodeList nodeList = parser  
                        .extractAllNodesThatMatch(new NodeFilter() {  
                            //实现该方法,用以过滤标签  
                            public boolean accept(Node node) {  
                                if (node instanceof LinkTag)//标记  
                                    return true;  
                                return false;  
                            }  
                        });  
                // 打印  
                for (int i = 0; i < nodeList.size(); i++) {  
                    LinkTag n = (LinkTag) nodeList.elementAt(i);  
                    System.out.print(n.getStringText() + " ==>> ");  
                    System.out.println(n.extractLink());  
                }  
            } catch (Exception e) {  
                e.printStackTrace();  
            }  
   
        } catch (Exception e) {  
            e.printStackTrace();  
        }  
    }  
}
分享到:
评论

相关推荐

    htmlparse 解析html网页

    - **解析HTML文档**:最后,使用`feed()`方法将HTML字符串传递给解析器,解析器将按照你定义的处理函数来解析内容。 3. **示例代码** ```python from html.parser import HTMLParser class MyHTMLParser...

    Winista.Htmlparse.dll,C#源码,HTML解析

    Winista.Htmlparse.dll是一个C#编写的库,它为.NET开发者提供了一种高效、便捷的方式来解析HTML文档。本文将详细探讨Winista.Htmlparse.dll的原理、使用方法以及如何在Visual Studio 2010环境下进行开发。 首先,...

    htmlparse 2.0 + 中文doc文档 天涯浪子

    HTMLParser是一个开源的Java库,专门用于解析HTML文档。它为开发者提供了一种方便的方式来处理网页内容,尤其是在从网页上抓取数据时。这个“htmlparse 2.0 + 中文doc文档 天涯浪子”集合包含了HTMLParser 2.0版本的...

    htmlparser中文文档

    - **解析HTML**:能够高效地解析HTML文档,包括HTML5在内的多种版本。 - **提取内容**:可以从HTML文档中提取特定的文本、链接或其他元素。 - **修改HTML**:支持对解析后的HTML文档进行修改,如替换文本、添加或...

    Java HtmlParse提取标签中的值操作

    Java HtmlParse 是一个强大的 HTML 解析器,可以帮助开发者快速提取 HTML 文档中的标签和值。下面将详细介绍 Java HtmlParse 提取标签中的值操作的知识点。 HtmlParse 简介 HtmlParse 是一个基于 Java 的 HTML ...

    HTMLparse 包

    总结起来,HTMLparse包是搜索引擎开发中的关键工具,它通过解析HTML页面,提取相关信息,帮助搜索引擎构建索引,提升搜索质量和效率。在实际应用中,开发者可以利用这个包来实现定制化的网页抓取和信息处理功能。

    htmlparse:使用 HTML 解析器

    HTML解析是程序处理HTML文档的一种方法,特别是在网页爬虫、数据提取或自动化任务中非常常见。Python作为一种功能强大的编程语言,提供了多种库来帮助我们解析HTML。本项目中提到的"htmlparse"可能是作者自己编写的...

    使用Java编程解析Web页面

    虽然市场上有许多现成的HTML解析器可供选择,但有时它们并不能完全满足特定的需求,因此有必要学习如何自行编写代码来解析HTML文档。Java作为一种广泛使用的网络编程语言,在这方面具有一定的优势。接下来,我们将...

    HttpRequest+Document读取xml+HtmlParse+AsyncTask

    HttpRequest用于与服务器进行通信,获取XML或HTML文档。例如,使用HttpURLConnection,你可以创建一个连接,设置请求方法(GET或POST),添加请求头,然后读取响应数据。 2. **Document**: 这里指的是Java DOM解析...

    httpClient和htmlparse获取网页数据使用jar

    HtmlParser是一个Java库,专门用于解析HTML文档,它支持事件驱动(如SAX)和DOM两种解析模式。HtmlParser与HtmlLexer一起工作,HtmlLexer将HTML源代码转换为一系列事件,然后由HtmlParser处理这些事件,从而解析出...

    拓展HtmlParse标签支持

    HtmlParser通常通过解析HTML文档的语法结构,将HTML元素转换为树形结构(DOM树),以便开发者可以方便地遍历和访问各个元素。然而,由于HTML语言的灵活性,有些网页可能会包含HTML5的新标签,或者网站开发者自定义的...

    Python 网页解析HTMLParse的实例详解

    ### Python 网页解析 HTMLParse 的实例详解 在 Python 中进行网页解析是一项常见的任务,尤其是在数据抓取、网络爬虫开发等领域。Python 提供了多种工具和技术来处理 HTML 和 XML 文档,其中 `HTMLParser` 是一个轻...

    2010最新解析html开源项目jsoup源码及api下载及jsoup.jar

    jsoup能够解析HTML文档,清洁不规范的HTML,并可以从中提取结构化数据。这个开源项目在2010年进行了重大更新,带来了最新的解析功能和API,使得开发者能更高效地处理网页内容。 **源码分析** 在提供的压缩包中,`...

    htmlparse.jar httpClient.jar je.jar

    HTMLParser是一个用Java编写的开源库,它允许开发者解析和操作HTML文档。这个库通常用于从网页中提取数据、创建爬虫或者进行自动化测试等任务。HTMLParser提供了两种解析模式:事件驱动的解析(类似于SAX)和基于...

    李腾飞CMS 文档资料

    HTMLParse提供了一种简单的方式来解析HTML文档,通过元素树(ElementTree)结构来表示HTML页面,允许用户通过XPath或CSS选择器来查找和操作特定的HTML元素。这在进行Web爬虫开发、网站自动化测试或者数据分析时非常...

    网络爬虫Http使用文档(附代码)

    在给定的描述中提到了HTMLParse,这是一个用于解析HTML文档的工具。在Java中,我们可以使用Jsoup库来解析HTML,它提供了方便的API来提取和操作数据。 例如,要查找HTML中的所有`&lt;div&gt;`标签,可以这样做: ```java ...

    java开发爬虫程序必备jar包集合

    这些库允许Java程序解析HTML文档,提取所需的数据。它们提供了API来查找特定元素,如链接、标题、段落等,或者使用CSS选择器选取数据。在爬虫中,解析HTML是至关重要的,因为爬取的数据通常是以HTML格式返回的,需要...

    网络爬虫介绍

    可以使用HTML解析库,如Jsoup或本例中的HtmlParse,来提取所需数据。 5. **处理数据**:根据业务需求,对解析后的数据进行进一步处理,如存储、清洗、分析等。 关于HTMLParse的使用,我们有两个主要的过滤器类型: ...

    htmlloader

    用于JAVA中的HTTP请求,htmlloader用于发送HTTP请求并返回文档对象 可以结合htmlparse组件完成对HTML文档的解析

    网络爬虫 java版

    【HtmlParse】是指解析HTML文档的过程,它是爬虫获取和处理网页信息的关键步骤。在Java中,Jsoup是一个流行的选择,它提供了一种简单的方式来解析HTML,查找、提取和修改数据。通过Jsoup,我们可以定位到特定的HTML...

Global site tag (gtag.js) - Google Analytics