`
yymmiinngg
  • 浏览: 180183 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

JAVA中使用Htmlparse解析HTML文档

阅读更多
import java.util.HashMap;
import java.util.Map;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import com.yao.http.HttpRequester;
import com.yao.http.HttpRespons;
 
/**
 * JAVA中使用Htmlparse解析HTML文档,使用htmlparse遍历出HTML文档的所有超链接(<a>标记)。
 * 
 * @author YYmmiinngg
 */
public class Test {
	public static void main(String[] args) {
		try {
/* 首先我们先使用HttpRequester类和HttpRespons类获得一个HTTP请求中的数据(HTML文档)。 可以从(http://download.csdn.net/source/321516)中下载htmlloader,该库中有上述类;或从我的《JAVA发送HTTP请求,返回HTTP响应内容,实例及应用》一文中摘取上述两JAVA类的代码。htmlparse可以从(http://download.csdn.net/source/321507)中下载
*/
			Map<String, String> map = new HashMap<String, String>();
			HttpRequester request = new HttpRequester();
			HttpRespons hr = request.sendGet("http://www.baidu.com");
 
			Parser parser = Parser.createParser(hr.getContent(), hr
					.getContentEncoding());
			try {
				// 通过过滤器过滤出<A>标签
				NodeList nodeList = parser
						.extractAllNodesThatMatch(new NodeFilter() {
							//实现该方法,用以过滤标签
							public boolean accept(Node node) {
								if (node instanceof LinkTag)//<A>标记
									return true;
								return false;
							}
						});
				// 打印
				for (int i = 0; i < nodeList.size(); i++) {
					LinkTag n = (LinkTag) nodeList.elementAt(i);
					System.out.print(n.getStringText() + " ==>> ");
					System.out.println(n.extractLink());
				}
			} catch (Exception e) {
				e.printStackTrace();
			}
 
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
}

 

分享到:
评论
2 楼 racnow 2008-07-25  
日,又搜到!!!!!!!!!!!!!!!!!!!!!!!!!!!
1 楼 racnow 2008-07-25  
哇靠,用不着到处发吧!!!我想找点这方面的资料看都不行!!!一搜就搜到你这篇!!!!!!

相关推荐

    Java HtmlParse提取标签中的值操作

    Java HtmlParse 是一个强大的 HTML 解析器,可以帮助开发者快速提取 HTML 文档中的标签和值。下面将详细介绍 Java HtmlParse 提取标签中的值操作的知识点。 HtmlParse 简介 HtmlParse 是一个基于 Java 的 HTML ...

    使用Java编程解析Web页面

    当我们使用搜索引擎(如Google或Yahoo)在海量信息中查找所需资料时,实际上是依赖于一种被称为“网络蜘蛛”(Spider)的软件在不断地在网络上爬取信息并对HTML文档进行解析和记录。虽然市场上有许多现成的HTML解析...

    htmlparse 2.0 + 中文doc文档 天涯浪子

    HTMLParser是一个开源的Java库,专门用于解析HTML文档。它为开发者提供了一种方便的方式来处理网页内容,尤其是在从网页上抓取数据时。这个“htmlparse 2.0 + 中文doc文档 天涯浪子”集合包含了HTMLParser 2.0版本的...

    httpClient和htmlparse获取网页数据使用jar

    HtmlParser是一个Java库,专门用于解析HTML文档,它支持事件驱动(如SAX)和DOM两种解析模式。HtmlParser与HtmlLexer一起工作,HtmlLexer将HTML源代码转换为一系列事件,然后由HtmlParser处理这些事件,从而解析出...

    htmlparser中文文档

    该工具主要用于解析和提取HTML文档中的内容,具有高度的效率和准确性。它适用于各种场景,如网页抓取、HTML文档的修改与增强等。 #### 二、HTMLParser核心功能 - **解析HTML**:能够高效地解析HTML文档,包括HTML5...

    HttpRequest+Document读取xml+HtmlParse+AsyncTask

    在Android开发中,HttpRequest、Document、HtmlParse以及AsyncTask是常用的技术组件,它们分别用于网络请求、XML解析、HTML解析和异步任务处理。这些技术的结合使用可以帮助开发者实现从远程服务器获取数据,解析XML...

    htmlparse.jar httpClient.jar je.jar

    标题中的"htmlparse.jar httpClient.jar je.jar"暗示了这些文件是Java编程中使用的库或框架,主要用于处理HTML解析和HTTP客户端通信。以下是对这些库的详细说明: 1. **htmlparse.jar**: 这个文件可能包含一个HTML...

    网络爬虫 java版

    【HtmlParse】是指解析HTML文档的过程,它是爬虫获取和处理网页信息的关键步骤。在Java中,Jsoup是一个流行的选择,它提供了一种简单的方式来解析HTML,查找、提取和修改数据。通过Jsoup,我们可以定位到特定的HTML...

    java解析给定url

    HtmlParse,解析给定url中的中文字符,输出到文本文件中: url:可配置多个 输出路径:可配置 package com.lhs; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import ...

    java开发爬虫程序必备jar包集合

    这些库允许Java程序解析HTML文档,提取所需的数据。它们提供了API来查找特定元素,如链接、标题、段落等,或者使用CSS选择器选取数据。在爬虫中,解析HTML是至关重要的,因为爬取的数据通常是以HTML格式返回的,需要...

    JAVA 模拟网页是登录

    6. **实战应用**:在压缩包中的`HtmlParse`文件中,可能包含了示例代码,演示了如何结合JSOUP和Java的网络请求功能实现模拟登录。通过阅读和理解这段代码,你可以更深入地了解上述步骤的实际操作。 总的来说,Java...

    2010最新解析html开源项目jsoup源码及api下载及jsoup.jar

    3. **内容过滤**:清除HTML中的恶意脚本、广告等,提高内容安全性。 4. **格式化HTML**:将不规范的HTML整理成标准格式,便于后续处理。 **总结** jsoup是Java开发者处理HTML的强大工具,其源码和API文档的提供使...

    htmlparse.jar

    在JAVA中用于解析HTML文件,该组件的解析功能非常出色,请查看有关该组件详细说明

    网络爬虫Http使用文档(附代码)

    例如,要查找HTML中的所有`&lt;div&gt;`标签,可以这样做: ```java Document doc = Jsoup.connect("http://www.example.com").get(); Elements divs = doc.select("div"); for (Element div : divs) { System.out....

    李腾飞CMS 文档资料

    HTMLParse提供了一种简单的方式来解析HTML文档,通过元素树(ElementTree)结构来表示HTML页面,允许用户通过XPath或CSS选择器来查找和操作特定的HTML元素。这在进行Web爬虫开发、网站自动化测试或者数据分析时非常...

    网络爬虫介绍

    可以使用HTML解析库,如Jsoup或本例中的HtmlParse,来提取所需数据。 5. **处理数据**:根据业务需求,对解析后的数据进行进一步处理,如存储、清洗、分析等。 关于HTMLParse的使用,我们有两个主要的过滤器类型: ...

    htmlloader

    用于JAVA中的HTTP请求,htmlloader用于发送HTTP请求并返回文档对象 可以结合htmlparse组件完成对HTML文档的解析

    毕业设计JSP搜索引擎的研究与实现(源代码+论文+答辩PPT).zip

    此外,还有两个文档文件:`.doc`文件可能包含了项目的详细报告,详细阐述了搜索引擎的设计理念、实现方法以及性能评估等内容;`SearchEngine.doc`可能专门讲述了搜索引擎的具体实现细节和技术要点。 总的来说,这个...

Global site tag (gtag.js) - Google Analytics