`

HtmlParser解析中关村在线的标题和关键字

 
阅读更多

代码很简单,写出了如何标签内容和标签里的属性会值。

 

public class ZolParser
{

	public static void main(String[] args) throws Exception
	{
		/** 开始时间 */
		long now = System.currentTimeMillis();

		// 获取源代码
		String htmlCode = setHtmlCode();
		/** 获取标题 */
		getTitle(htmlCode);
		/** 获取关键字 */
		getkeywords(htmlCode);

		/** 结束时间 */
		long current = System.currentTimeMillis();
		// 消耗时间
		System.out.println("全文消耗时间:" + (current - now));
	}

	/**
	 * 获取HTML代码
	 * 
	 * @return
	 * @throws Exception
	 */
	public static String setHtmlCode() throws Exception
	{
		/** 通过HttpParser解析器解析HTML */
		Parser parsers = new Parser("http://www.zol.com.cn/");
		// 设置编码
		parsers.setEncoding("gb2312");
		// 设置标签过滤器
		NodeFilter filter = new TagNameFilter("html");
		// 过滤标签
		NodeList nList = parsers.extractAllNodesThatMatch(filter);
		// 返回字符串
		return nList.toHtml();
	}

	/**
	 * 获取标题信息
	 * 
	 * @param htmlCode
	 * @throws ParserException
	 */
	public static void getTitle(String htmlCode) throws ParserException
	{

		Parser parser = new Parser();
		parser.setInputHTML(htmlCode);
		/* 配置过滤器 */
		NodeFilter filter = new NodeClassFilter(TitleTag.class);
		NodeList nodeList = parser.extractAllNodesThatMatch(filter);
		/** 输出信息 */
		System.out.println("标题: "+nodeList.elementAt(0).toPlainTextString());
	}

	/**
	 * 获取关键字信息
	 * 
	 * @param htmlCode
	 * @throws ParserException
	 */
	public static void getkeywords(String htmlCode) throws ParserException
	{
		Parser parser = new Parser();
		parser.setInputHTML(htmlCode);
		/* 配置过滤器 */
		NodeFilter filter = new AndFilter(new NodeClassFilter(MetaTag.class), new HasAttributeFilter("name", "keywords"));
		NodeList nodeList = parser.extractAllNodesThatMatch(filter);
		/** 输出信息 */
		if (nodeList.size() > 0)
		{
			System.out.println("关键字: "+((TagNode) nodeList.elementAt(0)).getAttribute("content"));
		}
	}
}

 

 

 

 

分享到:
评论

相关推荐

    htmlparser解析html分页

    - **Web爬虫**:HTMLParser可以用来提取网页上的关键信息,如文章标题、作者、日期等。 - **内容分析**:分析HTML结构,了解网页布局和元素关系。 - **自动化测试**:验证网页元素是否按预期呈现,如检查按钮、...

    htmlparser解析Html的jar包和源文件包(两个)

    在提供的压缩包中,有两个主要文件:`htmlparser-1.6.jar` 和 `htmlparser-1.6-all-src.zip`。 1. `htmlparser-1.6.jar` 是预编译的二进制库文件,它包含了HTMLParser的所有类和方法,可供开发者直接在项目中引用。...

    htmlparser解析API

    HTMLParser是一个纯Java编写的库,专门用于解析和处理HTML文档。它不依赖任何其他Java库,使得它成为一个轻量级且高效的解决方案。HTMLParser设计的目的是为了方便地解析、提取或修改HTML内容,适用于网页数据抓取和...

    htmlparser解析

    htmlparser解析html,获得需要的字段

    java解析html工具htmlparser的jar包及api文档

    HTMLParser的2.0-SNAPSHOT版本包含了库的所有功能和最新的更新。"SNAPSHOT"通常指的是开发中的版本,表示它可能包含尚未正式发布的新特性或修复。在提供的压缩包中,`HTMLParser-2.0-SNAPSHOT-bin`可能是可执行的二...

    htmlparser(HTML页面解析)例子

    在实际应用中,HTMLParser通常与其他库(如BeautifulSoup)结合使用,以提供更高级的功能,如选择器和CSS查询,使HTML解析更加灵活和强大。不过,HTMLParser本身提供的基本功能足以应对许多基础的网页抓取任务。 ...

    Html解析助手htmlparser.jar

    2. **创建解析器**:通过实例化解析器类,如`HtmlParser`,并设置相应的解析模式和配置。 3. **解析HTML**:调用解析器的`parse`方法,传入HTML源码或输入流,开始解析过程。 4. **处理解析事件**:注册事件处理器,...

    使用HTMLParser解析网页,找出文章后下载保存

    HTMLParser是Python标准库中的一个模块,专门用于解析HTML和XML文档。 首先,我们需要了解HTMLParser的基本用法。HTMLParser是一个事件驱动的解析器,它会在遇到HTML标签、属性或其他特殊元素时触发相应的事件。...

    Java正则表达式详解+基于HTMLParser解析HTML网页

    如何在Java程序中利用正则表达式实现对字符串的解析.另外,HTMLParser是一款很强大的对HTML网页进行解析的工具,其中大量地用到正则表达式.

    android htmlparser解析

    标题已经哼明白了,这里下载下来作为library引入即可。 这里是jar下载:http://sourceforge.net/projects/htmlparser/ (ps:不过导入jar前,要重新编译jar,要不在Android工程了不可用)

    android 解析html (htmlParser)库和源码

    android 解析html (htmlParser)库和源码 因为一个项目需要解析一个网站上的新闻,所以找到了htmlParser这个开源的项目,删除了一些不需要的包,使其可以在android上用。 有两个工程,myhtml是库,要把它包含到...

    htmlparser_Java网页解析器

    HTMLParser是一款用于Java开发的网页解析库,它允许开发者高效地提取和处理HTML文档中的数据。在Web开发中,尤其是在爬虫程序或者自动化测试中,HTMLParser是一个非常实用的工具。下面将详细介绍HTMLParser库的核心...

    Winista.Htmlparser.Net 解析Html 的.net类库

    HtmlParser.Net是来源于Java的一个用来解析html的组件,主要用于改造或提取html。它能够高速解析html,是非常好的一个html解析和分析工具。 这个是.Net版本包括源代码和帮助文档。 版本:HTMLParser.Net - Community...

    解析htmlparser的所有jar包

    然后,你可以按照HTMLParser的API文档编写代码,创建解析器实例,设置事件处理器,以及进行所需的解析操作。 总的来说,HTMLParser提供了一个强大且灵活的工具,可以帮助Java开发者在处理HTML时避免许多常见的头痛...

    HtmlParser

    使用HTMLParser,我们可以解析网页内容,提取所需信息,如文章标题、链接、图片等。以下是一些核心概念和步骤: 1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_...

    HTMLParser.net源代码HTMLParser.net使用demo

    5. **灵活性**:除了基本的HTML解析,HTMLParser.net还支持XML和SVG解析,并且可以与其他.NET XML库集成,如LINQ to XML。 6. **性能优化**:HTMLParser.net被设计为高效且内存友好,即使处理大型HTML文档也能保持...

    htmlparser

    按DOM模型解析html文件的工具包 已下是源码列表: META-INF/MANIFEST.MF META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class ...

    Winista.Htmlparser.Net 源码 +Demo

    2. **WebParser**:可能是一个简单的网页抓取器,利用HtmlParser解析网页,提取所需信息,例如新闻标题、链接等。 开发者可以打开`AnalyzeHtml.sln`,编译并运行这两个项目,以了解HtmlParser的具体使用方法和实际...

    htmlparser.jar文件

    HTMLParser提供了多种方法来访问和操作解析树,比如`parseContent()`用于获取整个文档的节点列表,`visitAllNodesWith()`可以遍历所有节点并应用自定义的访问器,`getFirstNodeWithTag()`用于找到第一个特定标签的...

    跨平台的Html解析代码_武稀松_HtmlParser.rar

    【标题】"跨平台的Html解析代码_武稀松_HtmlParser.rar" 涉及的是一个关于跨平台HTML解析的编程项目,由开发者武稀松创建。这个项目的核心是HtmlParser,它可能是一个用Delphi编写的库或框架,旨在帮助程序员在不同...

Global site tag (gtag.js) - Google Analytics