代码很简单,写出了如何标签内容和标签里的属性会值。
public class ZolParser
{
public static void main(String[] args) throws Exception
{
/** 开始时间 */
long now = System.currentTimeMillis();
// 获取源代码
String htmlCode = setHtmlCode();
/** 获取标题 */
getTitle(htmlCode);
/** 获取关键字 */
getkeywords(htmlCode);
/** 结束时间 */
long current = System.currentTimeMillis();
// 消耗时间
System.out.println("全文消耗时间:" + (current - now));
}
/**
* 获取HTML代码
*
* @return
* @throws Exception
*/
public static String setHtmlCode() throws Exception
{
/** 通过HttpParser解析器解析HTML */
Parser parsers = new Parser("http://www.zol.com.cn/");
// 设置编码
parsers.setEncoding("gb2312");
// 设置标签过滤器
NodeFilter filter = new TagNameFilter("html");
// 过滤标签
NodeList nList = parsers.extractAllNodesThatMatch(filter);
// 返回字符串
return nList.toHtml();
}
/**
* 获取标题信息
*
* @param htmlCode
* @throws ParserException
*/
public static void getTitle(String htmlCode) throws ParserException
{
Parser parser = new Parser();
parser.setInputHTML(htmlCode);
/* 配置过滤器 */
NodeFilter filter = new NodeClassFilter(TitleTag.class);
NodeList nodeList = parser.extractAllNodesThatMatch(filter);
/** 输出信息 */
System.out.println("标题: "+nodeList.elementAt(0).toPlainTextString());
}
/**
* 获取关键字信息
*
* @param htmlCode
* @throws ParserException
*/
public static void getkeywords(String htmlCode) throws ParserException
{
Parser parser = new Parser();
parser.setInputHTML(htmlCode);
/* 配置过滤器 */
NodeFilter filter = new AndFilter(new NodeClassFilter(MetaTag.class), new HasAttributeFilter("name", "keywords"));
NodeList nodeList = parser.extractAllNodesThatMatch(filter);
/** 输出信息 */
if (nodeList.size() > 0)
{
System.out.println("关键字: "+((TagNode) nodeList.elementAt(0)).getAttribute("content"));
}
}
}
分享到:
相关推荐
- **Web爬虫**:HTMLParser可以用来提取网页上的关键信息,如文章标题、作者、日期等。 - **内容分析**:分析HTML结构,了解网页布局和元素关系。 - **自动化测试**:验证网页元素是否按预期呈现,如检查按钮、...
在提供的压缩包中,有两个主要文件:`htmlparser-1.6.jar` 和 `htmlparser-1.6-all-src.zip`。 1. `htmlparser-1.6.jar` 是预编译的二进制库文件,它包含了HTMLParser的所有类和方法,可供开发者直接在项目中引用。...
HTMLParser是一个纯Java编写的库,专门用于解析和处理HTML文档。它不依赖任何其他Java库,使得它成为一个轻量级且高效的解决方案。HTMLParser设计的目的是为了方便地解析、提取或修改HTML内容,适用于网页数据抓取和...
htmlparser解析html,获得需要的字段
HTMLParser的2.0-SNAPSHOT版本包含了库的所有功能和最新的更新。"SNAPSHOT"通常指的是开发中的版本,表示它可能包含尚未正式发布的新特性或修复。在提供的压缩包中,`HTMLParser-2.0-SNAPSHOT-bin`可能是可执行的二...
在实际应用中,HTMLParser通常与其他库(如BeautifulSoup)结合使用,以提供更高级的功能,如选择器和CSS查询,使HTML解析更加灵活和强大。不过,HTMLParser本身提供的基本功能足以应对许多基础的网页抓取任务。 ...
2. **创建解析器**:通过实例化解析器类,如`HtmlParser`,并设置相应的解析模式和配置。 3. **解析HTML**:调用解析器的`parse`方法,传入HTML源码或输入流,开始解析过程。 4. **处理解析事件**:注册事件处理器,...
HTMLParser是Python标准库中的一个模块,专门用于解析HTML和XML文档。 首先,我们需要了解HTMLParser的基本用法。HTMLParser是一个事件驱动的解析器,它会在遇到HTML标签、属性或其他特殊元素时触发相应的事件。...
如何在Java程序中利用正则表达式实现对字符串的解析.另外,HTMLParser是一款很强大的对HTML网页进行解析的工具,其中大量地用到正则表达式.
标题已经哼明白了,这里下载下来作为library引入即可。 这里是jar下载:http://sourceforge.net/projects/htmlparser/ (ps:不过导入jar前,要重新编译jar,要不在Android工程了不可用)
android 解析html (htmlParser)库和源码 因为一个项目需要解析一个网站上的新闻,所以找到了htmlParser这个开源的项目,删除了一些不需要的包,使其可以在android上用。 有两个工程,myhtml是库,要把它包含到...
HTMLParser是一款用于Java开发的网页解析库,它允许开发者高效地提取和处理HTML文档中的数据。在Web开发中,尤其是在爬虫程序或者自动化测试中,HTMLParser是一个非常实用的工具。下面将详细介绍HTMLParser库的核心...
HtmlParser.Net是来源于Java的一个用来解析html的组件,主要用于改造或提取html。它能够高速解析html,是非常好的一个html解析和分析工具。 这个是.Net版本包括源代码和帮助文档。 版本:HTMLParser.Net - Community...
然后,你可以按照HTMLParser的API文档编写代码,创建解析器实例,设置事件处理器,以及进行所需的解析操作。 总的来说,HTMLParser提供了一个强大且灵活的工具,可以帮助Java开发者在处理HTML时避免许多常见的头痛...
使用HTMLParser,我们可以解析网页内容,提取所需信息,如文章标题、链接、图片等。以下是一些核心概念和步骤: 1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_...
5. **灵活性**:除了基本的HTML解析,HTMLParser.net还支持XML和SVG解析,并且可以与其他.NET XML库集成,如LINQ to XML。 6. **性能优化**:HTMLParser.net被设计为高效且内存友好,即使处理大型HTML文档也能保持...
按DOM模型解析html文件的工具包 已下是源码列表: META-INF/MANIFEST.MF META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class ...
2. **WebParser**:可能是一个简单的网页抓取器,利用HtmlParser解析网页,提取所需信息,例如新闻标题、链接等。 开发者可以打开`AnalyzeHtml.sln`,编译并运行这两个项目,以了解HtmlParser的具体使用方法和实际...
HTMLParser提供了多种方法来访问和操作解析树,比如`parseContent()`用于获取整个文档的节点列表,`visitAllNodesWith()`可以遍历所有节点并应用自定义的访问器,`getFirstNodeWithTag()`用于找到第一个特定标签的...
【标题】"跨平台的Html解析代码_武稀松_HtmlParser.rar" 涉及的是一个关于跨平台HTML解析的编程项目,由开发者武稀松创建。这个项目的核心是HtmlParser,它可能是一个用Delphi编写的库或框架,旨在帮助程序员在不同...