使用HTMLparser时碰到一个错误
org.htmlparser.util.ParserException: Error in opening a connection to
java.io.IOException: Invalid argument
at java.io.WinNTFileSystem.canonicalize0(Native Method)
at java.io.Win32FileSystem.canonicalize(Win32FileSystem.java:396)
at java.io.File.getCanonicalPath(File.java:559)
at org.htmlparser.http.ConnectionManager.openConnection(ConnectionManager.java:774)
at org.htmlparser.Parser.<init>(Parser.java:304)
at org.htmlparser.Parser.<init>(Parser.java:316)
at tentsoft.util.CNLinkInfParser.doCNLinkInfParser(CNLinkInfParser.java:62)
at tentsoft.util.CNLinkInfParser.getCNLinkList(CNLinkInfParser.java:111)
at tentsoft.util.CNLinkInfParser.main(CNLinkInfParser.java:138)
仔细查看源代码,发现是在
myParser = new Parser(htmlBody);这句出错
其中htmlBody是我request到一个网站得到的response,类型为String.
但是报错。
最后通过定义一个方法
/**
* 解析字符串
* @param inputHTML String
* @return Parser
*/
public static Parser createParser(String inputHTML) {
Lexer mLexer = new Lexer(new Page(inputHTML));
return new Parser(mLexer,
new DefaultParserFeedback(DefaultParserFeedback.QUIET));
}
在createParser里面去做new Parser()的。
问题解决。而上面的myParser = new Parser(htmlBody)语句改成myParser = createParser(htmlBody)就行了
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/rudyMatrix/archive/2007/11/18/1891663.aspx
分享到:
相关推荐
org.htmlparser.util.DefaultParserFeedback.class org.htmlparser.util.FeedbackManager.class org.htmlparser.util.IteratorImpl.class org.htmlparser.util.NodeTreeWalker.class org.htmlparser.util....
org.htmlparser.util.ParserException org.htmlparser.visitors.NodeVisitor org.htmlparser.filters.IsEqualFilter org.htmlparser.filters.TagNameFilter org.htmlparser.scanners.StyleScanner org.htmlparser....
下面将详细阐述Winista.HtmlParser的相关知识点。 1. **HTML解析原理**: HTML解析器的工作原理是对HTML源码进行分析,识别出标签、属性、文本等内容。Winista.HtmlParser可能采用了基于DOM(文档对象模型)或SAX...
`HtmlParser2003`可能是一个早期版本的源代码,而`AnalyzeHtml`和`WebParser`则可能是演示如何使用HtmlParser的项目。 1. **AnalyzeHtml**:这个项目可能展示了如何分析HTML文档,通过调用HtmlParser的API来提取...
import org.htmlparser.util.ParserException; public class HtmlParserExample { public static void main(String[] args) { try { Parser parser = new Parser("http://example.com"); // 解析网页 // 或者 ...
本文将深入探讨Winista.HtmlParser的功能特性、核心概念以及实际应用。 一、Winista.HtmlParser概述 Winista.HtmlParser作为一个强大的.NET HTML解析器,旨在简化HTML文档处理,提高开发效率。它提供了直观的API,...
《Winista.HTMLParser源码解析与应用》 Winista.HTMLParser是一个用于网页爬虫开发的开源库,其源代码提供了一种高效的方式,帮助开发者解析HTML文档并从中提取所需信息。该库专为Visual Studio 2008设计,使得在...
HtmlParser.Net是来源于Java的一个用来解析html的组件,主要用于改造或提取html。它能够高速解析html,是非常好的一个html解析和分析... 这个是.Net版本包括源代码和帮助文档。 版本:HTMLParser.Net - Community 1.8
《使用Winista.Text.HtmlParser采集南京价格信息网的实践与技术解析》 在信息技术日新月异的今天,数据采集已成为各行各业不可或缺的一部分。本项目“Winista.Text.HtmlParser采集南京价格信息网”就是一个典型的...
...C#作为广泛使用的编程语言,拥有丰富的库来支持这样的操作。... ...通过源码学习,我们可以了解到其内部机制...配合提供的帮助文档`Htmlparser.chm`,开发者可以快速上手并充分利用这个工具,为自己的项目增添更多可能性。
通过分析Demo,我们可以了解Winista.Htmlparser的API设计和用法。 在使用Winista.Htmlparser时,开发者需要注意以下几点: 1. **初始化解析器**:创建解析器实例,可能需要传入HTML字符串或文件路径。 2. **解析...
Htmlparser.chm文件很可能是一个帮助文档,包含了关于Winista.Htmlparser库的详细说明、API参考、示例代码和使用指南。通常,CHM(Compiled Help Manual)文件是微软编译的帮助文件格式,用户可以通过它来查找库的...
7. **跨平台支持**:由于基于.NET框架,DI.HtmlParser 可以在多个平台上运行,包括Windows、Linux和Mac OS,满足不同开发环境的需求。 在实际应用中,你可以使用DI.HtmlParser 解析网页,获取产品信息、新闻文章,...
在使用Winista.HtmlParser时,首先需要导入插件并实例化解析器。之后,通过调用解析方法,将HTML文本转换为树形结构的节点集合。这些节点代表了HTML文档的各个部分,包括元素节点、文本节点和注释节点等。开发者可以...
《Winista.HTMLParser.dll:网页解析的开源利器》 在信息技术高速发展的今天,网页数据的抓取和分析已经成为一项至关重要的任务。对于开发者而言,能够高效地解析HTML文档,从中提取所需信息,无疑是一个强大的工具...
import org.htmlparser.util.ParserException; public class HtmlParserDemo { public static void main(String[] args) { try { Parser parser = new Parser("http://example.com"); NodeList nodeList = ...
《Winista.Htmlparser:C#中的网页解析利器》 在当今互联网时代,数据挖掘和信息提取成为企业与开发者的重要需求,而HTML解析是这一过程的关键环节。本文将深入探讨Winista.Htmlparser,一个专为C#开发的网页解析...