org.htmlparser.util.ParserException: Error in opening a connection to ***
使用HTMLparser时碰到一个错误
org.htmlparser.util.ParserException: Error in opening a connection to
java.io.IOException: Invalid argument
at java.io.WinNTFileSystem.canonicalize0(Native Method)
at java.io.Win32FileSystem.canonicalize(Win32FileSystem.java:396)
at java.io.File.getCanonicalPath(File.java:559)
at org.htmlparser.http.ConnectionManager.openConnection(ConnectionManager.java:774)
at org.htmlparser.Parser.<init>(Parser.java:304)
at org.htmlparser.Parser.<init>(Parser.java:316)
at tentsoft.util.CNLinkInfParser.doCNLinkInfParser(CNLinkInfParser.java:62)
at tentsoft.util.CNLinkInfParser.getCNLinkList(CNLinkInfParser.java:111)
at tentsoft.util.CNLinkInfParser.main(CNLinkInfParser.java:138)
仔细查看源代码,发现是在
myParser = new Parser(htmlBody);这句出错
其中htmlBody是我request到一个网站得到的response,类型为String.
但是报错。
最后通过定义一个方法
/**
* 解析字符串
* @param inputHTML String
* @return Parser
*/
public static Parser createParser(String inputHTML) {
Lexer mLexer = new Lexer(new Page(inputHTML));
return new Parser(mLexer, new DefaultParserFeedback(DefaultParserFeedback.QUIET));
}
在createParser里面去做new Parser()的。
问题解决。而上面的myParser = new Parser(htmlBody)语句改成myParser = createParser(htmlBody)就行了
下面是HTMLparser相关的资料:
http://www.hexiao.cn/blog/p/aboutHtmlParser.php
http://www.hexiao.cn/blog/p/use_htmlparser_get_urls.php
http://www.cnblogs.com/doll-net/archive/2007/06/29/800396.html
http://blog.csdn.net/yjboy1982/archive/2007/07/16/1693687.aspx
http://blog.csdn.net/jinxi/archive/2007/01/18/1487017.aspx
http://blog.csdn.net/eqxu/archive/2007/05/29/1629820.aspx
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/rudyMatrix/article/details/1891663
相关推荐
org.htmlparser.util.DefaultParserFeedback.class org.htmlparser.util.FeedbackManager.class org.htmlparser.util.IteratorImpl.class org.htmlparser.util.NodeTreeWalker.class org.htmlparser.util....
`HtmlParser2003`可能是一个早期版本的源代码,而`AnalyzeHtml`和`WebParser`则可能是演示如何使用HtmlParser的项目。 1. **AnalyzeHtml**:这个项目可能展示了如何分析HTML文档,通过调用HtmlParser的API来提取...
下面将详细阐述Winista.HtmlParser的相关知识点。 1. **HTML解析原理**: HTML解析器的工作原理是对HTML源码进行分析,识别出标签、属性、文本等内容。Winista.HtmlParser可能采用了基于DOM(文档对象模型)或SAX...
本文将深入探讨Winista.HtmlParser的功能特性、核心概念以及实际应用。 一、Winista.HtmlParser概述 Winista.HtmlParser作为一个强大的.NET HTML解析器,旨在简化HTML文档处理,提高开发效率。它提供了直观的API,...
org.htmlparser.util.ParserException org.htmlparser.visitors.NodeVisitor org.htmlparser.filters.IsEqualFilter org.htmlparser.filters.TagNameFilter org.htmlparser.scanners.StyleScanner org.htmlparser....
import org.htmlparser.util.ParserException; public class WapPageParser { public static void main(String[] args) { try { Parser parser = new Parser("wap_page.html"); NodeList list = parser....
7. **跨平台支持**:由于基于.NET框架,DI.HtmlParser 可以在多个平台上运行,包括Windows、Linux和Mac OS,满足不同开发环境的需求。 在实际应用中,你可以使用DI.HtmlParser 解析网页,获取产品信息、新闻文章,...
通过分析Demo,我们可以了解Winista.Htmlparser的API设计和用法。 在使用Winista.Htmlparser时,开发者需要注意以下几点: 1. **初始化解析器**:创建解析器实例,可能需要传入HTML字符串或文件路径。 2. **解析...
Htmlparser.chm文件很可能是一个帮助文档,包含了关于Winista.Htmlparser库的详细说明、API参考、示例代码和使用指南。通常,CHM(Compiled Help Manual)文件是微软编译的帮助文件格式,用户可以通过它来查找库的...
import org.htmlparser.util.ParserException; public class HtmlParserExample { public static void main(String[] args) { try { Parser parser = new Parser("http://example.com"); // 解析网页 // 或者 ...
HTMLParser 提供了多种解析模式,如事件驱动的 SAX(Simple API for XML)风格和 DOM(Document Object Model)风格,允许用户根据需求选择最适合的解析方式。 2. **filterbuilder.jar**: FilterBuilder 是一个...
3. **安装HTMLParser**:下载HTMLParser最新版本(1.6),并将其添加到Eclipse项目的构建路径中。 **2.3 网页超链接的提取** 利用HTMLParser进行超链接提取的过程主要包括以下几个步骤: 1. **加载HTML文档**:...
HTMLParser 1.6 的主要功能包括: 1. **HTML解析**:HTMLParser能够解析HTML文档,将文档内容转化为易于处理的对象结构,如标签、属性和文本节点。 2. **事件驱动模型**:该库采用了事件驱动的解析模式,当解析到...
例如,你可以创建一个处理器来查找并替换所有链接(`<a>`标签),或者删除所有的脚本(`<script>`标签)。 5. **兼容性与扩展性**:HTMLParser与其他Java库兼容良好,如JDOM、DOM4J等,可以方便地与其他XML处理工具...
这个“htmlparser1_6.jar”文件是该库的一个特定版本,可能是1.6版。在Java开发中,.jar文件是Java档案文件,它包含了编译后的类文件和其他资源,使得开发者可以在项目中通过导入这个库来处理HTML内容。 HTMLParser...
import org.htmlparser.util.NodeIterator; import org.htmlparser.util.NodeList; import org.htmlparser.nodes.TagNode; public class HTMLParserExample { public static void main(String[] args) throws ...
import org.htmlparser.util.NodeIterator; import org.htmlparser.nodes.TagNode; public class HtmlParserExample { public static void main(String[] args) throws Exception { Parser parser = new Parser(...
《Winista.HTMLParser源码解析与应用》 Winista.HTMLParser是一个用于网页爬虫开发的开源库,其源代码提供了一种高效的方式,帮助开发者解析HTML文档并从中提取所需信息。该库专为Visual Studio 2008设计,使得在...
10. **commons-logging.jar**: 提供了一个日志记录的抽象层,可以适配各种日志实现,如log4j、java.util.logging等。 11. **commons-pool.jar**: 提供对象池服务,可以用于数据库连接池、线程池等资源管理。 12. *...