`
lzj0470
  • 浏览: 1274037 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

htmlparser 假死问题

阅读更多

前几天,在用htmlparser分析页面时,遇到一个郁闷的问题,在爬取得时候,htmlparser停住啦,当时没报任何的错误。我以为多等一会它就会报一个异常啦,结果,等了一个上午,还是停在那里不动。实在等不下去啦,直接看它的源代码,原来是获取数据的时候,获取到一半,停在那里,我找不到在哪里修改它的代码,结果是我不用htmlparser进行连接下载数据,而htmlparser单纯是用于分析页面。我链接那部分是用

            url1 = new URL(url);
            URLConnection urlcon = url1.openConnection();
            urlcon.setConnectTimeout(6000);
            urlcon.setReadTimeout(6000);
            urlcon.connect();

设置了连接超时和读取数据超时。

经过这样整,就可以把我的htmlparser假死问题解决掉啦

分享到:
评论

相关推荐

    htmlparser

    META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class org.htmlparser.PrototypicalNodeFactory.class org.htmlparser.beans....

    HtmlParser

    7. **异常处理**: 解析过程中可能会遇到格式不规范的HTML或网络问题,因此需要进行异常处理,确保爬虫的稳定性和健壮性。 8. **网络编程**: HTMLParser通常与网络编程库(如urllib或requests)结合使用,请求网页...

    htmlparser.jar文件

    在描述中提到的“org.htmlparser.Node”和其他的.class文件,这些都是HTMLParser库的核心组成部分。`org.htmlparser.Node` 是HTMLParser中的一个关键接口,它代表HTML文档中的一个节点,可以是元素(Element)、注释...

    c#版htmlparser htmlparser.dll htmlparser源代码

    源代码是开发者理解库工作原理、自定义功能或调试问题的重要资源。`htmlparser源代码`通常包含`.cs`文件,这些文件由C#编写,展示了如何实现HTML解析的各种逻辑。通过阅读源代码,开发者可以学习到如何处理HTML标签...

    HTMLParser.net源代码HTMLParser.net使用demo

    本项目名为"HTMLParser.net源代码HTMLParser.net使用demo",显然是一个包含示例代码的压缩包,用于展示如何在实际应用中使用HTMLParser.net。 HTMLParser.net的核心功能包括: 1. **HTML解析**:它能够将HTML字符...

    htmlparser-1.2.1 jar

    htmlparser-1.2.1jar包下载htmlparser-1.2.1jar包下载

    htmlparser库与教程

    8. **错误处理和调试**:学习如何处理解析过程中可能出现的异常,以及如何通过日志或调试信息定位问题。 9. **性能优化**:对于大量网页的抓取,了解如何配置和优化HTMLParser以提高效率。 通过这个教程,开发者...

    htmlparser网页分析

    8. 社区支持:HTMLParser拥有一定的社区活跃度,开发者可以在开源论坛或GitHub上找到相关的资源、示例和问题解答,以便于学习和解决问题。 9. 结合其他工具:HTMLParser可以与其他工具结合使用,如Jsoup,后者是一...

    HtmlParser源码及demo

    以下是对`HtmlParser`及其相关知识点的详细说明: 1. **HTML解析**:HTMLParser提供了对HTML文档的解析能力,将HTML文本转换为可操作的对象模型。它能够处理嵌套标签、属性、注释以及实体引用等HTML元素。 2. **...

    htmlparser1.6最新版

    - **网页测试**:验证网页的结构是否符合预期,帮助开发者调试和修复HTML代码问题。 总之,HTMLParser 1.6作为一个强大且灵活的HTML解析库,对于需要处理HTML内容的Java开发者来说,是一个不可或缺的工具。通过熟练...

    Winista.Htmlparser.Net 源码 +Demo

    `HtmlParser2003`可能是一个早期版本的源代码,而`AnalyzeHtml`和`WebParser`则可能是演示如何使用HtmlParser的项目。 1. **AnalyzeHtml**:这个项目可能展示了如何分析HTML文档,通过调用HtmlParser的API来提取...

    htmlparser的jar包

    在实际开发中,使用HTMLParser时,你可能需要处理一些常见的问题,比如CSS选择器的支持、JavaScript的解析、URL的处理等。虽然HTMLParser本身并不直接提供这些功能,但可以通过扩展其API或者与其他库(如Jsoup)结合...

    HtmlParser 2.1 码源

    HtmlParser提供了一套完整的错误处理机制,包括抛出`HtmlParseException`等异常,帮助开发者捕获和处理解析过程中的问题。 7. **兼容性和版本更新** HtmlParser 2.1版发布于2015年6月,兼容多种Java版本,但后续...

    htmlParser.jar包

    在很多Web抓取、信息提取以及网页分析的项目中,HTMLParser都是一个理想的工具。 HTMLParser库的设计考虑了易用性和灵活性,它提供了丰富的API,允许开发者通过编程方式来访问和操作HTML文档的各个元素,如标签、...

    htmlparser2.1.jar

    HTMLParser2.1库提供良好的异常处理机制,帮助开发者优雅地处理这些问题,避免程序崩溃。 5. **字符编码识别**:HTMLParser2.1能自动检测网页的字符编码,确保正确解析非ASCII字符,这对于处理包含多种语言的网页...

    HtmlParser c#源码+demo

    在C#中,`System.Xml`命名空间下的`XmlDocument`类可以用来创建和操作DOM树,但因为HTML的非规范性,直接使用DOM处理HTML可能会遇到问题,所以HTMLParser可能采用了更适应HTML特性的解析方式。 3. **XPath与CSS选择...

    HtmlParser源码及其jar包

    HTMLParser库的优势在于其对HTML不规则性的容忍度,它可以处理嵌套不正确、缺失闭合标签等常见问题。此外,它还支持XML和SGML,扩展了其应用范围。 在提供的压缩文件中,有两个版本: - `htmlparser1_6_20060610....

    htmlparser2.0_dll+htmlparserAPI

    5. **文档支持**:丰富的API文档使得开发者能够快速上手,解决在实际项目中遇到的问题。 总的来说,HTMLParser2.0是一个强大且灵活的HTML解析工具,适用于各种需要处理HTML内容的场景,无论是简单的数据提取,还是...

Global site tag (gtag.js) - Google Analytics