`
ybj
  • 浏览: 2890 次
  • 性别: Icon_minigender_1
  • 来自: 奉化
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

用HTMLParser解析网页时,有一部分网页节点无法解析

阅读更多

今天在用HTMLParser解析学校团委的网页时发现一个问题,无法解析我所需的节点,经过几次尝试后依然不行。这令我很困惑,在反复查看了节点过滤设置后也没发现什么问题。这令我万分不解,于是我把整张网页的所有节点都打印了出来,发现只得到部分节点还有不少节点没有解析出来,而我需要的节点正是在无法解析的节点中。在查了百度之后没有在网上发现相关的资料,特发此文,希望有达人可以解惑!!!

 

PS:

      网址:http://www.tw.tzc.edu.cn/

 

      解析代码:

try {
		 Parser parser = new Parser("http://www.tw.tzc.edu.cn");
		 parser.setEncoding("gb2312");
		 NodeIterator it = parser.elements();
		 while (it.hasMoreNodes()) {
		 System.out.println(it.nextNode());
		 }
		 } catch (ParserException e) {
		 // TODO Auto-generated catch block
		 e.printStackTrace();
		 }

 

分享到:
评论
1 楼 gbfd2012 2010-12-29  
换种方法解析,,NodeList list=parser.parser(null);
              String source=list.toHtml;

相关推荐

    htmlparser_Java网页解析器

    HTMLParser是一款用于Java开发的网页解析库,它允许开发者高效地提取和处理HTML文档中的数据。在Web开发中,尤其是在爬虫程序或者自动化测试中,HTMLParser是一个非常实用的工具。下面将详细介绍HTMLParser库的核心...

    HtmlParser提取网页信息的设计与实现

    首先,使用HtmlParser解析主页的HTML代码,然后查找所有的`<a>`标签,提取其中的`href`属性值以及相邻的文本节点作为新闻标题。接着,对提取到的链接进行清洗,最后将清洗后的数据存储到SQL数据库中。 ##### 4.1 ...

    基于HttpClient与HTMLParser 的网页正文提取

    3. 网页抓取和分析方法的实现:文章中提出的基于HttpClient与HTMLParser的网页抓取解析方法,结合了两者的优点,实现了快速且有效的网页内容抓取和正文提取。该方法能够针对特定的网页内容进行深入分析,并能够应对...

    htmlparser.jar文件

    不过,由于HTML的灵活性和复杂性,HTMLParser可能无法完美处理所有边缘情况,所以在解析某些复杂的HTML结构时,可能会需要额外的错误处理或者使用更强大的库,如Jsoup。 总的来说,HTMLParser.jar是一个强大的Java ...

    htmparser网页解析API文档

    - 使用HTMLParser解析并打印所有`<a>`标签的链接: ```java Document doc = HTMLParser.parse(htmlSource); for (Element link : doc.getElementsByTag("a")) { System.out.println(link.attr("href")); } ``...

    htmlparser实现从网页上抓取数据

    本文将详细介绍如何使用HTMLParser从网页上抓取数据,并通过一个具体的Java代码示例来演示其实现过程。 #### HTMLParser简介 HTMLParser是一个纯Java编写的HTML解析库,其最大的特点在于不需要依赖其他Java库即可...

    java使用htmlparser提取网页纯文本例子

    【Java使用HTMLParser提取网页纯文本】\n\n在Java编程中,提取网页纯文本是一项常见的任务,尤其在数据抓取、信息分析等领域。HTMLParser是一个强大的Java库,专门用于解析HTML文档,提取其中的文本内容。下面我们将...

    HtmlParser源码及demo

    这表明这个压缩包可能是Eclipse项目的一部分。 7. **源代码(src)**:`src`目录通常包含项目的源代码,可能包括HTMLParser的类和接口,以及示例代码的Java文件。 8. **JAR文件**:`jar`文件可能是编译后的...

    C# HTMLParser下载.rar

    例如,我们可以使用解析器的`ParseDocument`方法解析HTML源代码,然后通过这个文档对象来访问DOM(文档对象模型)的各个部分,如元素、属性和文本节点。 在处理HTML时,我们常常需要查找特定的标签或者内容。...

    html解析工具htmllexer+htmlparser-2.1

    DOM是一种与平台和语言无关的标准,它将HTML或XML文档表示为一棵节点树,每个节点代表文档的一个部分,如元素、属性、文本等。 在`htmllexer+htmlparser-2.1`的整合包中,包含了两个主要的JAR文件: 1. `...

    HtmlParser 实现简易爬虫

    在本场景中,我们讨论如何使用HTMLParser库来创建一个基础的网络爬虫,以便从网页上抓取和分析数据。 首先,我们需要了解HTMLParser的基本用法。HTMLParser设计为易于使用,它提供了对HTML元素、属性和文本的访问,...

    Winista.HtmlParser.zip

    在使用Winista.HtmlParser时,首先需要导入插件并实例化解析器。之后,通过调用解析方法,将HTML文本转换为树形结构的节点集合。这些节点代表了HTML文档的各个部分,包括元素节点、文本节点和注释节点等。开发者可以...

    HTMLParser-2.0-SNAPSHOT

    在网页抓取、信息提取或者网页爬虫项目中,HTMLParser是一个非常实用的工具。它允许开发者通过编程方式解析HTML内容,提取所需的数据,同时处理各种复杂的HTML结构。这个"HTMLParser-2.0-SNAPSHOT"版本可能是...

    Winista.Htmlparser 源码 C#类库 帮助文档

    本文将深入探讨Winista.Htmlparser,一个用C#编写的开源HTML解析库,帮助开发者理解和使用这个强大的工具。 Winista.Htmlparser是一个高效且灵活的HTML解析类库,专为C#开发者设计,旨在简化HTML文档的解析过程。它...

    HTMLParser抽取Web网页正文信息

    HTMLParser 是一个强大的工具,用于解析和分析HTML文档,它能帮助我们从网页中抽取主要信息,排除掉无关的导航、广告和版权等噪音内容。这不仅能够优化用户体验,节省浏览时间,还能提高用户获取信息的效率,进而...

    htmlparser1_6

    在数据抓取方面,HTMLParser1_6可能是作为一个爬虫的一部分,用于遍历网页,下载HTML内容,并通过解析这些内容来收集有价值的数据。爬虫常用于自动化地获取大量网络信息,如价格比较、市场研究、社交媒体分析等。...

    java htmlparser

    根据给定文件的信息,本文将围绕“Java HTMLParser解析网页源码”的主题展开,深入探讨其功能、工作原理以及在不同场景下的应用方法。 ### Java HTMLParser简介 HTMLParser是用Java编写的开源HTML解析器,它能帮助...

    Winista.Htmlparser的源码,另加Demo。源自....

    Winista.Htmlparser是一款基于.NET平台的HTML解析库,它的主要功能是解析HTML文档,提取其中的数据或者进行DOM操作。在.NET开发中,这样的库对于处理网页数据、爬虫项目或是网页自动化任务非常有用。源码的开放使得...

Global site tag (gtag.js) - Google Analytics