用HTMLParser解析网页时，有一部分网页节点无法解析 - - ITeye博客

`

ybj

浏览: 2890 次
性别:
来自: 奉化

最近访客更多访客>>

moyan254

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (3)

社区版块

存档分类

最新评论

gbfd2012：换种方法解析，，NodeList list=parser.pa ...
用HTMLParser解析网页时，有一部分网页节点无法解析

用HTMLParser解析网页时，有一部分网页节点无法解析

阅读更多

今天在用HTMLParser解析学校团委的网页时发现一个问题，无法解析我所需的节点，经过几次尝试后依然不行。这令我很困惑，在反复查看了节点过滤设置后也没发现什么问题。这令我万分不解，于是我把整张网页的所有节点都打印了出来，发现只得到部分节点还有不少节点没有解析出来，而我需要的节点正是在无法解析的节点中。在查了百度之后没有在网上发现相关的资料，特发此文，希望有达人可以解惑！！！

PS：

网址：http://www.tw.tzc.edu.cn/

解析代码：

try {
		 Parser parser = new Parser("http://www.tw.tzc.edu.cn");
		 parser.setEncoding("gb2312");
		 NodeIterator it = parser.elements();
		 while (it.hasMoreNodes()) {
		 System.out.println(it.nextNode());
		 }
		 } catch (ParserException e) {
		 // TODO Auto-generated catch block
		 e.printStackTrace();
		 }

分享到：

用HTMLParser解析网页出现的小问题

2010-09-09 14:29
浏览 1205
评论(1)
分类:编程语言
查看更多

评论

1 楼 gbfd2012 2010-12-29

换种方法解析，，NodeList list=parser.parser(null);
String source=list.toHtml;

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

htmlparser_Java网页解析器: HTMLParser是一款用于Java开发的网页解析库，它允许开发者高效地提取和处理HTML文档中的数据。在Web开发中，尤其是在爬虫程序或者自动化测试中，HTMLParser是一个非常实用的工具。下面将详细介绍HTMLParser库的核心...

HtmlParser提取网页信息的设计与实现: 首先，使用HtmlParser解析主页的HTML代码，然后查找所有的`<a>`标签，提取其中的`href`属性值以及相邻的文本节点作为新闻标题。接着，对提取到的链接进行清洗，最后将清洗后的数据存储到SQL数据库中。 ##### 4.1 ...

基于HttpClient与HTMLParser 的网页正文提取: 3. 网页抓取和分析方法的实现：文章中提出的基于HttpClient与HTMLParser的网页抓取解析方法，结合了两者的优点，实现了快速且有效的网页内容抓取和正文提取。该方法能够针对特定的网页内容进行深入分析，并能够应对...

htmlparser.jar文件: 不过，由于HTML的灵活性和复杂性，HTMLParser可能无法完美处理所有边缘情况，所以在解析某些复杂的HTML结构时，可能会需要额外的错误处理或者使用更强大的库，如Jsoup。总的来说，HTMLParser.jar是一个强大的Java ...

htmparser网页解析API文档: - 使用HTMLParser解析并打印所有`<a>`标签的链接： ```java Document doc = HTMLParser.parse(htmlSource); for (Element link : doc.getElementsByTag("a")) { System.out.println(link.attr("href")); } ``...

htmlparser实现从网页上抓取数据: 本文将详细介绍如何使用HTMLParser从网页上抓取数据，并通过一个具体的Java代码示例来演示其实现过程。 #### HTMLParser简介 HTMLParser是一个纯Java编写的HTML解析库，其最大的特点在于不需要依赖其他Java库即可...

java使用htmlparser提取网页纯文本例子: 【Java使用HTMLParser提取网页纯文本】\n\n在Java编程中，提取网页纯文本是一项常见的任务，尤其在数据抓取、信息分析等领域。HTMLParser是一个强大的Java库，专门用于解析HTML文档，提取其中的文本内容。下面我们将...

HtmlParser源码及demo: 这表明这个压缩包可能是Eclipse项目的一部分。 7. **源代码（src）**：`src`目录通常包含项目的源代码，可能包括HTMLParser的类和接口，以及示例代码的Java文件。 8. **JAR文件**：`jar`文件可能是编译后的...

C# HTMLParser下载.rar: 例如，我们可以使用解析器的`ParseDocument`方法解析HTML源代码，然后通过这个文档对象来访问DOM（文档对象模型）的各个部分，如元素、属性和文本节点。在处理HTML时，我们常常需要查找特定的标签或者内容。...

html解析工具htmllexer+htmlparser-2.1: DOM是一种与平台和语言无关的标准，它将HTML或XML文档表示为一棵节点树，每个节点代表文档的一个部分，如元素、属性、文本等。在`htmllexer+htmlparser-2.1`的整合包中，包含了两个主要的JAR文件： 1. `...

HtmlParser 实现简易爬虫: 在本场景中，我们讨论如何使用HTMLParser库来创建一个基础的网络爬虫，以便从网页上抓取和分析数据。首先，我们需要了解HTMLParser的基本用法。HTMLParser设计为易于使用，它提供了对HTML元素、属性和文本的访问，...

Winista.HtmlParser.zip: 在使用Winista.HtmlParser时，首先需要导入插件并实例化解析器。之后，通过调用解析方法，将HTML文本转换为树形结构的节点集合。这些节点代表了HTML文档的各个部分，包括元素节点、文本节点和注释节点等。开发者可以...

HTMLParser-2.0-SNAPSHOT: 在网页抓取、信息提取或者网页爬虫项目中，HTMLParser是一个非常实用的工具。它允许开发者通过编程方式解析HTML内容，提取所需的数据，同时处理各种复杂的HTML结构。这个"HTMLParser-2.0-SNAPSHOT"版本可能是...

Winista.Htmlparser 源码 C#类库帮助文档: 本文将深入探讨Winista.Htmlparser，一个用C#编写的开源HTML解析库，帮助开发者理解和使用这个强大的工具。 Winista.Htmlparser是一个高效且灵活的HTML解析类库，专为C#开发者设计，旨在简化HTML文档的解析过程。它...

HTMLParser抽取Web网页正文信息: HTMLParser 是一个强大的工具，用于解析和分析HTML文档，它能帮助我们从网页中抽取主要信息，排除掉无关的导航、广告和版权等噪音内容。这不仅能够优化用户体验，节省浏览时间，还能提高用户获取信息的效率，进而...

htmlparser1_6: 在数据抓取方面，HTMLParser1_6可能是作为一个爬虫的一部分，用于遍历网页，下载HTML内容，并通过解析这些内容来收集有价值的数据。爬虫常用于自动化地获取大量网络信息，如价格比较、市场研究、社交媒体分析等。...

java htmlparser: 根据给定文件的信息，本文将围绕“Java HTMLParser解析网页源码”的主题展开，深入探讨其功能、工作原理以及在不同场景下的应用方法。 ### Java HTMLParser简介 HTMLParser是用Java编写的开源HTML解析器，它能帮助...

Winista.Htmlparser的源码，另加Demo。源自....: Winista.Htmlparser是一款基于.NET平台的HTML解析库，它的主要功能是解析HTML文档，提取其中的数据或者进行DOM操作。在.NET开发中，这样的库对于处理网页数据、爬虫项目或是网页自动化任务非常有用。源码的开放使得...

Global site tag (gtag.js) - Google Analytics