用nekohtml来获取网页指定内容
下载地址 http://sourceforge.net/projects/nekohtml
package test;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
import org.cyberneko.html.parsers.DOMParser;
import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.xml.sax.InputSource;
public class Test {
public static void main(String[] argv) throws Exception {
//指定rul
URL url = new URL(
"http://topic.csdn.net/u/20090521/11/db336c07-2dbc-4732-8229-cb99fcb9d10e.html");
HttpURLConnection connection = (java.net.HttpURLConnection)url.openConnection();
connection.connect();
InputStream stream = connection.getInputStream();
DOMParser parser = new DOMParser();
//这行代码等同于html页面中的<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
parser.setProperty("http://cyberneko.org/html/properties/default-encoding","utf-8");
parser.parse(new InputSource(stream));
Document doc = parser.getDocument();
Node myNode= doc.getElementById("reply57194353_body");
print(myNode, "");
}
public static void print(Node node, String indent) {
System.out.println(node.getTextContent());
}
}
分享到:
相关推荐
例如,它可能有方法用于获取特定标签的子节点、合并相邻的文本节点、插入新的元素或者删除指定的节点等。这些工具方法在处理复杂的DOM操作时非常实用,可以避免直接操作DOM树的繁琐代码。 在实际开发中,NekoHTML常...
博客链接中提到的是作者Tivonhou在iteye上的博客文章,虽然具体内容无法查看,但通常这类文章可能会涵盖如何使用NekoHtml解析HTML文件、解决常见问题、优化性能,以及与其他解析库对比等方面的知识。 在压缩包...
这对于生成动态网页内容或修复HTML文档的结构很有用。 在处理大量HTML数据时,性能是需要考虑的一个因素。NekoHTML虽然相对轻量级,但在处理大型文档时可能会显得较慢。在这种情况下,可以考虑使用更高效的解析器,...
《NekoHtml解析内容时需要注意的地方》 在深入探讨NekoHtml解析内容的注意事项之前,首先需要理解NekoHtml是什么。NekoHtml是一款开源的HTML解析器,它由Apache Software Foundation旗下的Xerces项目开发,主要用于...
NekoHTML的主要功能是将不规范的HTML源代码转换为标准的XML,使得开发者可以更容易地处理和操作网页内容。在这个主题中,我们将深入探讨NekoHTML的核心概念、用法以及相关的Java代码示例。 **核心概念** 1. **HTML...
NekoHTML技术预研说明,如何进行HTML页面解析,网页信息抽取
NekoHTML的核心功能是将非标准的HTML源码转化为符合XML规范的DOM(Document Object Model)结构,这样开发者可以使用标准的XML API来处理解析后的文档。这对于构建搜索引擎来说至关重要,因为互联网上的HTML页面质量...
使用 NekoHTML 需要下载 nekohtml-latest.zip,并将其添加到 CLASSPATH 中。然后,使用 JAXP 实例化解析器对象时,可以透明地创建 HTML 解析器。也可以使用 org.cyberneko.html.parsers 包的 DOM 和 SAX 解析器类来...
本篇文章将深入探讨NekoHTML的工作原理以及如何在Java中使用它。 NekoHTML是由Apache Software Foundation的Xerces项目开发的一个小型库,它提供了两个主要类:`org.htmlparser.Parser`和`org.htmlparser....
由于互联网上的HTML文档往往存在不规范的情况,如缺失闭合标签、非法嵌套等,nekohtml能够很好地处理这些非标准的HTML,使得开发者可以更方便地对网页内容进行操作和处理。 **1. nekohtml的jar包**: `nekohtml-...
NekoHTML is written using the Xerces Native Interface (XNI) that is the foundation of the Xerces2 implementation. This enables you to use the NekoHTML parser with existing XNI tools without ...
`nekohtml` 是一个开源的Java库,用于解析HTML和XML文档,它提供了一个Xerces Lite解析器,能够处理不严格的HTML标记,使得在Java应用程序中处理网页内容变得更加容易。这个帮助类可能指的是`nekohtml`库中的一些...
在使用NeKoHTML时,开发者需要将`nekohtml-1.9.21.jar`添加到项目的类路径中,以便能正确导入和使用NeKoHTML的类。同时,由于NeKoHTML依赖于`xercesImpl.jar`和`xml-apis.jar`,所以这两个库也需要一并包含在类路径...
在描述中提到"很好用",这可能是因为NekoHTML提供了以下优势: 1. **容错性**:NekoHTML能够处理不规范的HTML代码,允许有缺失的标签或者不正确的嵌套,这对处理互联网上的大量非标准HTML文档非常有用。 2. **可扩展...
NekoHTML的核心类是`org.cyberneko.html.parsers.DOMParser`,它是基于Xerces的DOM解析器,它能够将HTML文档转化为标准的W3C Document对象,这使得我们可以使用XPath或CSS选择器来查询和操作HTML元素。在提供的`Neko...
NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中常...
NekoHTML是一个简单地HTML扫描器和标签补偿...NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface (XNI),后者是Xerces2的实现基础。
nekoHtml是一款开源的Java库,主要用于HTML解析和XML遍历...开发者可以利用其API和源码来处理网页内容,进行数据提取、网页抓取或其他与HTML相关的任务。在实际项目中,选择合适的HTML解析库应根据具体需求和场景来定。
### NekoHTML 使用笔记 #### 一、简介与配置 NekoHTML 是一款轻量级且高效的 HTML 解析器库,它可以将不规范的 HTML 文档解析为接近标准的 XML 结构,便于后续处理和分析。该库尤其适用于对性能有较高要求的应用...
NekoHTML是一个开源的Java库,用于解析和构建XML和HTML文档。它的全名是“NekoHTML 1.9.18”,正如标题和描述所示。...通过理解和熟练使用NekoHTML,开发者可以更高效地处理和分析网页内容,提升项目质量。