//nekohtml结合xpath用法
DOMParser parser = new DOMParser();
try {
//设置网页的默认编码
parser.setProperty("http://cyberneko.org/html/properties/default-encoding","gb2312");
/*The Xerces HTML DOM implementation does not support namespaces
and cannot represent XHTML documents with namespace information.
Therefore, in order to use the default HTML DOM implementation with NekoHTML's
DOMParser to parse XHTML documents, you must turn off namespace processing.*/
parser.setFeature("http://xml.org/sax/features/namespaces", false);
String strURL = "http://product.dangdang.com/product.aspx?product_id=9317290";
BufferedReader in = new BufferedReader(
new InputStreamReader(
new URL(strURL).openStream()));
parser.parse(new InputSource(in));
in.close();
} catch (Exception e) {
e.printStackTrace();
}
Document doc = parser.getDocument();
// tags should be in upper case
String productsXpath = "/HTML/BODY/DIV[2]/DIV[4]/DIV[2]/DIV/DIV[3]/UL[@class]/LI[9]";
NodeList products;
try {
products = XPathAPI.selectNodeList(doc, productsXpath);
System.out.println("found: " + products.getLength());
Node node = null;
for(int i=0; i< products.getLength();i++)
{
node = products.item(i);
System.out.println( i + ":\n" + node.getTextContent());
}
}catch (TransformerException e) {
e.printStackTrace();
}
分享到:
相关推荐
**使用方法** 1. **导入库**:首先,你需要在项目中引入NekoHTML库。如果你使用Maven,可以在pom.xml文件中添加以下依赖: ```xml <groupId>net.sourceforge.nekohtml</groupId> <artifactId>nekohtml ...
3. **NekoHTML特性和用法**:了解NekoHTML如何处理不标准的HTML,以及如何配置和使用解析器。 4. **Java编程**:因为NekoHTML是用Java实现的,所以你需要具备基本的Java编程能力,以便编写和运行相关代码。 在阅读`...
通过分析这些文件,我们可以更直观地了解NekoHtml的使用方法和效果。例如,可能会有简单的Java代码片段展示如何创建NekoParser实例,加载HTML文件,然后遍历和操作生成的DOM树。测试用例则可能包含了各种格式的HTML...
三、NekoHTML 的使用方法 使用 NekoHTML 需要下载 nekohtml-latest.zip,并将其添加到 CLASSPATH 中。然后,使用 JAXP 实例化解析器对象时,可以透明地创建 HTML 解析器。也可以使用 org.cyberneko.html.parsers 包...
`NekoDoc`则是一个用于生成HTML文档的API文档的工具,它有助于理解库的使用方法。 在使用NekoHTML时,首先需要将其添加到项目依赖中。对于Java项目,这通常意味着将JAR文件包含在类路径中。1.9.13版本的NekoHTML...
本篇文章将深入探讨NekoHTML的工作原理以及如何在Java中使用它。 NekoHTML是由Apache Software Foundation的Xerces项目开发的一个小型库,它提供了两个主要类:`org.htmlparser.Parser`和`org.htmlparser....
### NekoHTML 使用笔记 #### 一、简介与配置 NekoHTML 是一款轻量级且高效的 HTML 解析器库,它可以将不规范的 HTML 文档解析为接近标准的 XML 结构,便于后续处理和分析。该库尤其适用于对性能有较高要求的应用...
例如,可以使用`org.cyberneko.html.parsers.DocumentBuilder`类来创建一个解析器,并通过`parse()`方法读取和解析HTML文本。 **2. nekohtml的源码**: 除了jar包,压缩包还提供了源码文件,这使得开发者有机会深入...
`nekohtml` 是一个开源的Java库,用于解析HTML和XML文档,它提供了一个Xerces Lite解析器,能够处理不严格...通过阅读这些资源,开发者可以获得更具体的使用示例和高级用法,以便在实际项目中更好地应用`nekohtml`库。
使用NeKoHTML时,开发者首先需要创建一个`DOMParser`实例,然后配置解析器以处理HTML或XHTML,接着设置输入源,最后调用`parse`方法解析HTML文本。解析完成后,`parse`方法会返回一个`Document`对象,供开发者进行...
例如,可以创建一个`org.htmlparser.Parser`实例,然后使用`parse()`方法解析HTML内容。解析完成后,可以通过DOM接口如`NodeList`, `Node`, `Element`等来遍历和操作DOM树。 标签"nekoHtml"表明这个库专注于HTML...
1. **nekohtml-1.9.22.jar**:这是NekoHTML的核心库文件,包含了所有的类和方法,供开发者在Java环境中使用。它提供了对不规则或非标准HTML的解析能力,允许开发者处理和理解那些可能不符合严格XML规范的网页内容。...
在使用"nekohtml-1.9.9.zip"时,你需要将其解压到你的项目中,并通过Java的`import`语句引入相关的类,如`net.sourceforge.nekohtml.NekoHTMLParser`。之后,你可以创建解析器对象并调用其方法来处理HTML字符串或...
这是用java 和nekoHTML分析出页面的相似度,用法如下: String url1 = "http://www.baidu.com"; String url2 = "http://www.baidu.com"; System.out.println(PageDistance.getPageDistance(url1, url2)); 我己把源...
本示例将探讨如何使用NekoHTML这个Java库将普通的HTML文件解析为符合XHTML标准的文档。 NekoHTML是由Apache的Cobra项目提供的一种开源Java库,它允许开发者分析、清理和转换HTML文档。这个库的主要目标是处理不完全...
最近要在项目中做HTML解析,本想使用NekoHTML来解析,但看了下NekoHTML有点复杂,故采用了一种便捷,笨的方式来完成项目的要求....在解析期间,研究了很多java正则表达式使用方法,颇得一些经验,不敢独享,愿与大家共享.
... ...尽管两者都属于标记语言,但它们的设计目的...通过使用 Apache NekoHTML 和 Java 标准库,我们可以轻松地完成这一转换任务。对于需要进行 HTML 数据处理的应用程序来说,这种方法提供了一个高效且可靠的解决方案。
例如,你可以创建一个WebClient对象,设置cookies,然后使用`getPage()`方法加载网页,使用`click()`方法模拟点击链接,或者使用`executeJavaScript()`方法执行JavaScript代码。 总的来说,HTMLUnit是一个强大的...
<artifactId>nekohtml <version>1.9.14 <groupId>xml-apis <artifactId>xml-apis <version>1.4.01 <groupId>org.xhtmlrenderer <artifactId>flying-saucer-core <version>9.0.6 <groupId>...