今天简单测了下使用Jsoup和Xpath解析XML的文件的方便程度,两者都可以完成解析,提取特定的元素或节点内容,但明显Jsoup更胜一筹,我们都知道Xpath是专业的xml结构化文档的查询语言,虽然语法功能强大,但是代码还是比较繁琐。虽然jsoup的出现,并不是专门用来解析XML使用的,但是使用jsoup这个轻巧的类库,我们可以完成网页抓取,HTML解析,模拟登陆等一些功能,jsoup完全仿Jquery的语法,提供了强大的操作DOM的能力,即高效又灵活,本篇,散仙仅仅通过一个简单的例子,来说明,jsoup如何以更少的代码,来完成更多的事。
解析的xml的例子如下:
<?xml version="1.0" encoding="UTF-8"?>
<inventory>
<book year="2000">
<title>Snow Crash</title>
<author>Neal Stephenson</author>
<publisher>Spectra</publisher>
<isbn>0553380958</isbn>
<price>14.95</price>
</book>
<book year="2005">
<title>Burning Tower</title>
<author>Larry Niven</author>
<publisher>Pocket</publisher>
<isbn>0743416910</isbn>
<price>5.99</price>
</book>
<person year="2014">
<title>你好</title>
<author>星际旅行</author>
<publisher>工业出版社</publisher>
<isbn>2555555555</isbn>
<price>53.5</price>
</person>
<book year="1995">
<title>Zodiac</title>
<author>Neal Stephenson</author>
<publisher>Spectra</publisher>
<isbn>0553573862</isbn>
<price>57.50</price>
</book>
</inventory>
测试功能如下:打印book下的标题和价格,先看下xpath的写法:
package com.testxpath;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.xpath.XPath;
import javax.xml.xpath.XPathConstants;
import javax.xml.xpath.XPathExpression;
import javax.xml.xpath.XPathFactory;
import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
public class XpathDemo {
public static void main(String[] args) throws Exception{
//Jaxp解析文档
DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();
factory.setNamespaceAware(true);
DocumentBuilder builder=factory.newDocumentBuilder();
Document doc=builder.parse("a.xml");
XPathFactory xft=XPathFactory.newInstance();
XPath xpath=xft.newXPath();
XPathExpression expr=xpath.compile("//book/title//text() | //book/price//text()");//某个元素下的所有元素
Object result=expr.evaluate(doc, XPathConstants.NODESET);
NodeList nodes=(NodeList)result;
for(int i=0;i<nodes.getLength();i++){
Node item = nodes.item(i);
System.out.println(" 节点名: "+item.getNodeName()+" 节点值: "+item.getNodeValue());
}
}
}
再看下jsoup的写法:
package com.testxpath;
import java.io.File;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupDemo {
public static void main(String[] args) throws Exception{
// Document d=Jsoup.parse("a.xml");//无效
Document d=Jsoup.parse(new File("a.xml"),"UTF-8");//必须使用这种方式解析
for(Element el:d.select("book")){
System.out.println("标题:"+el.select("title").text()+" 价格: "+el.select("price").text());
}
}
}
从上面一个简单的功能,就能看出jsoup的简单,快捷,强大之处了,而且操作的元素非常规整,而Xpath则比较乱,虽然可以拿到具体的文本,但是不规整,想把相关的元素的放在一行打印显示,还需要做一些工作。
当然xpath和jsoup的功能,远远不如此,xpath在过滤关面,有很多用法,非常强大,但是节点的准确定位,遍历查询方面,比较弱,而jsoup则使用CSS Query的用法,非常贴切,只要你会用jquery,css,基本使用jsoup都是手到擒来的事,此外,jsoup的强大之处还在网页解析和抽取,有兴趣的朋友,可以了解一下,散仙在这里就不多涉及了.
分享到:
相关推荐
整理JsoupXpath( https://github.com/zhegexiaohuozi/JsoupXpath)是一款纯Java开发的使用xpath解析提取html内容的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath. 为了在java...
**Jsoup与XPath:Java中的HTML解析神器** 在Java编程中,处理HTML文档是一项常见的任务,无论是网页抓取、数据提取还是自动化测试,都需要高效且可靠的工具来解析和操作HTML内容。Jsoup和XPath就是这样两个强大的库...
JsoupXpath 是一款纯Java开发的使用xpath解析提取html数据的解析器,针对html解析完整实现了W3C XPATH 1.0标准语法,xpath的Lexer和Parser基于Antlr4构建,html的DOM树生成采用Jsoup,故命名为JsoupXpath....
JsoupXPath是一个基于Jsoup库实现的XPath解析工具,它扩展了Jsoup的功能,使得开发者可以使用XPath表达式来解析HTML文档,极大地提高了在处理HTML数据时的效率和便利性。以下将详细介绍这些依赖的jar文件及其在Jsoup...
Jsoup和JsoupXpath是Java开发者在处理HTML和XML文档时常用的库,它们在解析、提取和操作网页数据方面提供了强大的功能。这篇详细的解释将深入探讨这两个库以及它们在Java XML处理中的应用。 首先,Jsoup(Java Soup...
JsoupXpath-0.3.2.jar 是一个Java库,它扩展了Jsoup库的功能,引入了XPath支持。Jsoup是一个流行的Java库,用于处理和解析HTML文档,提供了类似于jQuery的API,使得在Java中操作HTML变得简单易行。然而,原生的Jsoup...
**JSoup与XPath详解** JSoup是一个用于Java的开源库,设计目的是为了处理HTML文档,提取和操作数据。它的核心功能在于提供了一种简洁而强大的API,使得开发者能够方便地解析、遍历以及修改HTML文档。JSoup可以理解...
JsoupXpath jsoup的升级版 ,支持jsoup的同时还支持原生xpath语法,让你的爬虫更得心应手,无所不爬!
JsoupXpath是一个Java库,它是Jsoup和XPath的结合体,用于在HTML文档中进行高效且方便的数据提取。这个库的版本为2.4.3,包含三个关键的组件,分别为`javadoc.jar`、`sources.jar`和`jar`本身。 1. **JsoupXpath-...
JsoupXpath 是一款纯Java开发的使用xpath解析html的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath.为了在java里也享受xpath的强大与方便但又苦于找不到一款足够强大的xpath...
《Android本地网络小说爬虫,基于jsoup及xpath》是一个针对Android平台的网络小说抓取项目,它结合了Java的jsoup库和XPath表达式来高效地解析HTML内容,从而实现对网络小说资源的自动化抓取。这个项目不仅提供了源...
现在常用的网页解析工具有:Jsoup,JsoupXpath,HtmlCleaner。 jsoup 是一款Java 的XML、HTML解析器,可直接解析某个URL地址、HTML文本内容和已经存在的文件。 JsoupXPath是基于Jsoup的拓展,使用路径的形式解析XML...
Android 本地网络小说爬虫,基于 jsoup 与 xpath,通过模版解析网页。 - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分...
java的包使用jsou相关会用到
commons-lang3-3.3.2、jsoup-1.13.1和JsoupXpath-0.3.2,要是实现JsoupXpath必须要加载依赖包commons-lang3-3.3.2、jsoup-1.13.1。
为了在java里也享受xpath的强大与方便但又苦于找不到一款足够好用的xpath解析器,故开发了JsoupXpath。JsoupXpath的实现逻辑清晰,扩展方便, 支持完备的W3C XPATH 1.0标准语法,W3C规范: ,Jso