`

Java中XPath的应用

 
阅读更多

XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。目前有XPath1.0和XPath2.0两个版本。其中Xpath1.0是1999年成为W3C标准,而XPath2.0标准的确立是在2007年。W3C关于XPath的英文详细文档请见:http://www.w3.org/TR/xpath20/ 。

XPath是一种表达式语言,它的返回值可能是节点,节点集合,原子值,以及节点和原子值的混合等。XPath2.0是XPath1.0的超集。它是对XPath1.0的扩展,它可以支持更加丰富的数据类型,并且XPath2.0保持了对XPath1.0的相对很好的向后兼容性,几乎所有的XPath2.0的返回结果都可以和XPath1.0保持一样。另外XPath2.0也是XSLT2.0和XQuery1.0的用于查询定位节点的主表达式语言。XQuery1.0是对XPath2.0的扩展。关于在XSLT和XQuery中使用XPath表达式定位节点的知识在后面的实例中会有所介绍。

在学习XPath之前你应该对XML的节点,元素,属性,原子值(文本),处理指令,注释,根节点(文档节点),命名空间以及对节点间的关系如:父(Parent),子(Children),兄弟(Sibling),先辈(Ancestor),后代(Descendant)等概念有所了解。这里不在说明。

XPath路径表达式

在本小节下面的内容中你将可以学习到:

  • 路径表达式语法
  • 相对/绝对路径
  • 表达式上下文
  • 谓词(筛选表达式)及轴的概念
  • 运算符及特殊字符
  • 常用表达式实例
  • 函数及说明

这里给出一个实例Xml文件。下面的说明及实例都是基于该XML文件。

路径表达式语法: 

  1. 路径 = 相对路径 | 绝对路径
  2. XPath路径表达式 = 步进表达式 | 相对路径 "/"步进表达式。
  3. 步进表达式=轴 节点测试 谓词

说明:

  1. 其中轴表示步进表达式选择的节点和当前上下文节点间的树状关系(层次关系),节点测试指定步进表达式选择的节点名称扩展名,谓词即相当于过滤表达式以进一步过滤细化节点集。
  2. 谓词可以是0个或多个。多个多个谓词用逻辑操作符and, or连接。取逻辑非用not()函数。
请看一个典型的XPath查询表达式:/messages/message//child::node()[@id=0],其中/messages/message是路径(绝对路径以"/"开始),child::是轴表示在子节点下选择,node()是节点测试表示选择所有的节点。[@id=0]是谓词,表示选择所有有属性id并且值为0的节点。
 
相对路径与绝对路径:
如果"/"处在XPath表达式开头则表示文档根元素,(表达式中间作为分隔符用以分割每一个步进表达式)如:/messages/message/subject是一种绝对路径表示法,它表明是从文档根开始查找节点。假设当前节点是在第一个message节点【/messages/message[1]】,则路径表达式subject(路径前没有"/")这种表示法称为相对路径,表明从当前节点开始查找。具体请见下面所述的"表达式上下文"。
表达式上下文(Context):
上下文其实表示一种环境。以明确当前XPath路径表达式处在什么样的环境下执行。例如同样一个路径表达式处在对根节点操作的环境和处在对某一个特定子节点操作的环境下执行所获得的结果可能是完全不一样的。也就是说XPath路径表达式计算结果取决于它所处的上下文。
XPath上下文基本有以下几种
  • 当前节点(./): 
    如./sender表示选择当前节点下的sender节点集合(等同于下面所讲的"特定元素",如:sender)
  • 父节点(../): 
    如../sender表示选择当前节点的父节点下的sender节点集合
  • 根元素(/): 
    如/messages表示选择从文档根节点下的messages节点集合.
  • 根节点(/*): 
    这里的*是代表所有节点,但是根元素只有一个,所以这里表示根节点。/*的返回结果和/messages返回的结果一样都是messages节点。
  • 递归下降(//): 
    如当前上下文是messages节点。则//sender将返回以下结果: 
    /messages//sender : 
    <sender>gkt1980@gmail.com</sender> 
    <sender>111@gmail.com</sender> 
    <sender>333@gmail.com</sender> 

    /messages/message[1]//sender: 
    <sender>gkt1980@gmail.com</sender> 
    <sender>111@gmail.com</sender> 

    我们可以看出XPath表达式返回的结果是:从当前节点开始递归步进搜索当前节点下的所有子节点找到满足条件的节点集。
  • 特定元素 
    如sender:表示选择当前节点下的sender节点集合,等同于(./sender)
注意:在执行XPath时一定要注意上下文。即当前是在哪个节点下执行XPath表达式。这在XMLDOM中很重要。如:在XMLDOM中的selectNodes,selectSingleNode方法的参数都是一个XPath表达式,此时这个XPath表达式的执行上下文就是调用这个方法的节点及它所在的环境。更多信息请参见:http://www.w3.org/TR/xpath20/
谓词(筛选表达式)及轴的概念
XPath的谓词即筛选表达式,类似于SQL的where子句.

 

轴名称
结果
ancestor
选取当前节点的所有先辈(父、祖父等)
ancestor-or-self
选取当前节点的所有先辈(父、祖父等)以及当前节点本身
attribute
选取当前节点的所有属性
child
选取当前节点的所有子元素。
descendant
选取当前节点的所有后代元素(子、孙等)。
descendant-or-self
选取当前节点的所有后代元素(子、孙等)以及当前节点本身。
following
选取文档中当前节点的结束标签之后的所有节点。
namespace
选取当前节点的所有命名空间节点
parent
选取当前节点的父节点。
preceding
直到所有这个节点的父辈节点,顺序选择每个父辈节点前的所有同级节点
preceding-sibling
选取当前节点之前的所有同级节点。
self
选取当前节点。

 

运算符及特殊字符:

 

运算符/特殊字符
说明
/
此路径运算符出现在模式开头时,表示应从根节点选择。
//
从当前节点开始递归下降,此路径运算符出现在模式开头时,表示应从根节点递归下降。
.
当前上下文。
..
当前上下文节点父级。
*
通配符;选择所有元素节点与元素名无关。(不包括文本,注释,指令等节点,如果也要包含这些节点请用node()函数)
@
属性名的前缀。
@*
选择所有属性,与名称无关。
:
命名空间分隔符;将命名空间前缀与元素名或属性名分隔。
( )
括号运算符(优先级最高),强制运算优先级。
[ ]
应用筛选模式(即谓词,包括"过滤表达式"和"轴(向前/向后)")。
[ ]
下标运算符;用于在集合中编制索引。
|
两个节点集合的联合,如://messages/message/to | //messages/message/cc
-
减法。
div,
浮点除法。
and, or
逻辑运算。
mod
求余。
not()
逻辑非
=
等于
!=
不等于
特殊比较运算符
< 或者 &lt;
<= 或者 &lt;=
> 或者 &gt;
>= 或者 &gt;=
需要转义的时候必须使用转义的形式,如在XSLT中,而在XMLDOM的scripting中不需要转义。

 

常用表达式实例:

 

/
Document Root文档根.
/*
选择文档根下面的所有元素节点,即根节点(XML文档只有一个根节点)
/node()
根元素下所有的节点(包括文本节点,注释节点等)
/text()
查找文档根节点下的所有文本节点
/messages/message
messages节点下的所有message节点
/messages/message[1]
messages节点下的第一个message节点
/messages/message[1]/self::node()
第一个message节点(self轴表示自身,node()表示选择所有节点)
/messages/message[1]/node()
第一个message节点下的所有子节点
/messages/message[1]/*[last()]
第一个message节点的最后一个子节点
/messages/message[1]/[last()]
Error,谓词前必须是节点或节点集
/messages/message[1]/node()[last()]
第一个message节点的最后一个子节点
/messages/message[1]/text()
第一个message节点的所有子节点
/messages/message[1]//text()
第一个message节点下递归下降查找所有的文本节点(无限深度)
/messages/message[1] /child::node()
/messages/message[1] /node()
/messages/message[position()=1]/node()
//message[@id=1] /node()
第一个message节点下的所有子节点
//message[@id=1] //child::node()
递归所有子节点(无限深度)
//message[position()=1]/node()
选择id=1的message节点以及id=0的message节点
/messages/message[1] /parent::*
Messages节点
/messages/message[1]/body/attachments/parent::node()
/messages/message[1]/body/attachments/parent::* /messages/message[1]/body/attachments/..
attachments节点的父节点。父节点只有一个,所以node()和* 返回结果一样。
(..也表示父节点. 表示自身节点)
//message[@id=0]/ancestor::*
Ancestor轴表示所有的祖辈,父,祖父等。
向上递归
//message[@id=0]/ancestor-or-self::*
向上递归,包含自身
//message[@id=0]/ancestor::node()
对比使用*,多一个文档根元素(Document root)
/messages/message[1]/descendant::node()
//messages/message[1]//node()
递归下降查找message节点的所有节点
/messages/message[1]/sender/following::*
查找第一个message节点的sender节点后的所有同级节点,并对每一个同级节点递归向下查找。
//message[@id=1]/sender/following-sibling::*
查找id=1的message节点的sender节点的所有后续的同级节点。
//message[@id=1]/datetime/@date
查找id=1的message节点的datetime节点的date属性
//message[@id=1]/datetime[@date]
//message/datetime[attribute::date]
查找id=1的message节点的所有含有date属性的datetime节点
//message[datetime]
查找所有含有datetime节点的message节点
//message/datetime/attribute::*
//message/datetime/attribute::node()
//message/datetime/@*
返回message节点下datetime节点的所有属性节点
//message/datetime[attribute::*]
//message/datetime[attribute::node()]
//message/datetime[@*]
//message/datetime[@node()]
选择所有含有属性的datetime节点
//attribute::*
选择根节点下的所有属性节点
//message[@id=0]/body/preceding::node()
顺序选择body节点所在节点前的所有同级节点。(查找顺序为:先找到body节点的顶级节点(根节点),得到根节点标签前的所有同级节点,执行完成后继续向下一级,顺序得到该节点标签前的所有同级节点,依次类推。)
注意:查找同级节点是顺序查找,而不是递归查找。
//message[@id=0]/body/preceding-sibling::node()
顺序查找body标签前的所有同级节点。(和上例一个最大的区别是:不从最顶层开始到body节点逐层查找。我们可以理解成少了一个循环,而只查找当前节点前的同级节点)
//message[@id=1]//*[namespace::amazon]
查找id=1的所有message节点下的所有命名空间为amazon的节点。
//namespace::*
文档中的所有的命名空间节点。(包括默认命名空间xmlns:xml)
//message[@id=0]//books/*[local-name()='book']
选择books下的所有的book节点,
注意:由于book节点定义了命名空间<amazone:book>.若写成//message[@id=0]//books/book则查找不出任何节点。
//message[@id=0]//books/*[local-name()='book' and namespace-uri()='http://www.amazon.com/books/schema']
选择books下的所有的book节点,(节点名和命名空间都匹配)
//message[@id=0]//books/*[local-name()='book'][year>2006]
选择year节点值>2006的book节点
//message[@id=0]//books/*[local-name()='book'][1]/year>2006
指示第一个book节点的year节点值是否大于2006.
返回xs:boolean: true

 

函数及说明: 
值得欣喜的是XPath函数和XSLT,XQuery等共享函数库,函数库为我们提供了功能丰富的各种函数的调用,我们也可以自定义自己的函数。这里不再对每个函数的用法逐一说明,英文好点的朋友直接去看看w3关于XPath函数的介绍吧:http://www.w3.org/TR/xquery-operators 。中文的可以参考这个网站,http://www.w3school.com.cn/xpath/xpath_functions.asp
 
XPath在DOM,XSLT及XQuery中的应用

 

 

复制代码
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> 
<html xmlns="http://www.w3.org/1999/xhtml"> 
<head> 
<title>XPath Test</title> 
</head> 
<body> 

<script language="javascript" type="text/javascript"> 
var xmlDoc = new ActiveXObject("Microsoft.XMLDOM"); 
xmlDoc.async
="false"
xmlDoc.load(
"messages.xml"); 
xmlDoc.setProperty(
"SelectionLanguage""XPath"); 
    
var sPath = "/messages/message[1]//books/*[local-name()='book']"
var bookNodes = xmlDoc.selectNodes(sPath); 

document.write(
"<ul>"); 
for ( var i = 0; i < bookNodes.length; i++) { 
document.write(
"<li>" + bookNodes[i].childNodes[0].text + "</li>"); 

document.write(
"</ul>"); 
</script> 

</body> 
</html>
复制代码

 

注意
我们若使用new ActiveXObject("Microsoft.XMLDOM")则需要注意的是:因为早期的XMLDOM的SelectionLanguage属性默认是正则表达式,不是XPath语言。所以需要指定这样一条语句xmlDoc.setProperty("SelectionLanguage", "XPath"); 以支持XPath查询表达式。.
若没有指定SelectionLanguage属性值为XPath则要注意以下情况:
  1. 数组下标从0开始(我们知道在XPath查询表达式中数组下标是从1开始的)
  2. 不支持在XPath查询表达式中使用XPath函数。
XSLT: 
见:我的另外一篇关于如何使用XSLT的一个小示范http://www.cnblogs.com/ktgu/archive/2008/12/14/1354890.html
XQuery: 

 

复制代码
xquery version "1.0"

<ul> 

let $i :
= 0 
for $x in doc("C:\Users\Administrator\Desktop\messages.xml")//message[@id=0]//books/*[local-name()='book'] 
where $x/year>2006 
order by $x
/year descending 
return <li>{ data($x/name) } </li> 

</ul>
复制代码

 

返回结果

<ul> 
    <li>Microsoft Visual C# 2008 Step by Step </li> 
    <li>Professional C# 2008 </li> 
</ul>
分享到:
评论

相关推荐

    Java中使用xpath获取xml中的数据

    在实际应用中,可以根据需求灵活地构造XPath表达式,以高效地提取XML文档中的信息。记住,XPath是XML处理中的强大工具,合理使用能大大提高开发效率。在处理大型XML文档时,使用XPath配合Java进行数据提取,可以避免...

    java xml xpath介绍

    总之,Java XML XPath 提供了一种强大而灵活的方式来处理XML数据,使得在Java应用程序中检索和操作XML内容变得更加容易。开发者可以根据需要的路径表达式和谓语来精确地定位和操作XML文档中的任何部分。

    java 写的xpath生成工具

    3. **Java中的XPath应用** - **Java的XPath API**:Java标准库提供`javax.xml.xpath`包,包含`XPath`、`XPathFactory`、`XPathExpression`等类,用于解析和执行XPath表达式。 - **创建XPath对象**:使用`...

    xpath--java框架技术

    在Java框架中,XPath的应用广泛,尤其在处理XML数据时,它是不可或缺的一部分。Java通过JAXP(Java API for XML Processing)提供对XPath的支持,允许开发者高效地定位和操作XML文档。 XPath的语法基于路径表达式,...

    Java版本的XPath方式解析jar和源代码

    XPath,全称XML Path Language,是一种在XML文档中查找信息的语言。它被设计用来选取XML文档中的节点,如元素、属性、文本...通过学习和应用提供的源代码,开发者可以深入理解XPath与Java的结合使用,提升XML解析能力。

    java xpath demo

    本Java XPath Demo将向你展示XPath在实际开发中的应用。 首先,你需要了解XPath的基本语法。XPath表达式是由路径组成的,这些路径用于定位XML文档中的节点。例如,`/root/element` 将选取根元素下的所有`element`...

    Java 语言的 XPath API

    【XPath API 在 Java 中的应用】 XPath 是一种在 XML 文档中查找信息的路径语言,它提供了简洁的方式来定位 XML 结构中的元素。Java 5 引入了 `javax.xml.xpath` 包,使得开发者能够轻松地在 Java 程序中集成 XPath...

    JsonPath使用类似XPATH的语法从JSON提取数据

    对于压缩包文件`json-path-JsonPath-8a23997`,这可能是一个包含JsonPath库源代码或者示例项目的版本,通过查看源码和示例,你可以更深入地了解JsonPath的实现细节以及如何在实际项目中应用它。这个资源对于学习和...

    dom4j和xpath必备jar包

    在实际应用中,"dom4j和xpath必备jar包"通常包含了DOM4J库和XPath相关的类库,如Java的JAXP(Java API for XML Processing)的一部分,这些库文件是Java项目中解析和操作XML所必需的依赖。将这些jar包添加到项目的类...

    xpath的jar包

    XPath的jar包,例如`jaxen`,是Java实现的一个XPath处理库,它允许Java应用程序执行XPath查询并在XML文档中提取数据。Jaxen项目是一个开源项目,旨在提供一个独立于特定XML API的通用XPath引擎,支持DOM、DOM4J、...

    JDOM中XPath.selectNodes()和XPath.selectSingleNode()用法

    在实际应用中,JDOM结合XPath可以极大地提高处理XML文档的效率和灵活性。例如,你可以在Web服务、配置文件处理、数据交换等多个场景中利用它们的功能。了解并熟练掌握这两个方法,将有助于你更好地驾驭XML文档的处理...

    xpath读取XML节点

    通过解压并分析这些文件,你可以更深入地了解XPath在实际应用中的用法。例如,它可能包含了不同的XPath表达式,以及如何处理查询结果的不同情况。 总之,XPath和JDOM结合使用,为Java开发者提供了一种强大而灵活的...

    XPath官方文档 教程

    在这个“XPath官方文档教程”中,我们将深入学习XPath的基本概念、语法以及如何在实际应用中使用它。 一、XPath概述 XPath 1.0版本由W3C在2000年发布,后来又推出了XPath 2.0和3.1版本,增加了更多功能和表达能力。...

    JAVA通过XPath解析XML性能比较详解

    本文将深入探讨XPath在Java中的应用,包括解析XML的几种方法,XPath的基本概念,以及DOM4J库使用XPath的一些注意事项。 首先,让我们回顾一下XML文件解析的四种主要方法: 1. SAX(Simple API for XML):这是一种...

    XPath 教程(XPath Tutorial)多国语言帮助手册.rar

    XPath的应用广泛,包括在XSLT(XML样式表语言)中进行数据转换,以及在各种编程语言如Java、Python、JavaScript中处理XML数据。通过深入学习XPath教程,开发者可以更好地理解和操纵XML文档,提升其在Web开发、数据...

    Java 语言的 XPath API.docx

    XPath,全称XML Path Language,是一种在XML文档中查找信息的语言。它被设计用来方便地选取XML文档中的节点,如元素...无论是在大型项目还是小型应用中,熟悉并合理运用XPath都能显著提高XML处理的效率和代码的可读性。

    Xpath注入攻击及其防御技术研究

    Xpath注入攻击(XPath Injection)是指攻击者通过在应用程序输入中插入恶意XPath表达式,从而获取敏感信息或控制服务器的行为的一种攻击方式。 #### 二、Xpath注入攻击原理 Xpath注入攻击主要依赖于应用程序对用户...

    xml+Xpath基本应用

    xml+Xpath基本应用,含有Dom4J及支持Xpath所需要的jar包,及xpath的入门教程,并附带一份源代码,提供对xml文件的基本读写及内容的增删改查的操作,方便学习xml,xpath及dom4j

    XPath and XSLT

    4. 实践应用:如何创建XSLT样式表,以及在实际项目中应用XPath和XSLT。 5. 高级主题:如扩展功能、模板模式、处理外部数据源等。 6. 工具和调试:使用不同的XSLT处理器,如Saxon、Xalan等,以及如何调试XSLT代码。 ...

    xpath 依赖包及开发手册

    它会涵盖基本的路径表达式、轴、节点测试、函数、变量引用等概念,以及如何在实际项目中应用XPath。 XPath的使用场景广泛,比如在网页爬虫中定位HTML元素,或者在XML数据处理中提取特定信息。通过Jaxen和DOM4j的...

Global site tag (gtag.js) - Google Analytics