Xpath语法格式整理
经常在工作中会使用到XPath的相关知识,但每次总会在一些关键的地方不记得或不太清楚,所以免不了每次总要查一些零碎的知识,感觉即很烦又浪费时间,所以对XPath归纳及总结一下。
在这篇文章中你将能学习到:
XPath简介
XPath 路径表达式详解
XPath在DOM,XSLT及XQuery中的应用
XPath简介
XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。目前有XPath1.0和XPath2.0两个版本。其中Xpath1.0是1999年成为W3C标准,而XPath2.0标准的确立是在2007年。W3C关于XPath的英文详细文档请见:http://www.w3.org/TR/xpath20/ 。
XPath是一种表达式语言,它的返回值可能是节点,节点集合,原子值,以及节点和原子值的混合等。XPath2.0是XPath1.0的超集。它是对XPath1.0的扩展,它可以支持更加丰富的数据类型,并且XPath2.0保持了对XPath1.0的相对很好的向后兼容性,几乎所有的XPath2.0的返回结果都可以和XPath1.0保持一样。另外XPath2.0也是XSLT2.0和XQuery1.0的用于查询定位节点的主表达式语言。XQuery1.0是对XPath2.0的扩展。关于在XSLT和XQuery中使用XPath表达式定位节点的知识在后面的实例中会有所介绍。
在学习XPath之前你应该对XML的节点,元素,属性,原子值(文本),处理指令,注释,根节点(文档节点),命名空间以及对节点间的关系如:父(Parent),子(Children),兄弟(Sibling),先辈(Ancestor),后代(Descendant)等概念有所了解。这里不在说明。
XPath路径表达式
在本小节下面的内容中你将可以学习到:
路径表达式语法
相对/绝对路径
表达式上下文
谓词(筛选表达式)及轴的概念
运算符及特殊字符
常用表达式实例
函数及说明
这里给出一个实例Xml文件。下面的说明及实例都是基于该XML文件。
<?xml version="1.0" encoding="UTF-8"?>
<!-- edited with XMLSpy v2008 rel. 2 sp2 (http://www.altova.com) by Administrator -->
<?xml-stylesheet type="text/xsl" href="messages.xsl"?>
<messages>
<message id="1">
<sender>gukaitong@gmail.com</sender>
<to>anonymous@gmail.com
<group name="IT">
<address>111@gmail.com</address>
<address>222@gmail.com</address>
<address>aaa@gmail.com</address>
<address>bbb@gmail.com</address>
<address>ccc@gmail.com</address>
</group>
</to>
<subject>This is a sample</subject>
<datetime date="2008-12-11" time="12:00:00" formatted="12/11/2008 12:00AM">2008-12-11T12:00:00Z</datetime>
<body>
Are you interested in?
<attachments>
<attachment id="1">
<message id="0">
<sender>anonymous@gmail.com</sender>
<to>gukaitong@gmail.com</to>
<body>
We strongly recommend the following books
<books xmlns:amazon="http://www.amazon.com/books/schema">
<amazon:book>
<name>Professional C# 2008 </name>
<country>USA</country>
<price>37.79</price>
<year>2007</year>
</amazon:book>
<amazon:book>
<name>Microsoft Visual C# 2008 Step by Step </name>
<country>USA</country>
<price>26.39 </price>
<year>2008</year>
</amazon:book>
<amazon:book>
<name>C# in Depth</name>
<country>USA</country>
<price>29.69 </price>
<year>2006</year>
</amazon:book>
<amazon:book>
<name>Thinking in Java</name>
<country>USA</country>
<price>23.69 </price>
<year>2004</year>
</amazon:book>
</books>
</body>
</message>
</attachment>
</attachments>
</body>
</message>
<message id="2">
<sender>333@gmail.com</sender>
<to>444@gmail.com</to>
<subject>No title</subject>
<body/>
</message>
</messages>
路径表达式语法:
路径 = 相对路径 | 绝对路径
XPath路径表达式 = 步进表达式 | 相对路径 "/"步进表达式。
步进表达式=轴 节点测试 谓词
说明:
其中轴表示步进表达式选择的节点和当前上下文节点间的树状关系(层次关系),节点测试指定步进表达式选择的节点名称扩展名,谓词即相当于过滤表达式以进一步过滤细化节点集。
谓词可以是0个或多个。多个多个谓词用逻辑操作符and, or连接。取逻辑非用not()函数。
请看一个典型的XPath查询表达式:/messages/message//child::node()[@id=0],其中/messages/message是路径(绝对路径以"/"开始),child::是轴表示在子节点下选择,node()是节点测试表示选择所有的节点。[@id=0]是谓词,表示选择所有有属性id并且值为0的节点。
相对路径与绝对路径:
如果"/"处在XPath表达式开头则表示文档根元素,(表达式中间作为分隔符用以分割每一个步进表达式)如:/messages/message/subject是一种绝对路径表示法,它表明是从文档根开始查找节点。假设当前节点是在第一个message节点【/messages/message[1]】,则路径表达式subject(路径前没有"/")这种表示法称为相对路径,表明从当前节点开始查找。具体请见下面所述的"表达式上下文"。
表达式上下文(Context):
上下文其实表示一种环境。以明确当前XPath路径表达式处在什么样的环境下执行。例如同样一个路径表达式处在对根节点操作的环境和处在对某一个特定子节点操作的环境下执行所获得的结果可能是完全不一样的。也就是说XPath路径表达式计算结果取决于它所处的上下文。
XPath上下文基本有以下几种:
当前节点(./):
如./sender表示选择当前节点下的sender节点集合(等同于下面所讲的"特定元素",如:sender)
父节点(../):
如../sender表示选择当前节点的父节点下的sender节点集合
根元素(/):
如/messages表示选择从文档根节点下的messages节点集合.
根节点(/*):
这里的*是代表所有节点,但是根元素只有一个,所以这里表示根节点。/*的返回结果和/messages返回的结果一样都是messages节点。
递归下降(//):
如当前上下文是messages节点。则//sender将返回以下结果:
/messages//sender :
<sender>gkt1980@gmail.com</sender>
<sender>111@gmail.com</sender>
<sender>333@gmail.com</sender>
/messages/message[1]//sender:
<sender>gkt1980@gmail.com</sender>
<sender>111@gmail.com</sender>
我们可以看出XPath表达式返回的结果是:从当前节点开始递归步进搜索当前节点下的所有子节点找到满足条件的节点集。
特定元素
如sender:表示选择当前节点下的sender节点集合,等同于(./sender)
注意:在执行XPath时一定要注意上下文。即当前是在哪个节点下执行XPath表达式。这在XMLDOM中很重要。如:在XMLDOM中的selectNodes,selectSingleNode方法的参数都是一个XPath表达式,此时这个XPath表达式的执行上下文就是调用这个方法的节点及它所在的环境。更多信息请参见:http://www.w3.org/TR/xpath20/
谓词(筛选表达式)及轴的概念:
XPath的谓词即筛选表达式,类似于SQL的where子句.
轴名称
结果
ancestor
选取当前节点的所有先辈(父、祖父等)
ancestor-or-self
选取当前节点的所有先辈(父、祖父等)以及当前节点本身
attribute
选取当前节点的所有属性
child
选取当前节点的所有子元素。
descendant
选取当前节点的所有后代元素(子、孙等)。
descendant-or-self
选取当前节点的所有后代元素(子、孙等)以及当前节点本身。
following
选取文档中当前节点的结束标签之后的所有节点。
namespace
选取当前节点的所有命名空间节点
parent
选取当前节点的父节点。
preceding
直到所有这个节点的父辈节点,顺序选择每个父辈节点前的所有同级节点
preceding-sibling
选取当前节点之前的所有同级节点。
self
选取当前节点。
运算符及特殊字符:
运算符/特殊字符
说明
/
此路径运算符出现在模式开头时,表示应从根节点选择。
//
从当前节点开始递归下降,此路径运算符出现在模式开头时,表示应从根节点递归下降。
.
当前上下文。
..
当前上下文节点父级。
*
通配符;选择所有元素节点与元素名无关。(不包括文本,注释,指令等节点,如果也要包含这些节点请用node()函数)
@
属性名的前缀。
@*
选择所有属性,与名称无关。
:
命名空间分隔符;将命名空间前缀与元素名或属性名分隔。
( )
括号运算符(优先级最高),强制运算优先级。
[ ]
应用筛选模式(即谓词,包括"过滤表达式"和"轴(向前/向后)")。
[ ]
下标运算符;用于在集合中编制索引。
|
两个节点集合的联合,如://messages/message/to | //messages/message/cc
-
减法。
div,
浮点除法。
and, or
逻辑运算。
mod
求余。
not()
逻辑非
=
等于
!=
不等于
特殊比较运算符
< 或者 <
<= 或者 <=
> 或者 >
>= 或者 >=
需要转义的时候必须使用转义的形式,如在XSLT中,而在XMLDOM的scripting中不需要转义。
常用表达式实例:
/
Document Root文档根.
/*
选择文档根下面的所有元素节点,即根节点(XML文档只有一个根节点)
/node()
根元素下所有的节点(包括文本节点,注释节点等)
/text()
查找文档根节点下的所有文本节点
/messages/message
messages节点下的所有message节点
/messages/message[1]
messages节点下的第一个message节点
/messages/message[1]/self::node()
第一个message节点(self轴表示自身,node()表示选择所有节点)
/messages/message[1]/node()
第一个message节点下的所有子节点
/messages/message[1]/*[last()]
第一个message节点的最后一个子节点
/messages/message[1]/[last()]
Error,谓词前必须是节点或节点集
/messages/message[1]/node()[last()]
第一个message节点的最后一个子节点
/messages/message[1]/text()
第一个message节点的所有子节点
/messages/message[1]//text()
第一个message节点下递归下降查找所有的文本节点(无限深度)
/messages/message[1] /child::node()
/messages/message[1] /node()
/messages/message[position()=1]/node()
//message[@id=1] /node()
第一个message节点下的所有子节点
//message[@id=1] //child::node()
递归所有子节点(无限深度)
//message[position()=1]/node()
选择id=1的message节点以及id=0的message节点
/messages/message[1] /parent::*
Messages节点
/messages/message[1]/body/attachments/parent::node()
/messages/message[1]/body/attachments/parent::* /messages/message[1]/body/attachments/..
attachments节点的父节点。父节点只有一个,所以node()和* 返回结果一样。
(..也表示父节点. 表示自身节点)
//message[@id=0]/ancestor::*
Ancestor轴表示所有的祖辈,父,祖父等。
向上递归
//message[@id=0]/ancestor-or-self::*
向上递归,包含自身
//message[@id=0]/ancestor::node()
对比使用*,多一个文档根元素(Document root)
/messages/message[1]/descendant::node()
//messages/message[1]//node()
递归下降查找message节点的所有节点
/messages/message[1]/sender/following::*
查找第一个message节点的sender节点后的所有同级节点,并对每一个同级节点递归向下查找。
//message[@id=1]/sender/following-sibling::*
查找id=1的message节点的sender节点的所有后续的同级节点。
//message[@id=1]/datetime/@date
查找id=1的message节点的datetime节点的date属性
//message[@id=1]/datetime[@date]
//message/datetime[attribute::date]
查找id=1的message节点的所有含有date属性的datetime节点
//message[datetime]
查找所有含有datetime节点的message节点
//message/datetime/attribute::*
//message/datetime/attribute::node()
//message/datetime/@*
返回message节点下datetime节点的所有属性节点
//message/datetime[attribute::*]
//message/datetime[attribute::node()]
//message/datetime[@*]
//message/datetime[@node()]
选择所有含有属性的datetime节点
//attribute::*
选择根节点下的所有属性节点
//message[@id=0]/body/preceding::node()
顺序选择body节点所在节点前的所有同级节点。(查找顺序为:先找到body节点的顶级节点(根节点),得到根节点标签前的所有同级节点,执行完成后继续向下一级,顺序得到该节点标签前的所有同级节点,依次类推。)
注意:查找同级节点是顺序查找,而不是递归查找。
//message[@id=0]/body/preceding-sibling::node()
顺序查找body标签前的所有同级节点。(和上例一个最大的区别是:不从最顶层开始到body节点逐层查找。我们可以理解成少了一个循环,而只查找当前节点前的同级节点)
//message[@id=1]//*[namespace::amazon]
查找id=1的所有message节点下的所有命名空间为amazon的节点。
//namespace::*
文档中的所有的命名空间节点。(包括默认命名空间xmlns:xml)
//message[@id=0]//books/*[local-name()='book']
选择books下的所有的book节点,
注意:由于book节点定义了命名空间<amazone:book>.若写成//message[@id=0]//books/book则查找不出任何节点。
//message[@id=0]//books/*[local-name()='book' and namespace-uri()='http://www.amazon.com/books/schema']
选择books下的所有的book节点,(节点名和命名空间都匹配)
//message[@id=0]//books/*[local-name()='book'][year>2006]
选择year节点值>2006的book节点
//message[@id=0]//books/*[local-name()='book'][1]/year>2006
指示第一个book节点的year节点值是否大于2006.
返回xs:boolean: true
函数及说明:
值得欣喜的是XPath函数和XSLT,XQuery等共享函数库,函数库为我们提供了功能丰富的各种函数的调用,我们也可以自定义自己的函数。这里不再对每个函数的用法逐一说明,英文好点的朋友直接去看看w3关于XPath函数的介绍吧:http://www.w3.org/TR/xquery-operators 。中文的可以参考这个网站, http://www.w3school.com.cn/xpath/xpath_functions.asp
XPath在DOM,XSLT及XQuery中的应用
DOM:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>XPath Test</title>
</head>
<body>
<script language="javascript" type="text/javascript">
var xmlDoc = new ActiveXObject("Microsoft.XMLDOM");
xmlDoc.async="false";
xmlDoc.load("messages.xml");
xmlDoc.setProperty("SelectionLanguage", "XPath");
var sPath = "/messages/message[1]//books/*[local-name()='book']";
var bookNodes = xmlDoc.selectNodes(sPath);
document.write("<ul>");
for ( var i = 0; i < bookNodes.length; i++) {
document.write("<li>" + bookNodes[i].childNodes[0].text + "</li>");
}
document.write("</ul>");
</script>
</body>
</html>
注意:
我们若使用new ActiveXObject("Microsoft.XMLDOM")则需要注意的是:因为早期的XMLDOM的SelectionLanguage属性默认是正则表达式,不是XPath语言。所以需要指定这样一条语句xmlDoc.setProperty("SelectionLanguage", "XPath"); 以支持XPath查询表达式。.
若没有指定SelectionLanguage属性值为XPath则要注意以下情况:
数组下标从0开始(我们知道在XPath查询表达式中数组下标是从1开始的)
不支持在XPath查询表达式中使用XPath函数。
分享到:
相关推荐
- **XSL-FO格式化语法**:用于XML文档的格式化输出,如PDF。 3. **XSLT的关键元素** - **模板()**:构建转换的基础,匹配XML元素并定义处理方式。 - **值提取()**:获取选定节点的值,`select`属性指定XPath...
Ajax的核心是XMLHttpRequest对象,现在更多地使用JSON作为数据交换格式。 5. **XPath(XML Path Language)**:XPath是用于在XML文档中查找信息的语言。它可以选取节点、评估表达式以及找到节点集合。在Java Web...
在`tianqiyubao(xpath).py`文件中,开发者可能使用了lxml库,它支持XPath语法,能高效地定位和提取XML或HTML文档中的元素。与BeautifulSoup类似,先获取网页源码,然后使用XPath表达式定位到包含天气预报的节点,如`...
这份个人整理的"C#教程知识手册"是一个全面的学习资源,旨在帮助初学者和有一定经验的开发者巩固和提升C#技能。 一、C#基础 C#的基础部分涵盖了语法、变量、数据类型、控制结构(如if语句、switch语句、循环)、...
XML的语法是严格定义的,它要求每个标签都必须成对出现,例如`<tag>`和`</tag>`。标签自定义,允许用户根据需求创建自己的元素类型。XML文档的开头通常包含一个声明,如`<?xml version="1.0" encoding="UTF-8"?>`,...
- **XML(可扩展标记语言)**:一种用于存储和传输数据的标准格式。XML的特点是自我描述性,易于阅读和理解,适用于跨平台数据交换。 - **XML文档**:XML文档由一系列元素组成,每个元素都包含一个起始标签和一个...
1. **解析器:** Libxml2提供了一整套的解析API,能够处理XML、HTML、XInclude、DTD、XPath、XSLT等多种格式的文档。 2. **内存管理:** 库内部管理了内存分配,允许高效地创建和操作XML树。 3. **XPath支持:** ...
通过上述知识点的整理,可以看出在SQL Server中进行XML查询涉及对XML数据类型的正确使用,以及熟练掌握XPath和XQuery的查询语法和操作方法。这些操作可以应用于大量存储XML格式数据的场景,例如内容管理系统、电子...
"xmlspy 格式化"指的是使用XMLSpy对XML文件进行美化和整理,使其更符合阅读和编辑的标准。 XML(可扩展标记语言)是一种用于存储和传输结构化数据的语言,广泛应用在Web服务、数据库交互、配置文件等领域。然而,...
本手册是作者根据网络资源综合整理而成,相较于之前的版本,新增了更多内容,覆盖了XSLT的各个方面,旨在提供一个更加全面的参考。 首先,我们来了解一下XSLT的基本概念。XSLT基于XPath,XPath是XML文档中的数据...
本话题主要关注如何在EditPlus中添加XML格式化的功能,通过集成开源工具xmlstarlet,使得XML文档的编辑和格式整理更加便捷。以下是关于EditPlus、XML和xmlstarlet的详细知识讲解。 EditPlus是一款功能强大的文本...
1. **基本语法**:了解VB.NET的基本语法规则,如变量声明、数据类型、运算符和控制结构(如if-else、for、while等)。 2. **对象与类**:掌握面向对象编程的核心概念,包括类的定义、对象的创建、属性、方法和事件的...
1. **XML格式化**:此功能可以帮助用户快速整理XML文档的结构,使其更易于阅读和理解。它能自动调整缩进、添加或删除必要的结束标签,并确保XML文档符合规范。 2. **XML验证**:插件可以验证XML文档是否符合其指定...
4. **格式化**:自动整理XML代码,使其按照标准格式排列,便于阅读。 5. **查找与替换**:支持在整个XML文档中查找和替换文本,这对于大型XML文件尤其有用。 6. **折叠/展开**:允许用户折叠或展开XML元素,以便专注...
该插件还可以验证XML文档是否符合DTD或XSD规范,检查XML语法错误,并进行XPath查询等操作。 对于JSON格式,我们依赖“JSON Viewer”插件。一旦安装完成,当打开一个JSON文件时,Notepad++会自动高亮显示JSON结构,...
通过这个项目,新手可以学习到如何结合爬虫技术获取网络数据,使用数据处理库对信息进行整理,以及利用可视化工具展示结果,从而提升自己的数据分析和数据可视化能力。同时,这个过程也涵盖了从数据获取到信息呈现的...
XML Tools的格式化功能可以帮助用户将混乱的XML文档整理得井井有条。此外,XML验证功能确保文档遵循特定的XML Schema或DTD,防止语法错误。XPath查询允许用户快速查找XML文档中的特定元素,而XSLT转换则能帮助将XML...
5. **xml库**:处理XML文档,提供了XML解析、XPath表达式处理等功能。 使用JSTL的主要优势在于: - **代码分离**:通过使用标签而不是脚本元素,JSP页面的逻辑更清晰,使得HTML和Java代码分离,有利于维护和团队...
1. 格式标准:遵循 XML 的语法规则。 2. 有效性:文档需符合 DTD 或 Schema 规则。 3. 根元素:每个 XML 文档有一个顶级元素,即根元素。 4. 元素嵌套:元素必须正确嵌套,不能交叉或遗漏结束标签。 5. 标签命名:...
XML工具插件则可能包含XML格式化、验证、XPath查询等多种功能,满足XML相关的开发需求。 总的来说,这个压缩包为那些依赖Notepad++作为日常开发工具的用户提供了便利,特别是需要处理JSON和XML数据的开发者。通过...