XPath简介
XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。目前有XPath1.0和 XPath2.0两个版本。其中Xpath1.0是1999年成为W3C标准,而XPath2.0标准的确立是在2007年。W3C关于XPath的英文 详细文档请见:http://www.w3.org/TR/xpath20/ 。
XPath是一种表达式语言,它的返回值可能是节点,节点集合,原子值,以及节点和原子值的混合等。XPath2.0是XPath1.0的超集。它 是对XPath1.0的扩展,它可以支持更加丰富的数据类型,并且XPath2.0保持了对XPath1.0的相对很好的向后兼容性,几乎所有的 XPath2.0的返回结果都可以和XPath1.0保持一样。另外XPath2.0也是XSLT2.0和XQuery1.0的用于查询定位节点的主表达 式语言。XQuery1.0是对XPath2.0的扩展。关于在XSLT和XQuery中使用XPath表达式定位节点的知识在后面的实例中会有所介绍。
在学习XPath之前你应该对XML的节点,元素,属性,原子值(文本),处理指令,注释,根节点(文档节点),命名空间以及对节点间的关系如:父 (Parent),子(Children),兄弟(Sibling),先辈(Ancestor),后代(Descendant)等概念有所了解。这里不在 说明。
XPath路径表达式
在本小节下面的内容中你将可以学习到:
- 路径表达式语法
- 相对/绝对路径
- 表达式上下文
- 谓词(筛选表达式)及轴的概念
- 运算符及特殊字符
- 常用表达式实例
- 函数及说明
这里给出一个实例Xml文件。下面的说明及实例都是基于该XML文件。
路径表达式语法:
- 路径 = 相对路径 | 绝对路径
- XPath路径表达式 = 步进表达式 | 相对路径 "/"步进表达式。
- 步进表达式=轴 节点测试 谓词
说明:
- 其中轴表示步进表达式选择的节点和当前上下文节点间的树状关系(层次关系),节点测试指定步进表达式选择的节点名称扩展名,谓词即相当于过滤表达式以进一步过滤细化节点集。
- 谓词可以是0个或多个。多个多个谓词用逻辑操作符and, or连接。取逻辑非用not()函数。
请看一个典型的XPath查询表达式:/messages/message//child::node()[@id=0],其中 /messages/message是路径(绝对路径以"/"开始),child::是轴表示在子节点下选择,node()是节点测试表示选择所有的节 点。[@id=0]是谓词,表示选择所有有属性id并且值为0的节点。
相对路径与绝对路径:
如果"/"处在XPath表达式开头则表示文档根元素,(表达式中间作为分隔符用以分割每一个步进表达式)如:/messages /message/subject是一种绝对路径表示法,它表明是从文档根开始查找节点。假设当前节点是在第一个message节点【/messages /message[1]】,则路径表达式subject(路径前没有"/")这种表示法称为相对路径,表明从当前节点开始查找。具体请见下面所述的"表达 式上下文"。
表达式上下文(Context):
上下文其实表示一种环境。以明确当前XPath路径表达式处在什么样的环境下执行。例如同样一个路径表达式处在对根节点操作的环境和处在对某一个特定子节点操作的环境下执行所获得的结果可能是完全不一样的。也就是说XPath路径表达式计算结果取决于它所处的上下文。
XPath上下文基本有以下几种:
-
当前节点(./):
如./sender表示选择当前节点下的sender节点集合(等同于下面所讲的"特定元素",如:sender) -
父节点(../):
如../sender表示选择当前节点的父节点下的sender节点集合 -
根元素(/):
如/messages表示选择从文档根节点下的messages节点集合. -
根节点(/*):
这里的*是代表所有节点,但是根元素只有一个,所以这里表示根节点。/*的返回结果和/messages返回的结果一样都是messages节点。 -
递归下降(//):
如当前上下文是messages节点。则//sender将返回以下结果:
/messages//sender :
<sender>gkt1980@gmail.com</sender>
<sender>111@gmail.com</sender>
<sender>333@gmail.com</sender>
/messages/message[1]//sender:
<sender>gkt1980@gmail.com</sender>
<sender>111@gmail.com</sender>
我们可以看出XPath表达式返回的结果是:从当前节点开始递归步进搜索当前节点下的所有子节点找到满足条件的节点集。 -
特定元素
如sender:表示选择当前节点下的sender节点集合,等同于(./sender)
注意:在执行XPath时一定要注意上下文。即当前是在哪个节点下执行XPath表达式。这在XMLDOM中很重要。如:在XMLDOM中的 selectNodes,selectSingleNode方法的参数都是一个XPath表达式,此时这个XPath表达式的执行上下文就是调用这个方法 的节点及它所在的环境。更多信息请参见:http://www.w3.org/TR/xpath20/
谓词(筛选表达式)及轴的概念:
XPath的谓词即筛选表达式,类似于SQL的where子句.
轴名称
|
结果
|
ancestor
|
选取当前节点的所有先辈(父、祖父等)
|
ancestor-or-self
|
选取当前节点的所有先辈(父、祖父等)以及当前节点本身
|
attribute
|
选取当前节点的所有属性
|
child
|
选取当前节点的所有子元素。
|
descendant
|
选取当前节点的所有后代元素(子、孙等)。
|
descendant-or-self
|
选取当前节点的所有后代元素(子、孙等)以及当前节点本身。
|
following
|
选取文档中当前节点的结束标签之后的所有节点。
|
namespace
|
选取当前节点的所有命名空间节点
|
parent
|
选取当前节点的父节点。
|
preceding
|
直到所有这个节点的父辈节点,顺序选择每个父辈节点前的所有同级节点
|
preceding-sibling
|
选取当前节点之前的所有同级节点。
|
self
|
选取当前节点。
|
运算符及特殊字符:
运算符/特殊字符
|
说明
|
/
|
此路径运算符出现在模式开头时,表示应从根节点选择。
|
//
|
从当前节点开始递归下降,此路径运算符出现在模式开头时,表示应从根节点递归下降。
|
.
|
当前上下文。
|
..
|
当前上下文节点父级。
|
*
|
通配符;选择所有元素节点与元素名无关。(不包括文本,注释,指令等节点,如果也要包含这些节点请用node()函数)
|
@
|
属性名的前缀。
|
@*
|
选择所有属性,与名称无关。
|
:
|
命名空间分隔符;将命名空间前缀与元素名或属性名分隔。
|
( )
|
括号运算符(优先级最高),强制运算优先级。
|
[ ]
|
应用筛选模式(即谓词,包括"过滤表达式"和"轴(向前/向后)")。
|
[ ]
|
下标运算符;用于在集合中编制索引。
|
|
|
两个节点集合的联合,如://messages/message/to | //messages/message/cc
|
-
|
减法。
|
div,
|
浮点除法。
|
and, or
|
逻辑运算。
|
mod
|
求余。
|
not()
|
逻辑非
|
=
|
等于
|
!=
|
不等于
|
特殊比较运算符
|
< 或者 <
<= 或者 <=
> 或者 >
>= 或者 >=
需要转义的时候必须使用转义的形式,如在XSLT中,而在XMLDOM的scripting中不需要转义。
|
常用表达式实例:
/
|
Document Root文档根.
|
/*
|
选择文档根下面的所有元素节点,即根节点(XML文档只有一个根节点)
|
/node()
|
根元素下所有的节点(包括文本节点,注释节点等)
|
/text()
|
查找文档根节点下的所有文本节点
|
/messages/message
|
messages节点下的所有message节点
|
/messages/message[1]
|
messages节点下的第一个message节点
|
/messages/message[1]/self::node()
|
第一个message节点(self轴表示自身,node()表示选择所有节点)
|
/messages/message[1]/node()
|
第一个message节点下的所有子节点
|
/messages/message[1]/*[last()]
|
第一个message节点的最后一个子节点
|
/messages/message[1]/[last()]
|
Error,谓词前必须是节点或节点集
|
/messages/message[1]/node()[last()]
|
第一个message节点的最后一个子节点
|
/messages/message[1]/text()
|
第一个message节点的所有子节点
|
/messages/message[1]//text()
|
第一个message节点下递归下降查找所有的文本节点(无限深度)
|
/messages/message[1] /child::node()
/messages/message[1] /node()
/messages/message[position()=1]/node()
//message[@id=1] /node()
|
第一个message节点下的所有子节点
|
//message[@id=1] //child::node()
|
递归所有子节点(无限深度)
|
//message[position()=1]/node()
|
选择id=1的message节点以及id=0的message节点
|
/messages/message[1] /parent::*
|
Messages节点
|
/messages/message[1]/body/attachments/parent::node()
/messages/message[1]/body/attachments/parent::* /messages/message[1]/body/attachments/..
|
attachments节点的父节点。父节点只有一个,所以node()和* 返回结果一样。
(..也表示父节点. 表示自身节点)
|
//message[@id=0]/ancestor::*
|
Ancestor轴表示所有的祖辈,父,祖父等。
向上递归
|
//message[@id=0]/ancestor-or-self::*
|
向上递归,包含自身
|
//message[@id=0]/ancestor::node()
|
对比使用*,多一个文档根元素(Document root)
|
/messages/message[1]/descendant::node()
//messages/message[1]//node()
|
递归下降查找message节点的所有节点
|
/messages/message[1]/sender/following::*
|
查找第一个message节点的sender节点后的所有同级节点,并对每一个同级节点递归向下查找。
|
//message[@id=1]/sender/following-sibling::*
|
查找id=1的message节点的sender节点的所有后续的同级节点。
|
//message[@id=1]/datetime/@date
|
查找id=1的message节点的datetime节点的date属性
|
//message[@id=1]/datetime[@date]
//message/datetime[attribute::date]
|
查找id=1的message节点的所有含有date属性的datetime节点
|
//message[datetime]
|
查找所有含有datetime节点的message节点
|
//message/datetime/attribute::*
//message/datetime/attribute::node()
//message/datetime/@*
|
返回message节点下datetime节点的所有属性节点
|
//message/datetime[attribute::*]
//message/datetime[attribute::node()]
//message/datetime[@*]
//message/datetime[@node()]
|
选择所有含有属性的datetime节点
|
//attribute::*
|
选择根节点下的所有属性节点
|
//message[@id=0]/body/preceding::node()
|
顺序选择body节点所在节点前的所有同级节点。(查找顺序为:先找到body节点的顶级节点(根节点),得到根节点标签前的所有同级节点,执行完成后继续向下一级,顺序得到该节点标签前的所有同级节点,依次类推。)
注意:查找同级节点是顺序查找,而不是递归查找。
|
//message[@id=0]/body/preceding-sibling::node()
|
顺序查找body标签前的所有同级节点。(和上例一个最大的区别是:不从最顶层开始到body节点逐层查找。我们可以理解成少了一个循环,而只查找当前节点前的同级节点)
|
//message[@id=1]//*[namespace::amazon]
|
查找id=1的所有message节点下的所有命名空间为amazon的节点。
|
//namespace::*
|
文档中的所有的命名空间节点。(包括默认命名空间xmlns:xml)
|
//message[@id=0]//books/*[local-name()='book']
|
选择books下的所有的book节点,
注意:由于book节点定义了命名空间<amazone:book>.若写成//message[@id=0]//books/book则查找不出任何节点。
|
//message[@id=0]//books/*[local-name()='book' and namespace-uri()='http://www.amazon.com/books/schema']
|
选择books下的所有的book节点,(节点名和命名空间都匹配)
|
//message[@id=0]//books/*[local-name()='book'][year>2006]
|
选择year节点值>2006的book节点
|
//message[@id=0]//books/*[local-name()='book'][1]/year>2006
|
指示第一个book节点的year节点值是否大于2006.
返回xs:boolean: true
|
函数及说明:
值得欣喜的是XPath函数和XSLT,XQuery等共享函数库,函数库为我们提供了功能丰富的各种函数的调用,我们也可以自定义自己的函数。这里不再对每个函数的用法逐一说明,英文好点的朋友直接去看看w3关于XPath函数的介绍吧:http://www.w3.org/TR/xquery-operators 。中文的可以参考这个网站, http://www.w3school.com.cn/xpath/xpath_functions.asp
XPath在DOM,XSLT及XQuery中的应用
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>XPath Test</title> </head> <body> <script language="javascript" type="text/javascript"> var xmlDoc = new ActiveXObject("Microsoft.XMLDOM"); xmlDoc.async="false"; xmlDoc.load("messages.xml"); xmlDoc.setProperty("SelectionLanguage", "XPath"); var sPath = "/messages/message[1]//books/*[local-name()='book']"; var bookNodes = xmlDoc.selectNodes(sPath); document.write("<ul>"); for ( var i = 0; i < bookNodes.length; i++) { document.write("<li>" + bookNodes[i].childNodes[0].text + "</li>"); } document.write("</ul>"); </script> </body> </html>
注意:
我们若使用new ActiveXObject("Microsoft.XMLDOM")则需要注意的是:因为早期的XMLDOM的SelectionLanguage属性 默认是正则表达式,不是XPath语言。所以需要指定这样一条语句xmlDoc.setProperty("SelectionLanguage", "XPath"); 以支持XPath查询表达式。.
若没有指定SelectionLanguage属性值为XPath则要注意以下情况:
-
数组下标从0开始(我们知道在XPath查询表达式中数组下标是从1开始的)
-
不支持在XPath查询表达式中使用XPath函数。
xquery version "1.0"; <ul> { let $i := 0 for $x in doc("C:\Users\Administrator\Desktop\messages.xml")//message[@id=0]//books/*[local-name()='book'] where $x/year>2006 order by $x/year descending return <li>{ data($x/name) } </li> } </ul>
相关推荐
XPath 详解总结 XPath 是 W3C 的一个标准,主要目的是为了在 XML1.0 或 XML1.1 文档节点树中定位节点所设计。XPath 是一种表达式语言,返回值可能是节点、节点集合、原子值、节点和原子值的混合等。 XPath 路径...
XPath 详解总结 XPath 是 W3C 的一个标准,它的主要目的是为了在 XML 文档节点树中定位节点。XPath 有两种版本:XPath1.0 和 XPath2.0。XPath2.0 是 XPath1.0 的超集,支持更加丰富的数据类型,并且保持了对 XPath...
### XPath详解 #### 一、XPath简介 XPath是一种在XML文档中查找信息的语言。它用于在XML树结构中导航,并且能够返回所匹配节点或节点集。XPath的强大之处在于其简洁性和灵活性,允许用户轻松地从复杂的XML文档中...
### XML XPath路径详解 #### 一、XPath简介 XPath(XML Path Language)是一种在XML文档中查找信息的语言。它提供了一种快速有效的方式来选择节点或节点集,这使得处理XML数据变得简单直观。 #### 二、XPath路径...
总结,XPath提供了多种方式来提取XML或HTML文档中子标签下的所有文本。选择哪种方法取决于你的具体需求,如是否需要保留子元素间的空白,或者是否需要合并所有文本。熟练掌握这些方法,对于高效地进行Web抓取和数据...
### XPath语法与函数详解 #### XPath简介 XPath是一种在XML文档中查找信息的语言,它用于在复杂的XML结构中定位特定的元素或属性。XPath对于理解并操作XML文档至关重要,尤其在XSLT转换、XQuery查询及XPointer定位...
### XPath 教程知识点详解 #### 一、XPath 概述 XPath 是一种在 XML 文档中查找信息的语言。XML(可扩展标记语言)是一种用于标记数据、定义数据类型以及编码文档的标记语言。XPath 提供了一种在 XML 文档中通过...
总结,这个爬虫demo是学习和实践Xpath技术的良好起点,它揭示了如何使用Python和Xpath来提取网页数据,这对于数据分析、信息监控或者构建定制化的信息获取系统都是非常有价值的技能。同时,理解并熟练掌握Xpath可以...
### XPath 使用方法详解 #### 一、XPath简介 XPath 是一门专门用于在 XML 文档中查找信息的语言。它能够帮助用户有效地浏览 XML 文档结构,并从中抽取特定数据。XPath 的重要性不仅体现在其本身的功能上,还在于它...
### DOM4J与XPath详解 #### 一、DOM4J简介 **DOM4J**是一款由dom4j.org开发的开源XML解析库,专为Java平台设计,它不仅支持DOM和SAX这两种标准的XML解析方式,还兼容JAXP(Java API for XML Processing)。DOM4J以...
### Python与XPath结合应用知识点详解 #### 一、XPath简介 XPath是一种在XML文档中查找信息的语言。尽管这里讨论的是HTML文档(通常由浏览器解析),但XPath同样适用,并且经常被用于网页抓取等场景中。XPath...
#### 三、XPath表达式详解 ##### 3.1 基础 - **运算符**:包括算术、比较、逻辑等运算符。 - **示例**:`+`、`-`、`*`、`div`、`mod`、`=`、`!=`、`>`、`>=`、`and`、`or`。 ##### 3.2 函数调用 - **定义**:...
**PUGIXML详解** PUGIXML是一个高效且轻量级的XML解析库,专为C++设计,它提供了一种快速、简洁的方式来处理XML文档。该库的核心特性是支持XPath(XML路径语言),这使得开发者能够方便地对XML文档进行复杂的查询和...
总结来说,UIAutomatorViewer是测试工程师的强大辅助工具,帮助理解UI结构并获取元素信息,而XPath则提供了灵活的元素定位方式,尤其在复杂场景下能发挥重要作用。结合使用这两个工具,可以更高效地进行Appium自动化...
### Python3中XPath与Requests的应用详解 #### 一、引言 在Web开发与数据抓取领域,Python凭借其简洁的语法与强大的第三方库支持,成为处理这些任务时的首选语言之一。其中,`requests` 和 `lxml`(尤其是其中的...
XPATH 详解 XPATH 是什么? XPATH 是一门在 XML 文档中查找信息的语言,用于在 XML 文档中对元素和属性进行遍历。它是基于 XML 文档的树结构,并提供了浏览树的能力,通过多样的标准来选择节点。XPATH 语言支持在...
#### 四、Xpath语法详解 1. **节点选取** - **全局搜索**:使用 `//` 进行全局搜索,如 `//div` 表示查找所有 `<div>` 标签。 - **局部搜索**:使用 `/` 表示从特定节点开始的局部搜索,如 `//head/meta` 表示从 `...
**总结** XPath是爬虫开发者的重要工具,结合`lxml`库,可以有效地解析和提取HTML和XML文档中的信息。学习XPath语法和使用`lxml`可以帮助开发者更高效地编写爬虫程序,从而提升数据抓取的效率和质量。在Python中,`...
总结来说,DOM4J结合XPath的使用,使得在Java中处理XML文档变得高效且灵活。通过XPath表达式,我们可以快速地定位到XML文档中的特定节点,执行各种查询和操作,如获取节点值、更新节点、删除节点等。在实际项目中,...