XPath数据类型
XPath可分为四种数据类型:
节点集(node-set)
节点集是通过路径匹配返回的符合条件的一组节点的集合。其它类型的数据不能转换为节点集。
布尔值(boolean)
由函数或布尔表达式返回的条件匹配值,与一般语言中的布尔值相同,有true和 false两个值。布尔值可以和数值类型、字符串类型相互转换。
字符串(string)
字符串即包含一系列字符的集合,XPath中提供了一系列的字符串函数。字符串可与数值类型、布尔值类型的数据相互转换。
数值(number)
在XPath中数值为浮点数,可以是双精度64位浮点数。另外包括一些数值的特殊描述,如非数值NaN(Not-a-Number)、正无穷大 infinity、负无穷大-infinity、正负0等等。number的整数值可以通过函数取得,另外,数值也可以和布尔类型、字符串类型相互转换。
其中后三种数据类型与其它编程语言中相应的数据类型差不多,只是第一种数据类型是XML文档树的特有产物。
XPath节点类型
由于XPath包含的是对文档结构树的一系列操作,因此搞清楚XPath节点类型也是很必要的。在XML文档的逻辑结构,一个 XML文件可以包含元素、CDATA、注释、处理指令等逻辑要素,其中元素还可以包含属性,并可以利用属性来定义命名空间。相应地,在XPath中,将节点划分为七种节点类型:
根节点(Root Node)
根节点是一棵树的最上层,根节点是唯一的。树上其它所有元素节点都是它的子节点或后代节点。对根节点的处理机制与其它节点相同。在XSLT中对树的匹配总是先从根节点开始。
元素节点(Element Nodes)
元素节点对应于文档中的每一个元素,一个元素节点的子节点可以是元素节点、注释节点、处理指令节点和文本节点。可以为元素节点定义一个唯一的标识id。元素节点都可以有扩展名,它是由两部分组成的:一部分是命名空间URI,另一部分是本地的命名。
文本节点(Text Nodes)
文本节点包含了一组字符数据,即CDATA中包含的字符。任何一个文本节点都不会有紧邻的兄弟文本节点,而且文本节点没有扩展名。
属性节点(Attribute Nodes)
每一个元素节点有一个相关联的属性节点集合,元素是每个属性节点的父节点,但属性节点却不是其父元素的子节点。这就是说,通过查找元素的子节点可以匹配出元素的属性节点,但反过来不成立,只是单向的。再有,元素的属性节点没有共享性,也就是说不同的元素节点不共有同一个属性节点。
对缺省属性的处理等同于定义了的属性。如果一个属性是在DTD声明的,但声明为 #IMPLIED,而该属性没有在元素中定义,则该元素的属性节点集中不包含该属性。
此外,与属性相对应的属性节点都没有命名空间的声明。命名空间属性对应着另一种类型的节点。
命名空间节点(Namespace Nodes)
每一个元素节点都有一个相关的命名空间节点集。在XML文档中,命名空间是通过保留属性声明的,因此,在XPath中,该类节点与属性节点极为相似,它们与父元素之间的关系是单向的,并且不具有共享性。
处理指令节点(Processing Instruction Nodes)
处理指令节点对应于XML文档中的每一条处理指令。它也有扩展名,扩展名的本地命名指向处理对象,而命名空间部分为空。
注释节点(Comment Nodes)
注释节点对应于文档中的注释。
一个XML文档树
我们来构造一棵XML文档树,作为后面举例的依托:
<A id="a1">
<B id="b1">
<C id="c1">
<B name="b"/>
<D id="d1"/>
<E id="e1"/>
<E id="e2"/>
</C>
</B>
<B id="b2"/>
<C id="c2">
<B/>
<D id="d2"/>
<F/>
</C>
<E/>
</A>
以下将要介绍一些XPath中节点匹配的基本方法。
路径匹配
路径匹配与文件路径的表示相仿,比较好理解。有以下几个符号:
(1)用“/”指示节点路径
如“/A/C/D” 表示节点"A"的子节点"C"的子节点"D",即id值为d2的D节点, “/”表示根节点。
(2)用“//” 表示所有路径以"//"后指定的子路径结尾的元素
如“//E” 表示所有E元素,结果是所有三个E元素,如“//C/E”表示所有父节点为C的E元素,结果是id值为e1和e2的两个E元素 。
(3)用“*” 表示路径的通配符
如“/A/B/C/*”表示 A元素→B元素→C元素下的所有子元素,即name值为b的B元素、 id值为d1的D元素和id值为e1和e2的两个E元素
“/*/*/D”表示上面有两级节点的D元素,匹配结果是id值为d2的D元素 ,如“//*”表示所有的元素。
位置匹配
对于每一个元素,它的各个子元素是有序的。
如:/A/B/C[1]表示A元素→B元素→C元素的第一个子元素,得到name值为b的B元素
/A/B/C[last()]表示A元素→B元素→C元素的最后一个子元素,得到id值为e2的E元素
/A/B/C[position()>1]表示A元素→B元素→C元素之下的位置号大于1的元素,得到id值为d1的D元素和两个具有id值的E元素
属性及属性值
在XPath中可以利用属性及属性值来匹配元素,要注意的是,元素的属性名前要有"@"前缀。例如:
//B[@id]表示所有具有属性id的B元素,结果为id值为b1和b2的两个B元素
//B[@*]表示所有具有属性的B元素,结果为两个具有id属性的B元素和一个具有name属性B元素
//B[not(@*)]表示所有不具有属性的B元素,结果为A元素→C元素下的B元素
//B[@id="b1"] id值为b1的B元素,结果为A元素下的B元素
亲属关系匹配
XML文档可归结为树型结构,因此任何一个节点都不是孤立的。通常我们把节点之间的归属关系归结为一种亲属关系,如父亲、孩子、祖先、后代、兄弟等等。在对元素进行匹配时,同样可以用到这些概念。例如:
//E/parent::* 表示所有E节点的父节点元素,结果为id值为a1的A元素和id值为c1的C元素
//F/ancestor::* 表示所有F元素的祖先节点元素,结果为id值为a1的A元素和id值为c2的C元素
/A/child::* 表示A的子元素,结果为id值为b1、b2的B元素,id值为c2的C元素,以及没有任何属性的E元素
/A/descendant::* 表示A的所有后代元素,结果为除A元素以外的所有其它元素
//F/self::* 表示所有F的自身元素,结果为F元素本身
//F/ancestor-or-self::* 表示所有F元素及它的祖先节点元素,结果为F元素、F元素的父节点C元素和A元素
/A/C/descendant-or-self::* 表示所有A元素→C元素及它们的后代元素,结果为id值为c2的C元素、该元素的子元素B、D、F元素
/A/C/following-sibling::* 表示A元素→C元素的紧邻的后序所有兄弟节点元素,结果为没有任何属性的E元素
/A/C/preceding-sibling::* 表示A元素→C元素的紧邻的前面所有兄弟节点元素,结果为id值为b1和b2的两个B元素
/A/B/C/following::* 表示A元素→B元素→C元素的后序的所有元素,结果为id 为b2的B元素、无属性的C元素、无属性的B元素、id为d2的D元素、无属性的F元素、无属性的E元素。
/A/C/preceding::* 表示A元素→C元素的前面的所有元素,结果为id为b2的B元素、id为e2的E元素、id为e1的E元素、id为d1的D元素、name为 b的B元素、id为c1的C元素、id为b1的B元素
条件匹配
条件匹配就是利用一些函数的运算结果的布尔值来匹配符合条件的节点。常用于条件匹配的函数有四大类:节点函数、字符串函数、数值函数、布尔函数。例如last()、position()等等,这里我们就不再赘述。
以上这些匹配方法中,用得最多的还要数路径匹配。在上一章样式表的例子中,无论是在语句<xsl:template match="学生花名册">中,还是在语句 <xsl:value-of select="名字"/>中,都是依靠给出相对于当前路径的子路径来定位节点的。
这里面是xpath的一些详细介绍和用法:
http://msdn.microsoft.com/en-us/library/ms256115(VS.85).aspx
以上属在下整理以方便需要的朋友学习,有错误的地方请指出,谢谢!
分享到:
相关推荐
了解XPath节点类型对于正确使用XPath表达式至关重要。XPath定义了七种节点类型,每种类型都有其特定的用途和特性: 1. **根节点(RootNode)**:根节点是XML文档树的起点,它是唯一的。所有其他节点都是其子节点或...
5. **执行XPath查询**:使用`evaluate`方法执行XPath表达式,并将其结果转换为适当的数据类型。例如,如果查询返回的是节点集,可以使用`NodeList`。 ```java String expression = "/root/element"; NodeList nodes...
1. **节点类型**:XPath中的节点包括元素(element)、属性(attribute)、文本(text)、命名空间(namespace)、处理指令(processing-instruction)和注释(comment)。这些节点类型构成了XML文档的基本结构。 2...
2. XPath节点类型 在XPath中,存在七种基本的节点类型: 1. 元素(Element):如`<book>`、`<title>`等,构成XML文档的结构。 2. 属性(Attribute):如`lang="en"`,附加在元素上提供额外信息。 3. 文本(Text):...
XPath的基本概念包括节点、轴、节点测试和谓语。节点是XML文档的构成元素,如元素节点、属性节点、文本节点等。轴定义了从当前节点到其他节点的关系,如子节点轴(child::)、父节点轴(parent::)、祖先节点轴...
在Chrome浏览器中安装这个扩展后,可以在网页上直接输入XPath表达式,实时看到匹配的元素,这对于调试和优化爬虫代码非常有帮助。 总的来说,XPath和lxml是Python爬虫开发中的关键工具,它们的结合使用能够有效地...
学习XPath时,初学者应该从理解基本的路径表达式和节点类型开始,然后逐步掌握轴的概念、函数使用以及条件表达式。通过实践编写和运行XPath表达式,可以快速提升对XML文档结构的理解和处理能力。对于初学者来说,...
- **节点类型**:XPath处理的节点包括元素(Element)、属性(Attribute)、文本(Text)、命名空间(Namespace)、处理指令(Processing Instruction)、注释(Comment)和文档(Document)节点。 - **路径表达式...
在使用XPath Helper进行网页数据提取时,你需要了解一些基本的XPath概念,例如节点类型(元素、属性、文本等)、轴(如祖先、后代、兄弟等)、路径表达式以及函数。通过熟练运用这些概念,你可以编写出高效的XPath...
XPath 在网页自动化测试(如 Selenium)、数据抓取(如 Scrapy)以及解析 XML 数据等领域有广泛应用。熟练掌握 XPath 能帮助我们更高效地定位和操作网页元素,提升开发和测试效率。在实际工作中,理解并运用XPath的...
XPath在Web开发中起着至关重要的作用,尤其是在进行自动化测试、数据提取和网页抓取时。XPath Helper通过提供直观的用户界面,使得用户可以直接在浏览器中输入XPath查询,实时查看查询结果,极大地简化了这个过程。 ...
在这个“XPath官方文档教程”中,我们将深入学习XPath的基本概念、语法以及如何在实际应用中使用它。 一、XPath概述 XPath 1.0版本由W3C在2000年发布,后来又推出了XPath 2.0和3.1版本,增加了更多功能和表达能力。...
下面我们将深入探讨XPath Helper的主要功能和使用方法,以及XPath语言的基础知识。 首先,XPath Helper的主要功能包括: 1. 实时评估:在浏览器中选择元素后,用户可以直接在XPath Helper输入XPath表达式,插件会...
6. **节点类型(Node Types)**:XPath识别七种基本节点类型:元素、属性、文本、命名空间、处理指令、注释和文档节点。选择器可以针对这些节点类型进行操作。 7. **轴(Axes)**:轴是节点之间的关系,如祖先、子...
XPath的版本有1.0和2.0,其中2.0引入了更多功能,如正则表达式支持、函数库扩展以及更好的类型系统。在实际应用中,XPath常被用于XML数据的查询、提取和处理,尤其在XSLT(XML样式表语言转换)和XQuery等技术中,...
XPath 表达式是选择 XML 文件中节点的方法,节点是 XML 文件的最小构成单位,分为 7 种:element(元素节点)、attribute(属性节点)、text (文本节点)、namespace (名称空间节点)、processing-instruction ...
2. **节点类型**:XPath 支持多种节点类型,包括元素、属性、文本、命名空间、注释、处理指令等。 3. **轴**:轴是用来定位节点的一种方式,常见的轴有: - `child`:选择当前节点的子节点。 - `parent`:选择当前...
XPath支持的节点类型包括元素(element)、属性(attribute)、文本(text)、命名空间(namespace)、注释(comment)和处理指令(processing-instruction)。例如,选择所有段落元素可以使用"//p",而选择特定属性...