简单说,xpath就是选择XML文件中节点的方法。
所谓节点(node),就是XML文件的最小构成单位,一共分成7种。
- element(元素节点)
- attribute(属性节点)
- text (文本节点)
- namespace (名称空间节点)
- processing-instruction (处理命令节点)
- comment (注释节点)
- root (根节点)
xpath可以用来选择这7种节点。不过,下面的笔记只涉及最常用的第一种element(元素节点),因此可以将下文中的节点和元素视为同义词。
一、xpath表达式的基本格式
xpath通过“路径表达式”(Path Expression)来选择节点。在形式上,“路径表达式”与传统的文件系统非常类似。
# 斜杠(/)作为路径内部的分割符。
# 同一个节点有绝对路径和相对路径两种写法。
# 绝对路径(absolute path)必须用“/”起首,后面紧跟根节点,比如/step/step/...。
# 相对路径(relative path)则是除了绝对路径以外的其他写法,比如 step/step,也就是不使用“/”起首。
# “.”表示当前节点。
# “..”表示当前节点的父节点
二、选择节点的基本规则
- nodename(节点名称):表示选择该节点的所有子节点
- “/”:表示选择根节点
- “//”:表示选择任意位置的某个节点
- “@”: 表示选择某个属性
三、选择节点的实例
先看一个XML实例文档。
<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book>
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book>
<book>
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book>
</bookstore>
[例1]
bookstore :选取 bookstore 元素的所有子节点。
[例2]
/bookstore :选取根节点bookstore,这是绝对路径写法。
[例3]
bookstore/book :选取所有属于 bookstore 的子元素的 book元素,这是相对路径写法。
[例4]
//book :选择所有 book 子元素,而不管它们在文档中的位置。
[例5]
bookstore//book :选择所有属于 bookstore 元素的后代的 book 元素,而不管它们位于 bookstore 之下的什么位置。
[例6]
//@lang :选取所有名为 lang 的属性。
四、xpath的谓语条件(Predicate)
所谓“谓语条件”,就是对路径表达式的附加条件。
所有的条件,都写在方括号“[]”中,表示对节点进行进一步的筛选。
[例7]
/bookstore/book[1] :表示选择bookstore的第一个book子元素。
[例8]
/bookstore/book[last()] :表示选择bookstore的最后一个book子元素。
[例9]
/bookstore/book[last()-1] :表示选择bookstore的倒数第二个book子元素。
[例10]
/bookstore/book[position()<3] :表示选择bookstore的前两个book子元素。
[例11]
//title[@lang] :表示选择所有具有lang属性的title节点。
[例12]
//title[@lang='eng'] :表示选择所有lang属性的值等于“eng”的title节点。
[例13]
/bookstore/book[price] :表示选择bookstore的book子元素,且被选中的book元素必须带有price子元素。
[例14]
/bookstore/book[price>35.00] :表示选择bookstore的book子元素,且被选中的book元素的price子元素值必须大于35。
[例15]
/bookstore/book[price>35.00]/title :表示在例14结果集中,选择title子元素。
[例16]
/bookstore/book/price[.>35.00] :表示选择值大于35的“/bookstore/book”的price子元素。
五、通配符
# “*”表示匹配任何元素节点。
# “@*”表示匹配任何属性值。
# node()表示匹配任何类型的节点。
[例17]
//* :选择文档中的所有元素节点。
[例18]
/*/* :表示选择所有第二层的元素节点。
[例19]
/bookstore/* :表示选择bookstore的所有元素子节点。
[例20]
//title[@*] :表示选择所有带有属性的title元素。
六、选择多个路径
用“|”选择多个并列的路径。
[例21]
//book/title | //book/price :表示同时选择book元素的title子元素和price子元素。
分享到:
相关推荐
XPath 路径表达式的语法规则为:路径 = 相对路径 | 绝对路径,XPath 路径表达式 = 步进表达式 | 相对路径 "/"步进表达式。 步进表达式是 XPath 路径表达式的核心部分,包括轴、节点测试和谓词三个部分。轴表示步进...
XPath 路径表达式由步进表达式、相对路径和绝对路径组成。步进表达式是 XPath 路径表达式的基本组成部分,由轴、节点测试和谓词组成。轴表示步进表达式选择的节点和当前上下文节点间的树状关系,节点测试指定步进...
XPath路径表达式选取XML节点.doc 为XML中常用属性说明 XmlHelper.CS 一个类文件 包括对XML 文件的常规操作 xml字符串转换为dataTable DataTable 转换为xml 找出所有与pPath匹配路径的节点创建dataTable,并设置...
### 使用路径表达式在 XML 文档中进行导航 (XPath 简介) #### 一、XPath 的定义 XPath 是一种用于查找 XML 文档中的信息的语言。它使用路径表达式来选择 XML 文档中的节点或集合节点。XPath 被设计为 XSLT、...
它允许我们通过路径表达式来选取节点,如元素、属性、文本等。在网页抓取过程中,XPath常用来定位网页上的特定元素,从而提取所需数据。 标题"xpath_helper-master.rar"表明这是一个关于XPath Helper的项目或资源包...
本篇文章将深入探讨如何使用Dom4j,一个流行的Java库,结合XPath来解析XML文件中的路径表达式,同时阐述相对路径和绝对路径的匹配原则。 首先,我们要了解Dom4j库。Dom4j是一个灵活且高效的处理XML的Java库,它提供...
`py_dom_xpath_six` 是一个Python库,主要用于处理DOM(Document Object Model)和XPath表达式。XPath是一种在XML文档中查找信息的语言,而DOM则是XML和HTML文档的结构表示。这个库将XPath查询功能与Python的DOM接口...
XPath库的核心在于XPath表达式,这是一种路径语言,用于在XML文档中查找信息。XPath使用路径表达式来选取节点,如元素、属性、文本等。`xpath_string`库可能提供了如下功能: 1. **XPath表达式解析**:将字符串形式...
官方离线安装包,亲测可用
xpath_checker-0.4.4-fx.xpi
在本讲义中,我们将学习XPATH语言的基本概念、安装方法、路径表达式的使用、函数的使用等方面的知识。 XPATH简介 ---------- XPATH,全称XML Path Language,即XML路径语言,是一种在XML文档中查找信息的语言。...
xpath_checker-0.4.3-fx.xpi
XPath使用路径表达式来选取XML文档中的节点,这些路径表达式类似于文件系统中的路径。例如,“/root/element”表示从根节点开始选取名为“element”的子元素。XPath还支持各种轴,如祖先轴(ancestors)、后代轴...
离线安装包,亲测可用
最后通过百度贴吧图片下载这一实战应用,分步骤详细展示了利用 Xpath 进行图片爬取及保存的完整流程,帮助读者理解并掌握 Xpath 在实际爬虫中的运用
3. **定位策略**:掌握XPath和Css的不同定位策略,如绝对路径与相对路径,类选择器、ID选择器、属性选择器等。 4. **复杂定位**:了解如何处理嵌套元素、动态生成的元素以及使用通配符选择多个元素。 5. **优化与...
XPath使用路径表达式来选取节点,路径表达式的结构类似于文件系统路径。例如,"/bookstore/book"会选取XML文档中所有属于"bookstore"元素的"book"子元素。 XPath表达式的类型主要有以下几种: 1. **绝对路径**:从...
JSP标准标签的时候,需要在web项目中使用jstl-1.2、...-----jaxen-1.1-beta-6.jar用于解析XPath表达式-------dom4j-1.6.1.jardom4j用于操作XML文件----commons-logging.jar,commons-beanutils-1.8.0.jar的依赖jar包
2. **路径表达式**:XPath通过路径表达式来选取节点。路径表达式可以是绝对路径(从根节点开始)或相对路径(从当前节点开始)。例如,`/html/body/p`表示从根节点选取HTML文档中的所有段落元素。 3. **轴(Axis)*...
这款“XPath表达式测试小工具”显然是为了帮助开发者和XML爱好者更方便地测试和验证XPath表达式的正确性。 在XML文档中,XPath表达式可以用来选取节点集、单个节点、文本值或者布尔值。其基本语法包括路径表达式、...