xpath学习
require 'open-uri'
require 'nokogiri'
doc = Nokogiri::HTML(open('http://mydomain.com').read())
aLinks = doc.xpath("//a[contains(@href, 'www.amazon.com')]")
我们将在下面的例子中使用这个 XML 文档。
<?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book> <title lang="eng">Harry Potter</title> <price>29.99</price> </book> <book> <title lang="eng">Learning XML</title> <price>39.95</price> </book> </bookstore>
选取节点
XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
下面列出了最有用的路径表达式:
nodename | 选取此节点的所有子节点。 |
/ | 从根节点选取。 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 |
. | 选取当前节点。 |
.. | 选取当前节点的父节点。 |
@ | 选取属性。 |
实例
在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:
bookstore | 选取 bookstore 元素的所有子节点。 |
/bookstore |
选取根元素 bookstore。 注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径! |
bookstore/book | 选取属于 bookstore 的子元素的所有 book 元素。 |
//book | 选取所有 book 子元素,而不管它们在文档中的位置。 |
bookstore//book | 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。 |
//@lang | 选取名为 lang 的所有属性。 |
谓语(Predicates)
谓语用来查找某个特定的节点或者包含某个指定的值的节点。
谓语被嵌在方括号中。
实例
在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:
/bookstore/book[1] | 选取属于 bookstore 子元素的第一个 book 元素。 |
/bookstore/book[last()] | 选取属于 bookstore 子元素的最后一个 book 元素。 |
/bookstore/book[last()-1] | 选取属于 bookstore 子元素的倒数第二个 book 元素。 |
/bookstore/book[position()<3] | 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。 |
//title[@lang] | 选取所有拥有名为 lang 的属性的 title 元素。 |
//title[@lang='eng'] | 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。 |
/bookstore/book[price>35.00] | 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。 |
/bookstore/book[price>35.00]/title | 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。 |
选取未知节点
XPath 通配符可用来选取未知的 XML 元素。
* | 匹配任何元素节点。 |
@* | 匹配任何属性节点。 |
node() | 匹配任何类型的节点。 |
实例
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
/bookstore/* | 选取 bookstore 元素的所有子元素。 |
//* | 选取文档中的所有元素。 |
//title[@*] | 选取所有带有属性的 title 元素。 |
选取若干路径
通过在路径表达式中使用“|”运算符,您可以选取若干个路径。
实例
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
//book/title | //book/price | 选取 book 元素的所有 title 和 price 元素。 |
//title | //price | 选取文档中的所有 title 和 price 元素。 |
/bookstore/book/title | //price | 选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。 |
相关推荐
详尽描述XPath的各种使用方法。让xml操作更简单。
python爬虫xpath学习代码源代码
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 同时被构建于 XPath 表达之上。 资料整理来源:...
XPath,全称为XML Path Language,是一种在XML文档中查找信息的语言。它被广泛应用于XML处理,如XSLT、XQuery以及XPointer等标准中。XPath通过路径表达式来选取XML文档中的元素、属性或其他类型的节点,使得我们可以...
XML(eXtensible Markup Language)是一种用于标记数据的语言,它设计的目标是传输和存储数据,而不是显示数据。XML的设计原则是易于阅读和编写,同时也...学习这些内容将有助于理解和操作XML文档,提高数据处理能力。
内容概要:学习使用爬虫技术从网络爬取小说 技术:Python,requests,xpath,lxml 能学到什么:Python爬虫基础,requests基础,xpath数据提取。 适用人群:软件开发与爬虫学习人群,具有一定的编程技术 使用场景:...
### XPATH基础与实战应用详解 #### 一、XPATH简介 XPATH是一种用于XML文档查询的语言,它能够帮助我们快速地在XML文档中查找信息。XPATH支持使用路径表达式来选取XML文档中的节点或者节点集。这些路径表达式非常...
在当今信息化时代,XML作为一种常用的数据交换格式,广泛应用于各种网络平台和数据交换中。...这些资源的整合,为用户构建了一个从理论到实践的完整XPath学习和应用环境,是值得每一个XML处理者收藏的宝贵资料。
#### XPath学习建议 在学习XPath之前,建议先熟悉HTML/XHTML和XML/XML命名空间的基础知识。这有助于更好地理解XPath如何在XML文档中导航。此外,可以参考W3School提供的完整XPath 2.0、XQuery 1.0和XSLT 2.0的内置...
在"xpath学习.doc"文档中,可能详细介绍了XPath的语法、使用方法、示例以及常见问题解决策略。通过阅读这份文档,你可以深入理解XPath的工作原理,并掌握如何利用XPath有效地从XML文档中提取信息,从而提升在处理XML...
初学者可以下载学习,对xpath的学习很有帮助。初学者可以下载学习,对xpath的学习很有帮助。
XPath 教程是一个系统的学习资源,它包括 XPath 简介、XPath 节点、XPath 语法、XPath 轴、XPath 运算符、XPath 函数、XPath 实例等内容。通过学习 XPath 教程,您将掌握 XPath 的基础知识和应用技能。 因此,XPath...
w3cschool菜鸟教程离线版目录: ...学习 HTML ...学习 XPath 学习 XQuery 学习 XLink 学习 XPointer 学习 Schema 学习 XSL-FO 学习 SVG Web Services 学习 Web Services 学习 WSDL 学习 SOAP 学习 RSS 学习 RDF
通过深入研究和理解这个C#小工具的源码,不仅可以提升对XPath的掌握,还能学习到C#中DOM操作和事件处理的相关知识,这对于Web开发或者XML处理的程序员来说是非常宝贵的技能。同时,这也是一次实践面向对象编程、用户...
XPath Helper是一款专为谷歌浏览器设计的...它不仅适合新手学习XPath,也适用于经验丰富的开发者快速调试和优化XPath表达式,大大提升了开发效率。总之,XPath Helper是每个依赖XPath进行网页处理的工作者的理想伴侣。
2. **选择器的使用**:学习如何编写XPath和Css表达式来定位页面上的特定元素,例如,通过id、class、tag name、属性等进行定位。 3. **定位策略**:掌握XPath和Css的不同定位策略,如绝对路径与相对路径,类选择器、...
XPath Helper 是一个强大的工具,主要用于协助开发者在XML或HTML文档中高效地定位和提取数据,尤其在Web爬虫开发中发挥...在学习和使用Python进行Web爬虫开发时,理解并熟练掌握XPath及其相关的库如lxml是至关重要的。
XPath,全称XML Path Language,是一种在XML文档中查找信息的语言。它被设计用来选取XML文档中的节点...通过本教程的学习,你应该能够运用XPath有效地在XML文档中导航、选取信息,并在XSL和其他XML相关技术中灵活应用。