kettas

浏览: 158296 次
性别:
来自: 贵州

最近访客更多访客>>

zhouhuabin

zgdkik

xubukang

caplike

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Jsoup

博客分类：

JAVA

jsoup select 选择器

问题

采用CSS或类似jquery 选择器（selector）语法来处理HTML文档中的数据。

方法

利用方法：Element.select(String selector)和Elements.select(String selector)。

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Elements links = doc.select("a[href]"); // a with href
Elements pngs = doc.select("img[src$=.png]"); // img with src ending .png
Element masthead = doc.select("div.masthead").first();
// div with class=masthead
Elements resultLinks = doc.select("h3.r > a"); // direct a after h3

描述

Jsoup的元素支持类似CSS或（jquery）的选择器语法的查找匹配的元素，可实现功能强大且鲁棒性好的查询。

jsoup elements support a CSS(or jquery) like selector syntax to find matching elements, that allows very powerful and robust queries.

Select方法可作用于Document、Element或Elements，且是上下文相关的，因此可实现指定元素的过滤，或者链式选择访问。

The selectmethod is available in a Document, Element, or in Elements. It is contextual, so you can filter by selecting from a specific element, or by chaining select calls.

选择（操作）返回元素列表（Elements），并提供一组方法来提取或处理结果。

Select returns a list of Elements (as Elements), which provides a range of methods to extract and manipulate the results.

选择器概要（Selector overview）

Tagname：通过标签查找元素（例如：a）
ns|tag：通过标签在命名空间查找元素，例如：fb|name查找<fb:name>元素
#id：通过ID查找元素，例如#logo
.class：通过类型名称查找元素，例如.masthead
[attribute]：带有属性的元素，例如[href]
[^attr]：带有名称前缀的元素，例如[^data-]查找HTML5带有数据集（dataset）属性的元素
[attr=value]：带有属性值的元素，例如[width=500]
[attr^=value]，[attr$=value]，[attr*=value]：包含属性且其值以value开头、结尾或包含value的元素，例如[href*=/path/]
[attr~=regex]：属性值满足正则表达式的元素，例如img[src~=(?i)\.(png|jpe?g)]
*：所有元素，例如*

选择器组合方法

el#id:：带有ID的元素ID，例如div#logo
el.class：带类型的元素，例如. div.masthead
el[attr]：包含属性的元素，例如a[href]
任意组合：例如a[href].highlight
ancestor child：继承自某祖（父）元素的子元素，例如.body p查找“body”块下的p元素
parent > child：直接为父元素后代的子元素，例如: div.content > pf查找p元素，body > * 查找body元素的直系子元素
siblingA + siblingB：查找由同级元素A前导的同级元素，例如div.head + div
siblingA ~ siblingX：查找同级元素A前导的同级元素X例如h1 ~ p
el, el, el：多个选择器组合，查找匹配任一选择器的唯一元素，例如div.masthead, div.logo

伪选择器（Pseudo selectors）

:lt(n)：查找索引值（即DOM树中相对于其父元素的位置）小于n的同级元素，例如td:lt(3)
:gt(n)：查找查找索引值大于n的同级元素，例如div p:gt(2)
:eq(n) ：查找索引值等于n的同级元素，例如form input:eq(1)
:has(seletor)：查找匹配选择器包含元素的元素，例如div:has(p)
:not(selector)：查找不匹配选择器的元素，例如div:not(.logo)
:contains(text)：查找包含给定文本的元素，大小写铭感，例如p:contains(jsoup)
:containsOwn(text)：查找直接包含给定文本的元素
:matches(regex)：查找其文本匹配指定的正则表达式的元素，例如div:matches((?i)login)
:matchesOwn(regex)：查找其自身文本匹配指定的正则表达式的元素
注意：上述伪选择器是0-基数的，亦即第一个元素索引值为0，第二个元素index为1等

详见SelectorAPI 参考资料所列全部信息和细节。

【原文】http://jsoup.org/cookbook/extracting-data/selector-syntax

分享到：

常用JS,右键菜单的淡入淡出效果 | Java日期

2012-03-07 11:08
浏览 2761
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Jsoup

jsoup select 选择器

问题

方法

描述

选择器概要（Selector overview）

选择器组合方法

伪选择器（Pseudo selectors）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Jsoup

jsoup select 选择器

问题

方法

描述

选择器概要（Selector overview）

选择器组合方法

伪选择器（Pseudo selectors）

评论

发表评论

相关推荐

java 获得工作周数

工作日计算方法 工作日加减

Java 相对路径转绝对网络绝对路径

jdbc获得所有数据库表

JDK设置

Coolection对象排序

Java 多线程

Java Map反射为一个POJO或Bean

JDOM 封装XML操作

最近访客更多访客>>

工作日计算方法工作日加减