jsoup 解析 html 文档 (Document) 时,节点对应的类是 Element 。
我们可以调用 Element 的 attr 方法来修改属性值,同时可对属性进行增删改操作,删除属性的方法是 removeAttr。
同时对节点本身也可进行删除操作 (remove),或者删除节点下的所有子节点 (removeChild)
另外也可以对节点中的文本进行操作,例如:
1. 文本操作
Element div = doc.select("div").first(); // <div></div>
div.text("five > four"); // <div>five > four</div>
div.prepend("First ");
div.append(" Last");
// now: <div>First five > four Last</div>
2. html 操作
Element div = doc.select("div").first(); // <div></div>
div.html("<p>lorem ipsum</p>"); // <div><p>lorem ipsum</p></div>
div.prepend("<p>First</p>");
div.append("<p>Last</p>");
// now: <div><p>First</p><p>lorem ipsum</p><p>Last</p></div>
Element span = doc.select("span").first(); // <span>One</span>
span.wrap("<li><a href='http://example.com/'></a></li>");
// now: <li><a href="http://example.com"><span>One</span></a></li>
资源来自:
http://www.oschina.net/bbs/thread/10228
分享到:
相关推荐
JSoup允许你方便地提取元素的属性值,如`href`, `src`等,并可以修改它们。例如,获取并打印所有链接的`href`属性: ```java for (Element link : doc.select("a")) { String href = link.attr("href"); System....
例如,`element.append(text)`可以在元素后面添加文本,`element.remove()`则可以移除元素,而`element.attr(attributeName, value)`可以更改指定属性的值。 ### 4. 清理和规范化HTML Jsoup还提供了一种安全的方式...
例如,你可以通过选择器找到特定元素,然后遍历其子节点,修改属性值,或者替换或删除元素。 ```java Document doc = Jsoup.connect("http://example.com").get(); Element header = doc.select("header").first();...
在数据修改方面,jsoup 提供了设置属性值、HTML 内容和文本内容的功能。例如,`elem.attr("href", "newUrl")` 可以更改元素的链接,`elem.html("<b>New Content</b>")` 更新元素的 HTML 内容,而 `elem.text("New ...
此外,Jsoup还提供了便利的方法如 `text()` 获取元素内的纯文本,`attr("attribute")` 获取或设置元素属性,以及 `append()` 和 `prepend()` 等用于修改元素内容。 在**数据提取**方面,Jsoup提供了强大的功能。...
- 子节点和父节点:每个`Element`都有子节点集合,可以通过`children()`方法访问。同时,每个元素都有一个父元素,可以通过`parent()`方法获取。 4. **加载HTML文档**: - `Jsoup.connect(String url).get()`:这...
- **CSS选择器**:jsoup支持CSS选择器,使得定位网页元素变得简单,例如,通过类名、ID或其他属性来查找元素。 - **安全的HTML清理**:jsoup提供了一种安全的方式来清理用户输入的HTML,防止XSS(跨站脚本攻击)。...
1. **节点定位**:XPath可以快速准确地定位到XML文档中的元素、属性、文本等节点,如`//title`选取所有`title`元素。 2. **表达式计算**:XPath支持算术运算、字符串操作和逻辑判断,可以用于复杂的数据筛选。 3. **...
**jsoup API解析HTML** jsoup是一个非常强大的Java库,专为处理真实世界的HTML而设计。它提供了方便的API,用于提取和操作数据,使用...无论是网页抓取、数据提取还是内容修改,jsoup都能提供高效且安全的解决方案。
4. **数据提取**:Jsoup提供了丰富的API用于提取HTML中的数据,如文本内容、属性值、子节点等,这在爬虫和网页抓取场景中非常实用。 5. **安全的HTML转码**:Jsoup可以将用户输入的HTML内容进行安全转码,防止XSS...
6. **节点操作**:Jsoup允许我们对元素进行增删改查的操作,如添加新的元素、删除元素、更新属性值或替换元素内容。 ### 示例代码 下面是一个简单的示例,展示了如何使用Jsoup连接到一个网页,选择特定元素并提取...
3. **数据提取**:通过元素的API,可以获取元素的属性值、文本内容等,例如`element.attr("href")`和`element.text()`。 4. **DOM操作**:Jsoup允许修改DOM结构,添加、删除或更新元素,然后生成更新后的HTML字符串...
它提供了一种简单、直观的方式来解析、提取和修改网页内容。jsoup 的 API 设计得非常友好,使得开发者可以方便地与 HTML 进行交互,无论是从网络上抓取数据还是对本地 HTML 文件进行操作。 **一、解析 HTML** 1. *...
4. **元素操作**:有了`Document`对象,我们就可以使用`select()`方法选取元素,然后调用元素的方法来获取或修改属性。例如,`doc.select("h1")`会选择所有的`<h1>`标签。 5. **数据提取**:`Element.text()`可以...
- **设置属性值**:`element.attr("attrName", "newValue")` 可以更改元素的属性。 - **设置 HTML 内容**:`element.html("<b>New HTML</b>")` 将元素的 HTML 内容替换为新的 HTML。 - **设置文本内容**:`...
3. **元素操作教程**: 深入理解 Element 类,学习如何修改元素内容,添加或移除子元素,以及如何处理属性。 4. **实战案例**: 教程可能包括一些实际应用示例,如抓取网页上的新闻标题,提取电子邮件地址,或者自动...
- **设置属性值**:可以使用`Element.attr(String key, String value)`方法来修改属性值。例如: ```java element.attr("href", "http://example.org/"); ``` - **设置元素的HTML内容**:可以使用`Element.html...
Jsoup能够解析HTML文档,将其转换为DOM树结构,这样就可以像操作DOM节点一样,方便地获取和修改HTML元素。在抓取网站时,我们首先需要连接到目标URL,使用Jsoup的`connect()`方法建立连接,并调用`get()`或`post()`...
`Document` 是 Jsoup 的核心对象,可以使用 DOM 遍历方法(如 `childNodes()`, `select()`, `getElementById()` 等)来访问和遍历其内部的元素和文本节点。 2. 解析一个 HTML 字符串: 如果 HTML 字符串来自用户...
### jsoupAPI中文版知识点详解 #### 一、入门篇 **1. 解析和遍历一个HTML文档** - **如何解析一个HTML文档** - 示例代码:`String ...