一个 html 文档中经常有很多链接,而这些链接可能包含主机地址,可能不包含,也可能是一个相对的地址,例如
<a href="http://www.oschina.net/p/jsoup">jsoup</a>
<a href="/p/jsoup">jsoup</a>
<a href="../jsoup">jsoup</a>
一般我们从 html 文档中解析出这些链接,最终还要转成第一种形式的链接地址,这个转链接的过程还挺复杂的,需要根据所解析的文档url地址来计算。
可如果使用 jsoup 的话,就非常简单了,jsoup 的 attr 方法提供了一个 abs: 的操作,请看下面的代码:
折叠展开 Java 代码复制内容到剪贴板
- URL url = new URL("http://www.ai-java.com/");
-
Document doc = Jsoup.parse(url, 3*1000);
-
-
Element link = doc.select("a").first();
-
String relHref = link.attr("href");
-
String absHref = link.attr("abs:href");
分享到:
相关推荐
`jsoup` 是一个强大的 Java 库,用于处理实际世界中的 HTML。它提供了一种简单、直观的方式来解析、提取和修改网页内容。jsoup 的 API 设计得非常友好,使得开发者可以方便地与 HTML 进行交互,无论是从网络上抓取...
Jsoup 是一个用于处理和解析HTML的Java库,它提供了强大的功能,使得在Java程序中操作HTML文档变得简单而直观。在Jsoup 1.10.2版本中,这个API进一步优化了对HTML的处理能力,提供了丰富的类和方法来满足各种需求。 ...
### Jsoup解析HTML中文文档 #### 一、jsoup简介及优势 **jsoup**是一款专为Java设计的HTML解析库,它可以帮助开发者方便地解析HTML文档...对于需要处理HTML文档的Java应用程序来说,jsoup无疑是一个值得信赖的选择。
- 获取HTML文档中的所有链接是一个常见的需求。可以使用`doc.select("a[href]")`选择所有带有`href`属性的`<a>`标签,然后遍历结果集获取每个链接的URL。 以上是JSOUP库的基本用法和功能概述。它是一个强大的工具...
- **Document**:代表一个完整的HTML文档,可以从中获取元素、解析链接、执行CSS选择器等。 - **Element**:表示HTML中的单个元素,可以获取其属性、子元素、文本内容,也可以修改这些属性。 - **Selector**:提供...
Jsoup是一款非常强大的Java库,专门用于处理和解析HTML文档。它提供了丰富的API,使得开发者可以轻松地在代码中操作HTML,实现对网页内容的抓取、解析和修改。Jsoup不仅能够帮助我们提取结构化数据,还能够模拟...
Jsoup是一个功能强大的库,尤其适合那些需要处理和解析HTML文档的Java开发者。它简洁的API、强大的选择器和对安全的重视,使得Jsoup在Web开发中非常实用。无论是从字符串、URL还是文件中加载HTML文档,Jsoup都能提供...
Jsoup是一个Java库,它提供了丰富的API来处理HTML文档,使得在Android中解析网页链接变得更加简单。 首先,让我们了解Jsoup的基本用法。Jsoup通过连接到指定的URL并下载HTML内容,然后解析这个内容以创建一个可操作...
在这个例子中,`Jsoup.connect()` 方法用于建立一个连接,并通过 `get()` 方法发送HTTP GET请求以获取指定URL的HTML文档。然后,可以通过调用 `title()` 方法获取文档的标题。 #### 四、保证安全性 在处理用户输入...
Jsoup是一款强大的Java库,专为处理HTML文档而设计,同时也支持XML解析。它提供了简单易用的API,使得开发者可以方便地抓取、解析、修改以及清理HTML内容。Jsoup能够模拟浏览器的行为,理解HTML文档的结构,并通过...
Jsoup 是一个功能强大的 HTML 解析器库,能够解析和遍历 HTML 文档,提取有用的信息。下面是 Jsoup 中一些重要的知识点: 1. 解析和遍历 HTML 文档 Jsoup 提供了多种方式来解析 HTML 文档,包括从字符串、URL 和...
Jsoup 是一个强大的 Java 库,专用于解析和操作 HTML 文档。它的设计目标是让开发者能够方便地从网页中提取结构化数据,同时提供了一种安全的方式来清理和过滤不受信任的 HTML,防止 XSS(跨站脚本)攻击。下面我们...
JSoup是一款强大的Java库,专为处理和解析HTML文档而设计。它提供了简单易用的API,使开发者能够轻松地提取数据、操作DOM(文档对象模型)以及清理HTML。标题中的"jsoup解析html所需包1.7.3"表明我们将讨论的是JSoup...
Jsoup是一款非常强大的Java库,专门用于解析HTML文档。它提供了简单易用的API,使得开发者可以方便地抓取和操作HTML数据,而无需复杂的正则表达式或DOM解析器的繁琐工作。在这个主题中,我们将深入探讨Jsoup的主要...
总结来说,jsoup是一个强大且易用的Java库,它的API设计简洁,支持HTML解析、选择、操作等功能,是处理HTML数据的理想工具。无论是网页抓取、数据提取还是内容修改,jsoup都能提供高效且安全的解决方案。
jsoup 是一个 Java 库,专门用于处理 HTML 文档,提供了强大的解析、提取、修改以及清理功能。在本文中,我们将深入探讨 jsoup 的主要功能,包括如何解析和遍历 HTML 文档,抽取数据,修改内容,以及进行 HTML 清理...
jsoup 是一个基于 Java 的库,它允许开发者以一种类似于 DOM(文档对象模型)的方式处理 HTML 文档。该库支持最新的 HTML5 规范,同时兼容大部分常见的 HTML 不规范情况。jsoup 提供了简单的 CSS 选择器语法,使得...
总之,Jsoup为Android开发者提供了一种高效、便捷的方式来解析和操作HTML,从而在各种应用场景中实现数据的提取和处理。通过熟练掌握Jsoup,开发者可以轻松地从网页中获取有价值的信息,并将其融入到Android应用程序...
jsoup是Java开发中处理HTML的强大工具,无论你是要进行网页抓取、数据提取还是内容清洗,它都能提供便捷的解决方案。结合1.10.3版本的更新,jsoup继续保持着其在HTML处理领域的领先地位。如果你还没有尝试过这个库,...
Jsoup的核心功能是解析HTML文档,并将其转化为一个DOM(Document Object Model)结构,这样我们就可以像操作XML一样操作HTML元素。DOM是一个树形结构,每个HTML标签都是树中的一个节点。Jsoup提供了丰富的API,如...