`

jsoup 对 html 文档中链接处理的一个不错的功能

阅读更多

一个 html 文档中经常有很多链接,而这些链接可能包含主机地址,可能不包含,也可能是一个相对的地址,例如

<a href="http://www.oschina.net/p/jsoup">jsoup</a>
<a href="/p/jsoup">jsoup</a>
<a href="../jsoup">jsoup</a>

一般我们从 html 文档中解析出这些链接,最终还要转成第一种形式的链接地址,这个转链接的过程还挺复杂的,需要根据所解析的文档url地址来计算。

可如果使用 jsoup 的话,就非常简单了,jsoup 的 attr 方法提供了一个 abs: 的操作,请看下面的代码:
 

折叠 Java 代码复制内容到剪贴板
  1. URL url = new URL("http://www.ai-java.com/");   
  2. Document doc = Jsoup.parse(url, 3*1000);   
  3.   
  4. Element link = doc.select("a").first();   
  5. String relHref = link.attr("href"); // == "/"   
  6. String absHref = link.attr("abs:href"); // "http://www.ai-java.com/"  

 

分享到:
评论

相关推荐

    jsoup 中文 api 文档

    `jsoup` 是一个强大的 Java 库,用于处理实际世界中的 HTML。它提供了一种简单、直观的方式来解析、提取和修改网页内容。jsoup 的 API 设计得非常友好,使得开发者可以方便地与 HTML 进行交互,无论是从网络上抓取...

    JsoupAPI(jsoup帮助文档)

    Jsoup 是一个用于处理和解析HTML的Java库,它提供了强大的功能,使得在Java程序中操作HTML文档变得简单而直观。在Jsoup 1.10.2版本中,这个API进一步优化了对HTML的处理能力,提供了丰富的类和方法来满足各种需求。 ...

    Jsoup解析html中文文档

    ### Jsoup解析HTML中文文档 #### 一、jsoup简介及优势 **jsoup**是一款专为Java设计的HTML解析库,它可以帮助开发者方便地解析HTML文档...对于需要处理HTML文档的Java应用程序来说,jsoup无疑是一个值得信赖的选择。

    JSOUP的中文文档

    - 获取HTML文档中的所有链接是一个常见的需求。可以使用`doc.select("a[href]")`选择所有带有`href`属性的`&lt;a&gt;`标签,然后遍历结果集获取每个链接的URL。 以上是JSOUP库的基本用法和功能概述。它是一个强大的工具...

    jsoup1.10.3包和jsoupApi帮助文档

    - **Document**:代表一个完整的HTML文档,可以从中获取元素、解析链接、执行CSS选择器等。 - **Element**:表示HTML中的单个元素,可以获取其属性、子元素、文本内容,也可以修改这些属性。 - **Selector**:提供...

    在android中使用jsoup解析页面链接

    Jsoup是一个Java库,它提供了丰富的API来处理HTML文档,使得在Android中解析网页链接变得更加简单。 首先,让我们了解Jsoup的基本用法。Jsoup通过连接到指定的URL并下载HTML内容,然后解析这个内容以创建一个可操作...

    jsoup爬虫中文api

    在这个例子中,`Jsoup.connect()` 方法用于建立一个连接,并通过 `get()` 方法发送HTTP GET请求以获取指定URL的HTML文档。然后,可以通过调用 `title()` 方法获取文档的标题。 #### 四、保证安全性 在处理用户输入...

    Jsoup库文件;Jsoup解析Java包

    Jsoup是一款强大的Java库,专为处理HTML文档而设计,同时也支持XML解析。它提供了简单易用的API,使得开发者可以方便地抓取、解析、修改以及清理HTML内容。Jsoup能够模拟浏览器的行为,理解HTML文档的结构,并通过...

    Jsoup中文Api.docx

    Jsoup 是一个功能强大的 HTML 解析器库,能够解析和遍历 HTML 文档,提取有用的信息。下面是 Jsoup 中一些重要的知识点: 1. 解析和遍历 HTML 文档 Jsoup 提供了多种方式来解析 HTML 文档,包括从字符串、URL 和...

    Jsoup文档帮助_中文

    Jsoup 是一个强大的 Java 库,专用于解析和操作 HTML 文档。它的设计目标是让开发者能够方便地从网页中提取结构化数据,同时提供了一种安全的方式来清理和过滤不受信任的 HTML,防止 XSS(跨站脚本)攻击。下面我们...

    jsoup解析html所需包1.7.3

    JSoup是一款强大的Java库,专为处理和解析HTML文档而设计。它提供了简单易用的API,使开发者能够轻松地提取数据、操作DOM(文档对象模型)以及清理HTML。标题中的"jsoup解析html所需包1.7.3"表明我们将讨论的是JSoup...

    Jsoup解析html

    Jsoup是一款非常强大的Java库,专门用于解析HTML文档。它提供了简单易用的API,使得开发者可以方便地抓取和操作HTML数据,而无需复杂的正则表达式或DOM解析器的繁琐工作。在这个主题中,我们将深入探讨Jsoup的主要...

    jsoupAPI解析html

    总结来说,jsoup是一个强大且易用的Java库,它的API设计简洁,支持HTML解析、选择、操作等功能,是处理HTML数据的理想工具。无论是网页抓取、数据提取还是内容修改,jsoup都能提供高效且安全的解决方案。

    Jsoup操作解析Html文件

    Jsoup是一款非常强大的Java库,专门用于处理和解析HTML文档。它提供了丰富的API,使得开发者可以轻松地在代码中操作HTML,实现对网页内容的抓取、解析和修改。Jsoup不仅能够帮助我们提取结构化数据,还能够模拟...

    使用 jsoup 对 HTML 文档进行解析和操作

    jsoup 是一个基于 Java 的库,它允许开发者以一种类似于 DOM(文档对象模型)的方式处理 HTML 文档。该库支持最新的 HTML5 规范,同时兼容大部分常见的 HTML 不规范情况。jsoup 提供了简单的 CSS 选择器语法,使得...

    Jsoup解析html的示例

    总之,Jsoup为Android开发者提供了一种高效、便捷的方式来解析和操作HTML,从而在各种应用场景中实现数据的提取和处理。通过熟练掌握Jsoup,开发者可以轻松地从网页中获取有价值的信息,并将其融入到Android应用程序...

    jsoup1.10.3完整jar包+中文文档

    jsoup是Java开发中处理HTML的强大工具,无论你是要进行网页抓取、数据提取还是内容清洗,它都能提供便捷的解决方案。结合1.10.3版本的更新,jsoup继续保持着其在HTML处理领域的领先地位。如果你还没有尝试过这个库,...

    Android使用Jsoup技术解析HTML

    Jsoup的核心功能是解析HTML文档,并将其转化为一个DOM(Document Object Model)结构,这样我们就可以像操作XML一样操作HTML元素。DOM是一个树形结构,每个HTML标签都是树中的一个节点。Jsoup提供了丰富的API,如...

Global site tag (gtag.js) - Google Analytics