`
renhongchao
  • 浏览: 121413 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Jsoup 获取A标签链接绝对地址

 
阅读更多
网页抓取的时候,一般都会获取a标签的attr href,但是有的标签使用的路径是相对地址,这样自己还要做转换,不过Jsoup本身提供了方法,只要提取href的时候加上abs(absolute)前缀,那么最终拿到的就是绝对地址。
代码如下
.attr("abs:href")
分享到:
评论

相关推荐

    使用Jsoup,抓取整个网站(包括图片、js、css)

    这通常通过递归的方式实现,从首页开始,找到所有的`<a>`(链接)、`<img>`(图片)、`<link>`(CSS)和`<script>`(JavaScript)标签。对于每一个找到的资源,我们都将其保存到本地,同时更新HTML文档中的链接,使...

    jsoup中文帮助文档

    以下示例展示如何获取页面上的所有链接并修改它们的 `href` 属性: ```java Elements links = doc.select("a[href]"); for (Element link : links) { String oldHref = link.attr("href"); String newHref = ...

    JSOUP的中文文档

    可以使用`doc.select("a[href]")`选择所有带有`href`属性的`<a>`标签,然后遍历结果集获取每个链接的URL。 以上是JSOUP库的基本用法和功能概述。它是一个强大的工具,适用于网页抓取、数据分析、HTML内容的清洗和...

    JsoupDemo可运行的完整工程

    4. **提取链接**:遍历每个`<a>`元素,获取`href`属性值,即链接地址。 5. **处理链接**:根据需求,可以进一步处理链接,如去除锚点、转换为绝对URL等。 6. **输出结果**:将提取的链接打印到控制台或写入文件。 *...

    java爬虫jsoup包

    5. **链接处理**:Jsoup可以自动处理相对URL,将其转换为绝对URL,方便进行链接爬取。例如,`elem.absUrl("href")`返回元素href属性的绝对URL。 6. **HTML清理**:Jsoup还提供HTML清理功能,确保解析后的HTML符合...

    jsoup爬虫中文api

    如果指定了基地址,则Jsoup会根据该地址解析文档中的相对URL为绝对URL,这对于处理外部链接尤为重要。 ##### 2.2 文档对象模型 解析后的HTML文档被组织成一个文档对象模型(DOM)。DOM由一系列的 `Node` 组成,其中 ...

    jsoup1.10.3包和jsoupApi帮助文档

    3. **链接处理**:它可以解析和提取页面中的链接,并进行规范化,比如处理相对URL,使其成为绝对URL。 4. **数据提取**:Jsoup支持选择和提取HTML元素的属性值,如文本内容、类名等,这对于数据抓取尤其有用。 5. ...

    jsoup1.10_jsoupjar包网页_

    5. **遍历链接**:如果需要抓取同一网站的其他页面,可以遍历`<a>`标签的`href`属性获取链接,并递归处理。 6. **安全过滤**:在提取或显示用户输入的数据时,使用`Jsoup.clean()`进行清洗,避免XSS攻击。 **应用...

    Jsoup工具jar包

    - **链接处理**:自动处理相对URL,将其转换为绝对URL,方便处理网页上的链接。 3. **压缩包内的文件**: - **jsoup-1.6.1-javadoc.jar**:这是Jsoup的API文档jar包,包含了1.6.1版本的Jsoup的详细Javadoc,...

    jsoup应用包

    3. **链接处理**:jsoup能够解析并处理页面上的链接,包括相对链接、绝对链接以及锚点链接。这在构建爬虫时,对于提取并跳转到其他页面尤其有用。 4. **安全的HTML提取**:jsoup提供了一种安全的方式来提取用户提交...

    org.jsoup.zip

    4. **链接处理**:`jsoup` 还能处理链接,包括相对链接和绝对链接。`Jsoup.parse()`方法会自动将相对URL转换为绝对URL,这对于处理包含多个链接的网页特别有用。 5. **HTML清理**:网页数据往往不纯净,`jsoup` ...

    jsoup api

    - 示例代码通常会展示如何使用`select("a")`选择所有的`<a>`标签(链接),然后通过`.attr("href")`获取每个链接的URL。 10. **HTML清理的详细步骤** - 清理过程包括移除不安全的标签、属性,确保只保留白名单中...

    Jsoup.jar附带教程

    `FormElement` 类提供了`submit()` 方法,用于提交表单,而`Element` 的`absUrl("attribute")` 可以获取元素的绝对URL,便于模拟点击链接。 **实体解码** Jsoup自动处理HTML实体,如`&`、`<` 等,确保你获取...

    jsoup-1.8.1.jar

    5. **链接处理**:jsoup能解析和处理相对及绝对链接,可以进行URL规范化和重写,这对于爬虫和自动化测试尤其有用。 6. **安全清洗**:jsoup提供了一种安全的方式来清洗不信任的HTML输入,防止跨站脚本(XSS)攻击。...

    jsoup爬虫学习之爬取博客(包含jsoup jar包)

    此外,`jsoup`还能够处理相对和绝对URL,方便我们在抓取页面时进行链接的跳转。 在"jsoup爬虫学习源代码"中,你可能已经看到了如何构建一个基本的爬虫项目。通常,一个简单的`jsoup`爬虫会包括以下几个步骤: 1. *...

    jsoupAPI中文版

    程序示例:获取所有链接** - 示例代码: ```java Document doc = Jsoup.connect("http://example.com").get(); Elements links = doc.select("a[href]"); for (Element link : links) { System.out.println...

    jsoup中文API

    Jsoup 可以处理 URL,将相对 URL 转换为绝对 URL,这对于解析包含外部资源链接的文档很有用。 6. **数据修改** - **设置属性值**:`element.attr("attributeName", "newValue")` 可用于修改元素属性。 - **设置 ...

    jsoup帮助文档

    例如,`doc.select("a")` 将选取所有链接元素。 在数据修改方面,jsoup 提供了设置属性值、HTML 内容和文本内容的功能。例如,`elem.attr("href", "newUrl")` 可以更改元素的链接,`elem.html("<b>New Content</b>...

    jsoup解析html

    它能处理相对和绝对URL,方便地跟随链接。 4. **清洗(Cleaning)**:JSoup还提供了一个安全的HTML清理功能,可以将不规范或者不安全的HTML转换为有效的、安全的DOM树。 ### 使用JSoup解析HTML 1. **引入依赖**:...

Global site tag (gtag.js) - Google Analytics