`

获取文章中的图片

    博客分类:
  • java
阅读更多

 

瀑布流的功能开发完了,感觉还不错,地址是:http://www.656463.com/waterfall,其中也有一些知识点,和大家分享一下。既然是瀑布流,就会涉及到图片,在这里我是获取本站文章中的图片,所以本节就是用jsoup获取文章中的图片

 

jsoup简单介绍

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

使用jsoup很简单,就是下载jar包,然后就能用里面的API进行解析了

中文地址是:http://www.open-open.com/jsoup/

下载jsoup地址:http://jsoup.org/download,最新版是jsoup-1.7.2.jar

 

获取文章图片

获取文章的图片,就是用jsoup在文章内容里解析出文章路径

 

List<String> imgs = JsoupUtil.getImgSrc(article.getContent());

 解析工具类

 

/**
 * 解释HTML获取图片列表
 * @param html HTML内容
 * @return 图片列表
 */
public static List<String> getImgSrc(String html){
    List<String> imgSrcs= new ArrayList<String>();
      
    Document doc = Jsoup.parse(html);
    Elements imgs = doc.getElementsByTag("img");
    for (Element img : imgs) {
        String imgSrc = img.attr("src");
        if(imgSrc!=null && imgSrc.trim().length()>0){
            imgSrcs.add(imgSrc);
        }
    }
      
    return imgSrcs;
}

 简单吧,就这样了

 

本文链接:用jsoup获取文章中的图片-瀑布流系列文章,由领悟书生原创

转载请注明出处【http://www.656463.com/article/348】

 

分享到:
评论

相关推荐

    获取文章内容中的图片标签及其src实现

    总结来说,通过JavaScript获取HTML中的图片标签及其`src`属性,涉及的主要知识点有:DOM操作、元素选取、属性访问以及事件监听。这些是前端开发中的基础技能,也是构建动态网页和交互式应用的关键部分。通过实践和...

    文章中的网址与图片名提取

    在这个特定的实例中,我们关注的是从文章中提取网址和图片名的功能。这在内容抓取、数据分析或者搜索引擎优化(SEO)等领域非常有用。下面将详细解释如何使用C#来实现这个功能。 首先,我们需要解析文章的文本内容...

    从富文本(HTML字符串)中获取图片

    html中获取图片 文章中提取图片 正则获取图片 富文本提取图片路径 字符中中获取图片路径 html中获取图片 文章中提取图片 正则获取图片 富文本提取图片路径 字符中中获取图片路径 html中获取图片 文章中提取图片 正则...

    WordPress文章配图0.0.4:新增提取文章内容图片作为缩略图功能

    “提取文章内容图片作为缩略图”的功能是这个插件的一大亮点。当用户撰写的文章没有设置自定义的缩略图时,这个功能会自动从文章内容中选取一张图片作为文章的代表缩略图。这样不仅解决了部分用户忘记设置缩略图的...

    从内存中提取图片等数据

    本篇文章将深入探讨如何从内存中提取图片等数据。 首先,了解内存的基本概念至关重要。内存,也被称为RAM(随机存取存储器),是计算机系统中临时存储数据的地方。当程序运行时,它们会将数据和指令加载到内存中...

    asp截取文章中的第一个图片的函数

    在ASP(Active Server Pages)开发中,经常需要处理HTML内容,比如从文章中提取特定信息,如图片链接。"asp截取文章中的第一个图片的函数"这个标题所指的,就是一个用于从HTML文本中提取出第一个图片URL的脚本函数。...

    java提取照片经纬度代码

    通过Java程序可以从这些照片中读取这些信息,这对于地理定位应用非常有用。 #### 二、关键类与方法介绍 ##### 1. **`ImageMetadataReader`** 类 - **功能**:用于读取图像文件中的元数据。 - **关键方法**: - `...

    WordPress插件:给REST API 新增文章特色图片(缩略图)字段,用于显示文章头图

    特色图片(缩略图)在WordPress中通常用作文章的预览图或头图,它增强了内容的视觉吸引力,有助于提升用户的阅读体验。当这个功能被添加到REST API中,外部应用或服务就能获取到这些图像,进而更完整地展示文章内容...

    PHP实现提取图片文字的示例代码,支持多张图片提取文字

    然后,我们定义了多张图片的路径,并遍历这些图片路径,调用OCR SDK提取图片文字,并输出提取的文字。 需要注意的是,OCR SDK需要从百度AI平台获取,需要先注册百度AI平台账号并创建OCR应用,然后获取API Key和...

    php实现获取文章内容第一张图片的方法

    示例代码中,首先提取文章内容,然后使用正则表达式对内容进行处理,通过`preg_match_all()`函数匹配出所有图片标签。对匹配到的结果数组进行进一步的处理,比如使用`preg_match()`函数来获取第一个标签内的`src`...

    经典图片文章抓取软件 - SEO工具

    OCR技术是一种能够将扫描的图像或者照片中的文字识别为可编辑、可搜索的文本的技术。这款软件利用OCR技术,可以从图书、杂志等纸质媒体的图片中提取文字,将其转换为Word、PDF等电子格式,方便用户编辑和发布,同时...

    C#图片识别 图片文字提取

    "C#图片识别 图片文字提取"这个主题聚焦于利用C#进行图像处理和光学字符识别(OCR)技术,以便从图像中识别和提取文字。在本篇文章中,我们将深入探讨这个主题,了解相关技术和实现步骤。 首先,我们要理解图像识别...

    csdn文章转换为markdown格式

    6. **数据处理**:文章的元信息(如标题、作者、发表日期等)可能需要被提取和处理,以便在Markdown文件中保留这些信息。 7. **错误处理**:一个好的工具会考虑各种可能的异常情况,例如网络连接问题、文章结构变化...

    job伯乐文章属性获取下载图片

    # 假设文章图片位于class为"article-image"的img标签内 item['image_urls'] = response.css('.article-image img::attr(src)').getall() # 其他字段的解析... yield item ``` 下载图片是Scrapy的一项重要功能,...

    Python爬虫~已爬取目标网站所有文章,后续如何只获取新文章.zip

    它还可能演示了如何遍历网页,提取文章链接,以及如何将爬取到的文章信息存储在本地。 接下来,`刷新文章.py`可能是实现定期检查新文章的脚本。这个脚本可能会使用时间戳或者其他唯一标识符(如文章ID)来比较已...

    电子签名图片提取工具

    本篇文章将详细介绍一个名为“电子签名图片提取工具”的实用程序,该工具专门设计用于从图片中提取电子签名。 首先,让我们理解电子签名的基本概念。电子签名是一种在数字环境中模拟传统手写签名的方式,它通过加密...

    从XPS文件中获取文字或图片

    本篇文章将详细探讨如何从XPS文件中提取文字和图片,以及相关的编程实现。 XPS文件结构: XPS文件是一个包含多个XML文档的压缩包,这些文档定义了页面布局、文本、图像和其他视觉元素。主要的XML文件包括package....

    php获取文章内容第一张图片的方法示例

    在PHP编程中,有时我们需要从文章内容中提取第一张图片的URL,这在处理博客、新闻网站或CMS系统时尤其有用。本实例将详细介绍如何使用PHP实现这一功能,并提供了一个简单的方法示例。 首先,我们要了解PHP中的正则...

    如何复制百度文库中的文章---转的,不用担心下载要币了

    幸运的是,有一种巧妙的方法可以绕过这一限制,无需花费下载币,也不用经历复杂的登录步骤,即可轻松获取百度文库中的文章。这种方法不仅简单有效,还不需要额外安装任何软件。接下来,我们将详细阐述这一方法的每一...

Global site tag (gtag.js) - Google Analytics