瀑布流的功能开发完了,感觉还不错,地址是:http://www.656463.com/waterfall,其中也有一些知识点,和大家分享一下。既然是瀑布流,就会涉及到图片,在这里我是获取本站文章中的图片,所以本节就是用jsoup获取文章中的图片
jsoup简单介绍
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
使用jsoup很简单,就是下载jar包,然后就能用里面的API进行解析了
中文地址是:http://www.open-open.com/jsoup/
下载jsoup地址:http://jsoup.org/download,最新版是jsoup-1.7.2.jar
获取文章图片
获取文章的图片,就是用jsoup在文章内容里解析出文章路径
List<String> imgs = JsoupUtil.getImgSrc(article.getContent());
解析工具类
/** * 解释HTML获取图片列表 * @param html HTML内容 * @return 图片列表 */ public static List<String> getImgSrc(String html){ List<String> imgSrcs= new ArrayList<String>(); Document doc = Jsoup.parse(html); Elements imgs = doc.getElementsByTag("img"); for (Element img : imgs) { String imgSrc = img.attr("src"); if(imgSrc!=null && imgSrc.trim().length()>0){ imgSrcs.add(imgSrc); } } return imgSrcs; }
简单吧,就这样了
本文链接:用jsoup获取文章中的图片-瀑布流系列文章,由领悟书生原创
转载请注明出处【http://www.656463.com/article/348】
相关推荐
总结来说,通过JavaScript获取HTML中的图片标签及其`src`属性,涉及的主要知识点有:DOM操作、元素选取、属性访问以及事件监听。这些是前端开发中的基础技能,也是构建动态网页和交互式应用的关键部分。通过实践和...
在这个特定的实例中,我们关注的是从文章中提取网址和图片名的功能。这在内容抓取、数据分析或者搜索引擎优化(SEO)等领域非常有用。下面将详细解释如何使用C#来实现这个功能。 首先,我们需要解析文章的文本内容...
html中获取图片 文章中提取图片 正则获取图片 富文本提取图片路径 字符中中获取图片路径 html中获取图片 文章中提取图片 正则获取图片 富文本提取图片路径 字符中中获取图片路径 html中获取图片 文章中提取图片 正则...
“提取文章内容图片作为缩略图”的功能是这个插件的一大亮点。当用户撰写的文章没有设置自定义的缩略图时,这个功能会自动从文章内容中选取一张图片作为文章的代表缩略图。这样不仅解决了部分用户忘记设置缩略图的...
本篇文章将深入探讨如何从内存中提取图片等数据。 首先,了解内存的基本概念至关重要。内存,也被称为RAM(随机存取存储器),是计算机系统中临时存储数据的地方。当程序运行时,它们会将数据和指令加载到内存中...
在ASP(Active Server Pages)开发中,经常需要处理HTML内容,比如从文章中提取特定信息,如图片链接。"asp截取文章中的第一个图片的函数"这个标题所指的,就是一个用于从HTML文本中提取出第一个图片URL的脚本函数。...
特色图片(缩略图)在WordPress中通常用作文章的预览图或头图,它增强了内容的视觉吸引力,有助于提升用户的阅读体验。当这个功能被添加到REST API中,外部应用或服务就能获取到这些图像,进而更完整地展示文章内容...
通过Java程序可以从这些照片中读取这些信息,这对于地理定位应用非常有用。 #### 二、关键类与方法介绍 ##### 1. **`ImageMetadataReader`** 类 - **功能**:用于读取图像文件中的元数据。 - **关键方法**: - `...
然后,我们定义了多张图片的路径,并遍历这些图片路径,调用OCR SDK提取图片文字,并输出提取的文字。 需要注意的是,OCR SDK需要从百度AI平台获取,需要先注册百度AI平台账号并创建OCR应用,然后获取API Key和...
示例代码中,首先提取文章内容,然后使用正则表达式对内容进行处理,通过`preg_match_all()`函数匹配出所有图片标签。对匹配到的结果数组进行进一步的处理,比如使用`preg_match()`函数来获取第一个标签内的`src`...
OCR技术是一种能够将扫描的图像或者照片中的文字识别为可编辑、可搜索的文本的技术。这款软件利用OCR技术,可以从图书、杂志等纸质媒体的图片中提取文字,将其转换为Word、PDF等电子格式,方便用户编辑和发布,同时...
"C#图片识别 图片文字提取"这个主题聚焦于利用C#进行图像处理和光学字符识别(OCR)技术,以便从图像中识别和提取文字。在本篇文章中,我们将深入探讨这个主题,了解相关技术和实现步骤。 首先,我们要理解图像识别...
6. **数据处理**:文章的元信息(如标题、作者、发表日期等)可能需要被提取和处理,以便在Markdown文件中保留这些信息。 7. **错误处理**:一个好的工具会考虑各种可能的异常情况,例如网络连接问题、文章结构变化...
# 假设文章图片位于class为"article-image"的img标签内 item['image_urls'] = response.css('.article-image img::attr(src)').getall() # 其他字段的解析... yield item ``` 下载图片是Scrapy的一项重要功能,...
它还可能演示了如何遍历网页,提取文章链接,以及如何将爬取到的文章信息存储在本地。 接下来,`刷新文章.py`可能是实现定期检查新文章的脚本。这个脚本可能会使用时间戳或者其他唯一标识符(如文章ID)来比较已...
本篇文章将详细介绍一个名为“电子签名图片提取工具”的实用程序,该工具专门设计用于从图片中提取电子签名。 首先,让我们理解电子签名的基本概念。电子签名是一种在数字环境中模拟传统手写签名的方式,它通过加密...
本篇文章将详细探讨如何从XPS文件中提取文字和图片,以及相关的编程实现。 XPS文件结构: XPS文件是一个包含多个XML文档的压缩包,这些文档定义了页面布局、文本、图像和其他视觉元素。主要的XML文件包括package....
在PHP编程中,有时我们需要从文章内容中提取第一张图片的URL,这在处理博客、新闻网站或CMS系统时尤其有用。本实例将详细介绍如何使用PHP实现这一功能,并提供了一个简单的方法示例。 首先,我们要了解PHP中的正则...
幸运的是,有一种巧妙的方法可以绕过这一限制,无需花费下载币,也不用经历复杂的登录步骤,即可轻松获取百度文库中的文章。这种方法不仅简单有效,还不需要额外安装任何软件。接下来,我们将详细阐述这一方法的每一...