`

正则表达式 负向预查 去除图片链接,保留链接里的图片格式

阅读更多
比如一张图片, 地址是http://www.sina.com.cm/dizhi/dizhi/tupian.jpg
想要把这些都去掉, 然后存在硬盘里。
就用
replaceAll("\\/|:|\\.(?!jpg|jpeg|gif)", "")


关于
(?!pattern)    
负向预查,在任何不匹配 pattern
的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配
"Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的
"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始


分享到:
评论

相关推荐

    常用的正则表达式

    10. **数字相关的正则表达式**:包括非负整数、正整数、非正整数、负整数、整数、非负浮点数、正浮点数、非正浮点数和负浮点数,这些正则表达式可以帮助识别和验证各种数字格式。 11. **字符类型的正则表达式**:如...

    正则表达式实例 网页前端开发

    正则表达式是编程中处理文本的强大工具,尤其在网页前端开发中,它常用于数据验证、内容提取和格式化。以下是一些具体的正则表达式实例及其应用: 1. **截取中间字符串**: 示例中的 `preg_match` 函数用于在字符...

    ASP.NET 正则表达式

    此正则表达式用于匹配图片链接,例如`.jpg`、`.bmp`或`.gif`等格式的图片文件。该表达式首先查找`<img>`标签,并通过`src`属性来定位具体的图片链接。`[^>]*[^/]`表示src属性值不以斜杠结尾,确保我们捕获的是实际的...

    java常用正则表达式

    ### Java常用正则表达式详解 #### 一、概述 正则表达式是进行字符串匹配的强大工具,在Java中被广泛应用于各种应用场景,如文本搜索、数据验证等。本篇文章将根据给定的部分内容来详细解释Java中常用的正则表达式,...

    【Python网络爬虫】python爬虫用正则表达式进行数据清洗与处理.txt

    除了提取有用的数据外,正则表达式还可以用来清洗数据,去除不必要的字符或格式化文本。例如,如果我们想去除HTML标签中的空白字符,可以使用以下代码: ```python # 去除HTML标签中的空白字符 clean_pattern = re....

    自动识别HTML代码里的图片链接 (代码行)

    这个正则表达式确保只匹配有效的图片文件格式。返回的是匹配到的第一个图片URL。 3. `SaveUrlPics`方法: 这是核心功能方法,接收一个HTML字符串和一个路径参数。首先,它调用`GetImgTag`方法获取HTML中的所有图片...

    PHP正则获取页面所有图片地址

    示例中`$ext`变量的定义为`gif|jpg|jpeg|bmp|png`,这是为了匹配不同格式图片文件的扩展名,增加了对多种图片格式的支持。 使用正则表达式匹配图片地址后,可以将匹配到的结果存储到数组中,供后续使用。在示例中,...

    JAVA程序设计大作业基于Java实现的网络爬虫,多线程地连接互联网,获取页面源代码

    2.通过正则表达式匹配,根据用户的选择可提取URL、电子邮箱、QQ号码、日期、电驴链接等信息 3.用户可自定义正则表达式,从页面源代码或在正文中提取信息 4.用户可自定义URL的正则表达式,当页面含有匹配的URL时,...

    python语言gif爬虫程序代码ZQ.txt

    7. 清理和格式化获取的链接:通过列表推导式构建最终用于下载的图片链接列表,同时去除链接末尾的多余字符。 8. 创建图片存储目录:如果当前目录下不存在名为gif的文件夹,则创建一个用于存放下载的gif图片。 9. ...

    web2db数据采集升级版

    【web2db数据采集升级版】是一个专门针对网络数据采集的工具或系统,它通过正则表达式(Regular Expression)技术来抓取并处理互联网上的信息。正则表达式是匹配字符串的强大工具,能帮助我们从网页源代码中精确地...

    php正则取img标记中任意属性(正则替换去掉或改变图片img标记中的任意属性)

    这个正则表达式会找到`src`属性中以指定的图像文件格式结尾的URL,并将其存储在`$matches[1]`中。 接下来,我们探讨如何替换`img`标签的属性。例如,我们可能希望更改所有`src`属性,以适应缩略图路径: ```php $...

    python语言jpg爬虫程序代码QZQ.txt

    8. 正则表达式处理:使用正则表达式对从网页中解析出来的数据进行清理,去除不必要的空白字符。 9. 文件编码处理:程序显示设置了请求返回内容的编码格式为GB2312,这通常用于简体中文字符集的网页,以正确显示和...

    asp 图片正则 替换,替换前检查图片是不是本地地址的方法

    `tmpurl`变量是去掉了单引号和双引号的图片链接,然后通过`Left(tmpurl, 19)`检查是否为特定的本地地址前缀。如果不是,则通过`picurl`变量调用本地处理程序。 总的来说,这段ASP代码展示了如何结合正则表达式和...

    php超级无敌酷炫采集器

    1. 正则表达式是用于匹配字符串的强大工具,它通过预定义的模式来查找、替换或分割文本。在PHP中,主要通过preg_match()、preg_replace()和preg_split()等函数实现。 2. 正则表达式的组成部分包括字符类、量词、分组...

    图片爬虫代码.txt

    6. 循环结构:代码中有多个for循环,分别用于遍历匹配到的图片链接和下载图片。这展示了如何通过循环结构处理大量数据。 7. 条件判断:通过if语句检查响应状态码是否为200,这是确认请求是否成功,只有状态码为200...

    python语言gif爬虫程序代码QZQ.txt

    提取到的图片链接是不完整的,程序通过字符串操作处理这些链接,确保链接格式正确,去除掉多余的字符,使其成为可以访问的完整链接。在保存图片之前,程序检查目标目录是否存在,如果不存在则创建一个。 最后,程序...

    超文本替换

    - **超文本**:超文本是指含有链接的文本,这些链接可以指向其他文本、图片、视频等资源。在互联网上,HTML(超文本标记语言)就是构建超文本的基本方式。 - **替换**:替换是查找特定文本字符串并用新字符串替换...

    清理markdown多余图片

    "清理markdown多余图片"这个主题主要是针对那些想要优化Markdown文件,去除不再使用的图片链接或实际图片文件的需求。这可能是为了减少存储空间,提高文档加载速度,或者保持文档的整洁性。在这个过程中,可能涉及到...

    web考题资源

    1. `<b>`标签用于加粗文本,`<p>`用于创建段落,`<pre>`保留原文本格式,`<a>`创建链接,`<img>`插入图片,`<form>`创建表单。 2. 类型选择器:`.class{styles}`,ID选择器:`#id{styles}`,元素选择器:`element{...

Global site tag (gtag.js) - Google Analytics