`
hwpok
  • 浏览: 254872 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

正则表达式 抓取网页面上所有图片

阅读更多
<!--<br /> <br /> Code highlighting produced by Actipro CodeHighlighter (freeware)<br /> http://www.CodeHighlighter.com/<br /> <br /> -->package com.roadway.test;

import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class TeskSRC {
    
public String getHtmlCode(String httpUrl) {
        String htmlCode 
= "";
        
try {
            InputStream in;
            URL url 
= new java.net.URL(httpUrl);
            HttpURLConnection connection 
= (HttpURLConnection) url
                    .openConnection();
            connection 
= (HttpURLConnection) url.openConnection();
            connection.setRequestProperty(
"User-Agent""Mozilla/4.0");
            connection.connect();
            in 
= connection.getInputStream();
            
byte[] buffer = new byte[512];
            
int length = -1;
            
while((length = in.read(buffer,0,512)) != -1){
                htmlCode 
+= new String(buffer,0,length);
            }
        } 
catch (Exception e) {
        }
        
if(htmlCode == null){
            
return "";
        }
        
return htmlCode;
    }
    
public static void main(String[] args){
        TeskSRC ts 
= new TeskSRC();
        String searchImgReg 
= "(?x)(src|SRC|background|BACKGROUND)=('|\")(http://([\\w-]+\\.)+[\\w-]+(:[0-9]+)*(/[\\w-]+)*(/[\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";
        String content = ts.getHtmlCode("http://www.163.com");
        Pattern pattern 
= Pattern.compile(searchImgReg);
        Matcher matcher 
= pattern.matcher(content);
        
while(matcher.find()){
            System.out.println(matcher.group(
3));
        }
        
//searchImgReg  = "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";
    }
}
分享到:
评论

相关推荐

    Python使用正则表达式抓取网页图片的方法示例

    本文实例讲述了Python使用正则表达式抓取网页图片的方法。分享给大家供大家参考,具体如下: #!/usr/bin/python import re import urllib #获取网页信息 def getHtml(url): page = urllib.urlopen(url) ...

    C#.Net使用正则表达式抓取百度百家文章列表

    以上就是使用C#.NET结合正则表达式抓取百度百家文章列表的相关知识点,实际操作中还需要结合具体网页结构进行调整。在实践中,不断提升对正则表达式和网络编程的理解,将有助于更高效地进行数据抓取。

    正则表达式转换工具

    - 网页抓取:在网络爬虫中,正则表达式用于提取网页中的特定信息。 5. **学习与进阶** - 掌握基本语法:理解各种元字符、量词和字符类的用法。 - 学习高级特性:如分组、后向引用、正向预查等,增强表达能力。 ...

    PB实现的正则表达式

    在IT领域,正则表达式(Regular Expression,简称regex)是一种强大的文本处理工具,它能够进行复杂的模式匹配、查找、替换等操作。在本话题中,我们将探讨如何使用PowerBuilder 11.5这一经典的开发环境来实现正则...

    pb 使用正则表达式源码pbregexp

    标题中的“pb 使用正则表达式源码pbregexp”指的是在PowerBuilder(简称pb)环境中,利用名为“pbregexp”的正则表达式组件来实现源代码级别的正则表达式操作。PowerBuilder是一款流行的可视化的、面向对象的软件...

    正则表达式测试工具C#版(src)

    - 查找功能:用户可以输入待检测的文本和正则表达式,工具会返回所有匹配的结果。 - 替换功能:除了查找,还能实现正则表达式的替换操作,方便测试替换效果。 - 匹配结果显示:匹配的部分会被高亮显示,便于用户...

    VC、VC++,MFC 正则表达式类库

    正则表达式类库则为VC++和MFC的开发者提供了对正则表达式功能的支持。 "VC、VC++,MFC 正则表达式类库"指的是在MFC中实现或集成的正则表达式处理模块。这个库通常包含一系列的类和函数,允许程序员编写符合特定模式...

    使用正则表达式抓取页面Email

    本篇我们将深入探讨如何利用正则表达式来抓取网页中的电子邮件地址。 电子邮件地址通常遵循一定的格式,如`username@example.com`,其中`username`是用户自定义的部分,`example`是域名,`.com`是顶级域名。为了...

    qt使用正则表达式限制lineEdit的输入,对正则表达式进行了封装,可以直接引入,工程编译正常

    在Qt框架中,正则表达式(Regular Expression)是一种强大的文本处理工具,它允许程序员以结构化的方式匹配、查找、替换或验证字符串。本项目针对Qt的lineEdit组件,通过正则表达式实现了输入限制功能,使得lineEdit...

    正则式工具(自动生成正则表达式)

    正则式,全称为“正则表达式”,是编程领域中一种强大的文本处理工具,用于匹配、查找、替换和分析字符串。它通过一系列特定的字符和语法构建模式,可以高效地处理各种复杂的文本匹配任务。在软件开发、数据处理、...

    正则表达式必知必会v_1.0.pdf

    "正则表达式必知必会" 正则表达式是一种强大的文本处理工具,广泛应用于各个领域。下面是对正则表达式的详细解释: 正则表达式的用途 正则表达式主要用于处理文本,提供了两大主要功能:查找和替换。查找功能允许...

    易语言正则表达式匹配中文

    例如,“正则表达式查找”命令可以找到字符串中所有匹配的子串,“正则表达式替换”则可以将匹配的子串替换成新的内容。 在编程实践中,我们可能会遇到一些挑战,如性能优化、错误处理等。例如,如果待处理的字符串...

    正则表达式抓取网页数据制作小词典

    在本项目“正则表达式抓取网页数据制作小词典”中,我们将探讨如何利用正则表达式从网页中抓取数据,并将这些数据整理成一个小型的词典。 首先,理解正则表达式的语法是关键。它由各种特殊字符和普通字符组成,如...

    Java使用正则表达式提取XML节点内容的方法示例

    Java使用正则表达式提取XML节点内容的方法示例 Java使用正则表达式提取XML节点内容的方法示例主要介绍了Java使用正则表达式提取XML节点内容的方法,结合具体实例形式分析了java针对xml格式字符串的正则匹配相关操作...

    正则表达式的网页练习器

    "正则表达式的网页练习器"是一个实用的在线工具,它帮助用户快速学习和实践正则表达式,通过交互式的方式检验正则表达式的正确性,从而在10秒内解决简单的正则编写问题。 一、正则表达式基本概念 1. 元字符:如 . ^...

    精通正则表达式(第三版)简体中文版

    4. **数据提取**:从复杂的数据中提取所需的信息,如从网页中抓取特定内容。 5. **日志分析**:从系统日志中提取关键信息进行监控和报警。 #### 五、不同环境下的正则表达式 - **Perl兼容正则表达式(PCRE)**:Perl...

    Delphi2010正则表达式插件

    《Delphi 2010正则表达式插件详解》 在编程世界中,正则表达式(Regular Expression)是一种强大的文本处理工具,能够帮助开发者高效地进行字符串的匹配、查找、替换等操作。在Delphi 2010这个经典的集成开发环境中...

    精通正则表达式(第3版)(含awz3 mobi epub)

    随着互联网的迅速发展,几乎所有工具软件和程序语言都支持的正则表达式也变得越来越强大和易于使用。本书是讲解正则表达式的经典之作。本书主要讲解了正则表达式的特性和流派、匹配原理、优化原则、实用诀窍以及调校...

    正则表达式验证工具,正则表达式校验工具

    正则表达式验证工具 V1.0 本软件主要用于检测正则表达式是否正确。 运行环境:本软件为绿色软件,无需安装,但需要Microsoft .NET Framework 4 支持,如果没有请前去下载(下载路径:...

    正则表达式30分钟入门教程

    作者认为,初学者不应该期望在30分钟内完全掌握正则表达式,因为在没有实际应用和练习的情况下,记忆所有语法和规则是不现实的。重要的是通过理解基本概念和原理,逐步提高,最终能够熟练使用正则表达式。 在整个...

Global site tag (gtag.js) - Google Analytics