`
hwpok
  • 浏览: 251682 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

正则表达式 抓取网页面上所有图片

阅读更多
<!--<br /> <br /> Code highlighting produced by Actipro CodeHighlighter (freeware)<br /> http://www.CodeHighlighter.com/<br /> <br /> -->package com.roadway.test;

import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class TeskSRC {
    
public String getHtmlCode(String httpUrl) {
        String htmlCode 
= "";
        
try {
            InputStream in;
            URL url 
= new java.net.URL(httpUrl);
            HttpURLConnection connection 
= (HttpURLConnection) url
                    .openConnection();
            connection 
= (HttpURLConnection) url.openConnection();
            connection.setRequestProperty(
"User-Agent""Mozilla/4.0");
            connection.connect();
            in 
= connection.getInputStream();
            
byte[] buffer = new byte[512];
            
int length = -1;
            
while((length = in.read(buffer,0,512)) != -1){
                htmlCode 
+= new String(buffer,0,length);
            }
        } 
catch (Exception e) {
        }
        
if(htmlCode == null){
            
return "";
        }
        
return htmlCode;
    }
    
public static void main(String[] args){
        TeskSRC ts 
= new TeskSRC();
        String searchImgReg 
= "(?x)(src|SRC|background|BACKGROUND)=('|\")(http://([\\w-]+\\.)+[\\w-]+(:[0-9]+)*(/[\\w-]+)*(/[\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";
        String content = ts.getHtmlCode("http://www.163.com");
        Pattern pattern 
= Pattern.compile(searchImgReg);
        Matcher matcher 
= pattern.matcher(content);
        
while(matcher.find()){
            System.out.println(matcher.group(
3));
        }
        
//searchImgReg  = "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";
    }
}
分享到:
评论

相关推荐

    Python使用正则表达式抓取网页图片的方法示例

    本文实例讲述了Python使用正则表达式抓取网页图片的方法。分享给大家供大家参考,具体如下: #!/usr/bin/python import re import urllib #获取网页信息 def getHtml(url): page = urllib.urlopen(url) ...

    C#.Net使用正则表达式抓取百度百家文章列表

    以上就是使用C#.NET结合正则表达式抓取百度百家文章列表的相关知识点,实际操作中还需要结合具体网页结构进行调整。在实践中,不断提升对正则表达式和网络编程的理解,将有助于更高效地进行数据抓取。

    正则表达式转换工具

    - 网页抓取:在网络爬虫中,正则表达式用于提取网页中的特定信息。 5. **学习与进阶** - 掌握基本语法:理解各种元字符、量词和字符类的用法。 - 学习高级特性:如分组、后向引用、正向预查等,增强表达能力。 ...

    PB实现的正则表达式

    在IT领域,正则表达式(Regular Expression,简称regex)是一种强大的文本处理工具,它能够进行复杂的模式匹配、查找、替换等操作。在本话题中,我们将探讨如何使用PowerBuilder 11.5这一经典的开发环境来实现正则...

    pb 使用正则表达式源码pbregexp

    标题中的“pb 使用正则表达式源码pbregexp”指的是在PowerBuilder(简称pb)环境中,利用名为“pbregexp”的正则表达式组件来实现源代码级别的正则表达式操作。PowerBuilder是一款流行的可视化的、面向对象的软件...

    正则表达式测试工具C#版(src)

    - 查找功能:用户可以输入待检测的文本和正则表达式,工具会返回所有匹配的结果。 - 替换功能:除了查找,还能实现正则表达式的替换操作,方便测试替换效果。 - 匹配结果显示:匹配的部分会被高亮显示,便于用户...

    VC、VC++,MFC 正则表达式类库

    正则表达式类库则为VC++和MFC的开发者提供了对正则表达式功能的支持。 "VC、VC++,MFC 正则表达式类库"指的是在MFC中实现或集成的正则表达式处理模块。这个库通常包含一系列的类和函数,允许程序员编写符合特定模式...

    使用正则表达式抓取页面Email

    本篇我们将深入探讨如何利用正则表达式来抓取网页中的电子邮件地址。 电子邮件地址通常遵循一定的格式,如`username@example.com`,其中`username`是用户自定义的部分,`example`是域名,`.com`是顶级域名。为了...

    qt使用正则表达式限制lineEdit的输入,对正则表达式进行了封装,可以直接引入,工程编译正常

    在Qt框架中,正则表达式(Regular Expression)是一种强大的文本处理工具,它允许程序员以结构化的方式匹配、查找、替换或验证字符串。本项目针对Qt的lineEdit组件,通过正则表达式实现了输入限制功能,使得lineEdit...

    正则表达式必知必会v_1.0.pdf

    "正则表达式必知必会" 正则表达式是一种强大的文本处理工具,广泛应用于各个领域。下面是对正则表达式的详细解释: 正则表达式的用途 正则表达式主要用于处理文本,提供了两大主要功能:查找和替换。查找功能允许...

    正则表达式抓取网页数据制作小词典

    在本项目“正则表达式抓取网页数据制作小词典”中,我们将探讨如何利用正则表达式从网页中抓取数据,并将这些数据整理成一个小型的词典。 首先,理解正则表达式的语法是关键。它由各种特殊字符和普通字符组成,如...

    Java使用正则表达式提取XML节点内容的方法示例

    Java使用正则表达式提取XML节点内容的方法示例 Java使用正则表达式提取XML节点内容的方法示例主要介绍了Java使用正则表达式提取XML节点内容的方法,结合具体实例形式分析了java针对xml格式字符串的正则匹配相关操作...

    正则表达式的网页练习器

    "正则表达式的网页练习器"是一个实用的在线工具,它帮助用户快速学习和实践正则表达式,通过交互式的方式检验正则表达式的正确性,从而在10秒内解决简单的正则编写问题。 一、正则表达式基本概念 1. 元字符:如 . ^...

    C语言正则表达式库

    C语言正则表达式库是用于在C编程环境中处理和匹配正则表达式的软件库。这个库名为PCRE(Perl Compatible Regular Expressions),正如其名,它与Perl语言中的正则表达式语法高度兼容,提供了丰富的功能和强大的匹配...

    精通正则表达式(第3版)(含awz3 mobi epub)

    随着互联网的迅速发展,几乎所有工具软件和程序语言都支持的正则表达式也变得越来越强大和易于使用。本书是讲解正则表达式的经典之作。本书主要讲解了正则表达式的特性和流派、匹配原理、优化原则、实用诀窍以及调校...

    正则表达式验证工具,正则表达式校验工具

    正则表达式验证工具 V1.0 本软件主要用于检测正则表达式是否正确。 运行环境:本软件为绿色软件,无需安装,但需要Microsoft .NET Framework 4 支持,如果没有请前去下载(下载路径:...

    易语言正则表达式文本替换

    例如,"子程序_正则文本替换"可能就是一个易语言中用于执行正则表达式替换的子程序,它接收输入的文本、正则表达式模式和替换字符串,然后返回经过替换操作的新文本。 1. **正则表达式基础** - **元字符**:如`.`...

    Delphi2010正则表达式插件

    《Delphi 2010正则表达式插件详解》 在编程世界中,正则表达式(Regular Expression)是一种强大的文本处理工具,能够帮助开发者高效地进行字符串的匹配、查找、替换等操作。在Delphi 2010这个经典的集成开发环境中...

    正则表达式自动生成器 V2.0.0.1 官方多语版

    例如,你可以用正则表达式验证电子邮件地址的格式,或者从一大段文本中找出所有的电话号码。 这款V2.0.0.1版本的正则表达式自动生成器提供了一些关键功能,包括: 1. **向导式界面**:对于不熟悉正则语法的用户,...

Global site tag (gtag.js) - Google Analytics