提取页面、文件中的链接 - - ITeye博客

`

javapx

浏览: 6995 次
性别:
来自: 北京

最近访客更多访客>>

413363222

woodding2008

fawasdas

qdzeac

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

提取页面、文件中的链接

博客分类：

页面元素的提取

页面元素的摄取

阅读更多


import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class PatternTest {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		String path="d:/test.txt";
		PatternTest t = new PatternTest();
		String regexhref = "<(?i)img.*?>";
		String content = t.redFIle(path);
		String sss= t.replaceHref(content,regexhref);
		
	}
	
	
	public  String redFIle(String path) {
		FileInputStream fin;
		StringBuffer sb = new StringBuffer();
		try {
			fin = new FileInputStream(path);
			InputStreamReader rdr = new InputStreamReader(fin, "utf-8");
			BufferedReader br = new BufferedReader(rdr);// 文件读字符流
			String s;
			while ((s = br.readLine()) != null) {
				 sb.append(s);
			}
			br.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
		return sb.toString();
		
	}
	
	
	 public String replaceHref(String hBody, String regex) {
			String url="";
			String includ = "";
			Pattern pt = Pattern.compile(regex,Pattern.DOTALL);
			Matcher mt = pt.matcher(hBody);
			while (mt.find()) {
				includ = mt.group();
				System.out.println(includ); //打印img标签
				String srcregex = "src=(\".*?\")|src=(\'.*?\')|src=(.*?\\s)|src=(.*?>)";
				url = getContents(includ, srcregex).trim();
				//System.out.println(url);//打印src中的内容
			}
			return url;
		}
		
		
		
//提取href中的内容
	 private String getContents(String contents,String regx){
		 
		 String url="";
		 Pattern srcpt=Pattern.compile(regx);
		 Matcher srcmt=srcpt.matcher(contents);
		 
		 while(srcmt.find()){	 
			 url= srcmt.group().replaceAll("src=\"|\"|src=\'|\'|src=|>", "");
		 }
		 return url;
	 }
	 
	 
	
	}

分享到：

HashMap,LinkedHashMap,TreeMap的区别

2013-10-15 10:52
浏览 466
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

提取文件中百度云链接与提取码的java源码: 在Java中，我们可以使用`Jsoup`库来解析HTML页面，寻找包含链接和提取码的信息。`Jsoup`是一个强大的库，用于抓取和解析HTML，提供了类似于jQuery的API，使得操作网页元素变得简单。下面是一个基本的步骤概述： 1...

易语言源码提取文件中的超级链接.rar: 在“易语言源码提取文件中的超级链接.rar”这个压缩包中，包含的是使用易语言编写的一个程序，该程序的功能是能够从文件中提取出超级链接。超级链接是互联网中一个非常基础且重要的概念，它允许用户通过点击文本或...

提取swf文件中音频: 标题 "提取swf文件中音频" 涉及的核心知识点主要集中在SWF文件格式和音频提取技术上。SWF（Small Web Format）是由Adobe公司开发的用于网络上展示多媒体内容的文件格式，常用于在线动画、游戏和交互式应用程序。SWF...

易语言源码提取文件中的超级链接.7z: 本篇将详细探讨如何使用易语言来实现从文件中提取超级链接这一技术。首先，我们需要理解超级链接的基本概念。超级链接（Hyperlink）是互联网上网页之间相互链接的一种方式，通常表现为文本或图像，点击后可以跳转...

从html中分析提取链接(url) (5KB)...: 它包含了各种标签来定义页面结构和内容，并且通常包含许多链接，这些链接指向其他网页、资源或者文件。提取HTML中的链接（URLs）是一项常见的任务，特别是在网络爬虫、数据分析以及网页抓取等应用中。这个5KB的...

网页链接提取精灵: 在提取网站链接时，应尊重网站的robots.txt文件，避免抓取被禁止抓取的页面，并且遵循相关法律法规，防止侵犯用户隐私或触犯数据保护法规。综上所述，“网页链接提取精灵”是一款能够帮助用户快速、方便地获取网站...

115网盘链接提取工具: 115网盘链接提取工具是一款专为用户设计的实用软件，主要用于从115网盘分享的链接中提取文件的实际下载地址。115网盘是中国早期的云存储服务提供商，用户可以通过它上传、存储并分享各类文件。然而，115网盘的分享...

提取网页中SWF: 标题“提取网页中SWF”指的是从网页内容中获取SWF（ShockWave Flash）文件的过程。SWF是一种用于网络上展示多媒体内容的文件格式，常见于在线游戏、动画和交互式应用程序。在网页中，SWF文件通常嵌入在HTML代码中，...

获取HTML文件中的所有链接: 6. **网络爬虫**：在大型项目中，如网络爬虫，获取HTML链接可能涉及到多页面遍历。Scrapy（Python）和Puppeteer（JavaScript）这样的框架可以帮助实现自动化的爬取和链接提取。 7. **安全性与合法性**：在实际操作...

pdf文件提取图片使用工具: 本文将详细介绍如何利用工具高效且完整地从PDF文件中提取图片。首先，PDF文件是一种便携式文档格式，由Adobe公司开发，用于跨平台分享和打印文档。它的结构复杂，可以包含文本、图像、链接等多种元素。由于PDF文件...

在线提取网页中的视频文件地址: ### 在线提取网页中的视频文件地址 #### 一、引言随着互联网技术的发展，越来越多的人选择在网络上观看视频。然而，对于一些用户来说，能够将这些视频下载到本地进行保存和离线观看变得尤为重要。本文将详细介绍...

网页资源提取器: 提取器会识别这些标签，抓取对应的链接，然后下载视频或音频文件。对于Flash或其他插件支持的媒体，可能需要额外的解析方法。 4. **HTML解析**：资源提取器的核心是HTML解析器，它能理解HTML代码结构，定位到多媒体...

提取 sitemap 中的链接，利用百度、必应、谷歌 API 自动推送至搜索引擎，提升网站收录速度: 接下来，我们要提取 sitemap 文件中的链接。这通常可以通过编程方式实现，例如使用 Python 的 `xml.etree.ElementTree` 库解析 XML 文件，遍历其中的 `<url>` 元素，获取 `<loc>` 标签内的 URL 链接。这样，我们就能...

提取网页中所有链接的功能: 在IT行业中，提取网页中所有链接的功能是一项基础且重要的任务，尤其对于网络爬虫开发者而言。这项技术使得我们可以从互联网的海量数据中抓取信息，为数据分析、搜索引擎优化（SEO）、内容监控等应用提供支持。以下...

PHP 页面提取关键字和查找页面的所有链接: 本文将深入探讨如何使用PHP来提取网页的关键字（Keywords）以及查找页面上的所有链接（Links）。这在SEO（搜索引擎优化）、网站分析、爬虫程序和内容管理等方面具有重要的应用价值。首先，提取网页关键字通常是...

一键提取页面信箱，在线批量获取网页中邮件地址: "一键提取页面信箱，在线批量获取网页中邮件地址"的技术是通过特定的程序或工具实现的，旨在自动化地从网页内容中识别并收集邮箱地址。本文将详细介绍这一主题，包括其工作原理、应用方法以及相关的asp源码。首先...

从搜索引擎或者具体网页上提取链接: 比如提取留言本就可以设定 wbook.asp、gb_sign.asp、upfile.asp、feedback.asp 这些常用的留言本文件名称也可以留空，表示所有的网址都要链接排除词汇：如果你不希望提取的网址含有某个词汇就写上这个...

小程序-提取页面Email: 【小程序-提取页面Email】是一种实用的自动化工具，主要用于从网页中批量提取电子邮件地址。这个小工具由开发者自编，其主要功能是通过输入一个URL（种子链接）作为起点，程序会递归地访问该链接下的所有页面，查找...

PDF文件文本内容提取的设计与实现: 为了克服这一局限性，本文设计并实现了一种PDF文件文本内容提取工具，旨在从PDF文件中准确高效地提取文本信息，并便于后续的文本分析或索引。 #### 二、PDF文件结构 PDF文件的物理结构主要包括以下几个部分： 1. ...

web页面资源提取器 cYY: 【CYY网页资源提取器】是一款实用工具，主要用于从网页中高效地提取各种资源，如图片、MP3音频文件以及CSS样式表等。这款软件能够帮助用户快速收集和下载网络上的多媒体内容，对于网页开发者、设计师或者需要大量...

Global site tag (gtag.js) - Google Analytics