`
chasewade
  • 浏览: 14387 次
  • 性别: Icon_minigender_1
  • 来自: 湖南
最近访客 更多访客>>
社区版块
存档分类
最新评论

正则表达式抓取网页的所有邮箱链接

    博客分类:
  • J2se
阅读更多
import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
 * 正则表达式抓取网页的所有邮箱链接
 * @author chase
 *
 */
public class EmailSpider {

	public static void main(String args[]) {
		try {
			BufferedReader br = new BufferedReader(new FileReader("E:\\test\\*.html"));
			String line = "";
			while ((line = br.readLine()) != null) {
				parse(line);
			}
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
	
	/** 用正则表达式判断并显示email 地址 */
	public static void parse(String line) {
		Pattern p = Pattern.compile("[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+"); 
		Matcher m = p.matcher(line);
		while (m.find()) {
			System.out.println(m.group());
		}
	}
}

 

分享到:
评论

相关推荐

    精通正则表达式(第三版)简体中文版

    例如,通过构建复杂的正则表达式来解析HTML文档,从中抽取特定的链接地址或文本内容;利用正则表达式来进行邮件地址的有效性检查等。 #### 七、总结 《精通正则表达式(第三版)简体中文版》是一本全面介绍正则...

    源码(精通正则表达式&实战正则表达式)

    1. **数据验证**:在表单验证中,使用正则表达式检查邮箱、电话号码、日期格式等。 2. **文本处理**:从大量文本中提取特定信息,如网页爬虫抓取链接、解析HTML标签等。 3. **替换操作**:批量替换文本,如去除空白...

    正则表达式测试工具

    - **爬虫**:在网页抓取过程中,正则表达式用于提取所需的信息,如链接、标题或文章内容。 - **数据清洗**:处理杂乱无章的数据,去除不必要的字符或格式化文本。 - **自动化脚本**:在批处理脚本中,正则表达式可以...

    正则表达式手册

    1. 输入验证:在网页表单中,可以使用正则表达式验证用户输入,如邮箱格式验证:`\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b`。 2. 数据提取:通过正则表达式可以从大量文本中提取特定信息,例如从HTML...

    正则表达式_正则表达式_正则_

    正则表达式,简称为正则,是一种强大的文本处理工具,用于匹配、查找、替换等操作。它在编程、数据分析、网页抓取等领域有着广泛的应用。这篇个人总结将深入探讨正则表达式的核心概念、语法元素以及实际应用。 1. *...

    正则表达式chm版教程

    2. **数据提取**:从长文本或日志文件中提取特定信息,例如从网页源代码中抓取链接。 3. **搜索与替换**:在文本编辑器或编程语言中,批量替换符合模式的文本。 4. **URL路由**:在Web开发中,正则表达式常用于构建...

    30分钟学会正则表达式

    3. **数据提取(Data Extraction)**:从大段文本或日志中提取关键信息,如抓取网页上的链接、日期等。 4. **文件名或路径匹配(Filename or Path Matching)**:在文件系统操作中,正则表达式可以方便地匹配和筛选...

    正则表达式语法(30分钟入门)

    2. **数据提取**:在网页抓取或数据分析中,正则表达式可以用来从大量文本中提取特定信息。 3. **输入验证**:在网络表单中,使用正则表达式验证用户输入的数据格式,如密码强度、邮箱格式等。 四、学习资源 要...

    超链接正则表达式

    学习和掌握正则表达式,尤其是处理超链接的正则,可以帮助你更好地处理网络数据,实现诸如网页抓取、链接验证、内容过滤等功能。理解正则表达式的元字符、量词、分组、预查等概念,将使你在处理文本数据时游刃有余。...

    比较全面的正则表达式

    - **应用场景**: 在网页爬虫等应用中确保抓取的链接是有效的。 - **示例**: `http://www.example.com` ##### 8. 验证用户名 **正则表达式**: `^[a-zA-Z][a-zA-Z0-9_]{4,15}$` - **功能**: 验证用户名是否符合规定...

    常用的正则表达式.doc

    根据给定文件的信息,我们可以总结出一系列常用的正则表达式及其应用场景。正则表达式是一种强大的文本处理工具,被广泛应用于各种编程语言中,用于字符串的搜索、替换、验证等操作。 ### 1. 匹配中文字符 **正则...

    网页设计 正则表达式

    在网页设计中,正则表达式(Regular Expression)是一种强大的文本处理工具,它能用于验证、提取、替换或分析字符串中的模式。对于Java开发者来说,掌握正则表达式是进行高效网页设计的关键技能之一。本资源包含了一...

    正则表达式练习器HTML

    - 数据提取:在网页抓取或日志分析时,利用正则表达式提取关键信息。 - 替换操作:在文本编辑器或编程语言中,通过正则表达式进行批量替换。 - 分割字符串:在处理字符串时,可利用正则表达式进行智能分割。 4. ...

    正则表达式提取html中的所有的Email地址

    在IT行业中,正则表达式(Regular Expression)是一种强大的文本处理工具,用于匹配、查找、替换等操作。在本案例中,我们关注的是如何使用C#编程语言来编写正则表达式,从HTML文档中提取所有的电子邮件地址。下面将...

    正则表达式CHM教材

    1. 表单验证:在网页表单提交时,使用正则表达式检查用户输入的数据格式,如邮箱、电话号码等。 2. 数据提取:从大量文本中提取特定格式的信息,如爬虫技术中抓取网页链接、日期等。 3. 日志分析:通过正则表达式...

    一些常用的正则表达式

    - **用途**:网页爬虫或数据抓取时提取有效的URL链接。 #### 八、匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):`^[a-zA-Z][a-zA-Z0-9_]{4,15}$` - **应用场景**:用于验证用户账号的有效性。...

    正则表达式测试工具 regex

    2. **根据URL匹配HTML内容**:对于网页数据的处理,工具能直接使用正则表达式解析HTML源代码,提取所需信息,这在网页抓取和数据分析时非常有用。 3. **分组匹配**:通过括号(())进行分组,可以捕获多个匹配项,...

    常用的 正则表达式 Email,电话,手机,网址等

    - 抓取网页中的所有链接。 #### 5. ID卡 **正则表达式**: `^\d{15}(\d{2}[A-Za-z0-9])?$` **解释**: - `^\d{15}`: 开头处必须是15位数字。 - `(\d{2}[A-Za-z0-9])?`: 最后可以跟着两位数字和一个字母或数字,这...

    常用正则表达式整理收集

    - **应用场景**: 在网页抓取、链接验证等场景下使用。 #### 10. 用户名验证 - **表达式**: `^[a-zA-Z][a-zA-Z0-9_]{4,15}$` - **描述**: 验证用户名格式,以字母开头,长度在5到16之间,只包含字母、数字和下划线。...

    JavaScript对象之正则表达式共16页.pdf.zi

    1. 表单验证:使用正则表达式检查用户输入的邮箱格式、电话号码格式等,确保数据的有效性。 2. 数据提取:从HTML或JSON文本中提取特定信息,如抓取网页中的链接、解析JSON中的特定字段。 3. 文本处理:批量替换...

Global site tag (gtag.js) - Google Analytics