import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* 正则表达式抓取网页的所有邮箱链接
* @author chase
*
*/
public class EmailSpider {
public static void main(String args[]) {
try {
BufferedReader br = new BufferedReader(new FileReader("E:\\test\\*.html"));
String line = "";
while ((line = br.readLine()) != null) {
parse(line);
}
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
/** 用正则表达式判断并显示email 地址 */
public static void parse(String line) {
Pattern p = Pattern.compile("[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+");
Matcher m = p.matcher(line);
while (m.find()) {
System.out.println(m.group());
}
}
}
分享到:
相关推荐
例如,通过构建复杂的正则表达式来解析HTML文档,从中抽取特定的链接地址或文本内容;利用正则表达式来进行邮件地址的有效性检查等。 #### 七、总结 《精通正则表达式(第三版)简体中文版》是一本全面介绍正则...
1. **数据验证**:在表单验证中,使用正则表达式检查邮箱、电话号码、日期格式等。 2. **文本处理**:从大量文本中提取特定信息,如网页爬虫抓取链接、解析HTML标签等。 3. **替换操作**:批量替换文本,如去除空白...
- **爬虫**:在网页抓取过程中,正则表达式用于提取所需的信息,如链接、标题或文章内容。 - **数据清洗**:处理杂乱无章的数据,去除不必要的字符或格式化文本。 - **自动化脚本**:在批处理脚本中,正则表达式可以...
1. 输入验证:在网页表单中,可以使用正则表达式验证用户输入,如邮箱格式验证:`\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b`。 2. 数据提取:通过正则表达式可以从大量文本中提取特定信息,例如从HTML...
正则表达式,简称为正则,是一种强大的文本处理工具,用于匹配、查找、替换等操作。它在编程、数据分析、网页抓取等领域有着广泛的应用。这篇个人总结将深入探讨正则表达式的核心概念、语法元素以及实际应用。 1. *...
2. **数据提取**:从长文本或日志文件中提取特定信息,例如从网页源代码中抓取链接。 3. **搜索与替换**:在文本编辑器或编程语言中,批量替换符合模式的文本。 4. **URL路由**:在Web开发中,正则表达式常用于构建...
3. **数据提取(Data Extraction)**:从大段文本或日志中提取关键信息,如抓取网页上的链接、日期等。 4. **文件名或路径匹配(Filename or Path Matching)**:在文件系统操作中,正则表达式可以方便地匹配和筛选...
2. **数据提取**:在网页抓取或数据分析中,正则表达式可以用来从大量文本中提取特定信息。 3. **输入验证**:在网络表单中,使用正则表达式验证用户输入的数据格式,如密码强度、邮箱格式等。 四、学习资源 要...
学习和掌握正则表达式,尤其是处理超链接的正则,可以帮助你更好地处理网络数据,实现诸如网页抓取、链接验证、内容过滤等功能。理解正则表达式的元字符、量词、分组、预查等概念,将使你在处理文本数据时游刃有余。...
- **应用场景**: 在网页爬虫等应用中确保抓取的链接是有效的。 - **示例**: `http://www.example.com` ##### 8. 验证用户名 **正则表达式**: `^[a-zA-Z][a-zA-Z0-9_]{4,15}$` - **功能**: 验证用户名是否符合规定...
根据给定文件的信息,我们可以总结出一系列常用的正则表达式及其应用场景。正则表达式是一种强大的文本处理工具,被广泛应用于各种编程语言中,用于字符串的搜索、替换、验证等操作。 ### 1. 匹配中文字符 **正则...
在网页设计中,正则表达式(Regular Expression)是一种强大的文本处理工具,它能用于验证、提取、替换或分析字符串中的模式。对于Java开发者来说,掌握正则表达式是进行高效网页设计的关键技能之一。本资源包含了一...
- 数据提取:在网页抓取或日志分析时,利用正则表达式提取关键信息。 - 替换操作:在文本编辑器或编程语言中,通过正则表达式进行批量替换。 - 分割字符串:在处理字符串时,可利用正则表达式进行智能分割。 4. ...
在IT行业中,正则表达式(Regular Expression)是一种强大的文本处理工具,用于匹配、查找、替换等操作。在本案例中,我们关注的是如何使用C#编程语言来编写正则表达式,从HTML文档中提取所有的电子邮件地址。下面将...
1. 表单验证:在网页表单提交时,使用正则表达式检查用户输入的数据格式,如邮箱、电话号码等。 2. 数据提取:从大量文本中提取特定格式的信息,如爬虫技术中抓取网页链接、日期等。 3. 日志分析:通过正则表达式...
- **用途**:网页爬虫或数据抓取时提取有效的URL链接。 #### 八、匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):`^[a-zA-Z][a-zA-Z0-9_]{4,15}$` - **应用场景**:用于验证用户账号的有效性。...
2. **根据URL匹配HTML内容**:对于网页数据的处理,工具能直接使用正则表达式解析HTML源代码,提取所需信息,这在网页抓取和数据分析时非常有用。 3. **分组匹配**:通过括号(())进行分组,可以捕获多个匹配项,...
- 抓取网页中的所有链接。 #### 5. ID卡 **正则表达式**: `^\d{15}(\d{2}[A-Za-z0-9])?$` **解释**: - `^\d{15}`: 开头处必须是15位数字。 - `(\d{2}[A-Za-z0-9])?`: 最后可以跟着两位数字和一个字母或数字,这...
- **应用场景**: 在网页抓取、链接验证等场景下使用。 #### 10. 用户名验证 - **表达式**: `^[a-zA-Z][a-zA-Z0-9_]{4,15}$` - **描述**: 验证用户名格式,以字母开头,长度在5到16之间,只包含字母、数字和下划线。...
1. 表单验证:使用正则表达式检查用户输入的邮箱格式、电话号码格式等,确保数据的有效性。 2. 数据提取:从HTML或JSON文本中提取特定信息,如抓取网页中的链接、解析JSON中的特定字段。 3. 文本处理:批量替换...