import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import javax.net.ssl.SSLEngineResult.Status;
/**
* 从网页抓取email地址
* @author wjl
*
*/
public class EmailSpider {
static long count =0;
public static void main(String[] args) {
try {
BufferedReader br = new BufferedReader(new FileReader("D:\\email.htm"));
String line = "";
while((line = br.readLine())!=null){
parse(line);
}
System.out.println(count+"个邮箱");
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e){
}
}
private static void parse (String line){
Pattern p = Pattern.compile("[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+");
Matcher m = p.matcher(line);
while(m.find()){
count ++;
System.out.println(m.group());
}
}
}
分享到:
相关推荐
总之,通过正则表达式,我们可以高效地从网页中抽取有用信息,如URL和E-mail地址。理解并熟练掌握正则表达式,对于任何涉及文本处理的IT工作都是非常有价值的技能。在实践中,不断调整和完善正则表达式以适应具体...
【小程序-提取页面Email】是一种实用的自动化工具,主要用于从网页中批量提取电子邮件地址。这个小工具由开发者自编,其主要功能是通过输入一个URL(种子链接)作为起点,程序会递归地访问该链接下的所有页面,查找...
它支持自动处理HTML,可以方便地解析和抽取网页内容。 2. **爬虫**:网络爬虫是一种自动化程序,遍历互联网上的网页,收集所需信息。在这个项目中,爬虫用于抓取电子邮件地址。 3. **downlo**:可能是“download”的...
2. **数据提取**:从文本中抽取特定格式的数据,如从网页源代码中提取URL链接。 3. **字符串替换**:批量替换文本中的某些模式,例如将所有的逗号替换为句号。 4. **搜索与高亮**:在文本编辑器中实现搜索功能,或者...
欢迎推荐你知道的开源网络爬虫,网页抽取框架. 开源网络爬虫QQ交流群:322937592 email address: liinux at qq.com Python - 一种高效的屏幕,网页数据采集框架。 - 基于Scrapy内核由django Web框架开发的爬虫。 - ...
实例132 随机抽取数组中元素 161 实例133 二维数组的输出 162 实例134 获取数组当前的键名和值 162 实例135 检测数组中是否存在某个值 163 实例136 获取数组中的当前单元 164 实例137 从数组中随机取出元素 165 实例...
用于验证和解析网址,确保其格式正确,同时也可以从中抽取特定部分的信息,如域名或路径。 ### 去除重复字符 虽然提供的示例程序存在错误,但展示了如何使用正则表达式结合后向引用和字符集来去除字符串中的重复...
`substring`可以结合`indexOf`使用,以从复杂的字符串中抽取特定的部分,如从URL中提取域名: ```javascript var the_url = "http://www.webmonkey.com/javascript/index.html"; var lead_slashes = the_url.index...
实例132 随机抽取数组中元素 161 实例133 二维数组的输出 162 实例134 获取数组当前的键名和值 162 实例135 检测数组中是否存在某个值 163 实例136 获取数组中的当前单元 164 实例137 从数组中随机取出元素 165 实例...
实例132 随机抽取数组中元素 161 实例133 二维数组的输出 162 实例134 获取数组当前的键名和值 162 实例135 检测数组中是否存在某个值 163 实例136 获取数组中的当前单元 164 实例137 从数组中随机取出元素 165 实例...
以上列举的是从给定的案例中抽取的部分示例,每个案例都展示了 jQuery 的强大功能及其在实际开发中的应用。通过学习这些案例,开发者可以更好地理解和运用 jQuery 的核心特性,从而提升网页的交互性和用户体验。
1.20 在网页中动态添加Script脚本 1.21 用JavaScript随机修改页面的标题 1.22 判断网页加载完毕 1.23 嵌入网页的播放器 1.24 设置指定网页为主页 1.25 使用JavaScript传递页面参数 1.26 页面被冻结 第 2章 按钮特效 ...
1.20 在网页中动态添加Script脚本 1.21 用JavaScript随机修改页面的标题 1.22 判断网页加载完毕 1.23 嵌入网页的播放器 1.24 设置指定网页为主页 1.25 使用JavaScript传递页面参数 1.26 页面被冻结 第 2章 按钮特效 ...
- 从网页源代码中抽取所有链接。 - 验证用户输入的URL地址是否正确。 #### 四、其他实用正则表达式 1. **去除重复字符**: ```javascript var s = "abacabefgeeii"; var s1 = s.replace(/(.).*\1/g, "$1"); ...
在前端开发中,JavaScript 是一种不可或缺的编程语言,它用于创建交互式的网页和应用程序。"js代码-前端的公共方法"这个主题聚焦于JavaScript中通用的、可复用的函数和模块,这些方法通常被组织成一个库或者框架,以...
假设需要从网页中提取所有的电子邮件地址,可以使用以下正则表达式: ```java String regex = "[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,4}"; Pattern pattern = Pattern.compile(regex); Matcher matcher = ...
10. 从URL地址中提取文件名:正则表达式(.*\/){0,}([^\.]+).*可以用来从URL中提取文件名,这在处理网页下载链接时非常有用。 11. 利用正则表达式限制表单输入:通过正则表达式可以限制用户在网页表单中输入特定类型...
* 独立的应用和开发平台,支持业界主流的操作系统、数据库、网页服务器、浏览器、手持设备等。 * 多渠道的交互方式,集成预置与电话、Email、短信、移动手持设备、IM 等多渠道用户交互机制。 * 强大的数据挖掘和分析...