`
muyishuihan
  • 浏览: 2564 次
  • 性别: Icon_minigender_1
  • 来自: 成都
最近访客 更多访客>>
社区版块
存档分类
最新评论

抽取网页中的email

 
阅读更多
import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import javax.net.ssl.SSLEngineResult.Status;

/**
* 从网页抓取email地址
* @author wjl
*
*/
public class EmailSpider {

static long count =0;
public static void main(String[] args) {
try {
BufferedReader br = new BufferedReader(new FileReader("D:\\email.htm"));
String line = "";
while((line = br.readLine())!=null){
parse(line);
}
System.out.println(count+"个邮箱");
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e){

}

}

private static  void parse (String line){
Pattern p = Pattern.compile("[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+");
Matcher m = p.matcher(line);
while(m.find()){
count ++;
System.out.println(m.group());
}
}

}
分享到:
评论

相关推荐

    aaa.rar_提取网页_正则_正则表达式_网页_邮件提取

    总之,通过正则表达式,我们可以高效地从网页中抽取有用信息,如URL和E-mail地址。理解并熟练掌握正则表达式,对于任何涉及文本处理的IT工作都是非常有价值的技能。在实践中,不断调整和完善正则表达式以适应具体...

    小程序-提取页面Email

    【小程序-提取页面Email】是一种实用的自动化工具,主要用于从网页中批量提取电子邮件地址。这个小工具由开发者自编,其主要功能是通过输入一个URL(种子链接)作为起点,程序会递归地访问该链接下的所有页面,查找...

    webmagic爬取downloademail附源码

    它支持自动处理HTML,可以方便地解析和抽取网页内容。 2. **爬虫**:网络爬虫是一种自动化程序,遍历互联网上的网页,收集所需信息。在这个项目中,爬虫用于抓取电子邮件地址。 3. **downlo**:可能是“download”的...

    js中的正则表达式

    2. **数据提取**:从文本中抽取特定格式的数据,如从网页源代码中提取URL链接。 3. **字符串替换**:批量替换文本中的某些模式,例如将所有的逗号替换为句号。 4. **搜索与高亮**:在文本编辑器中实现搜索功能,或者...

    awesome-crawler-cn:互联网爬虫,蜘蛛,数据采集器,网页解析器的汇总,因新技术不断发展,新框架层出不穷,此文会不断更新..

    欢迎推荐你知道的开源网络爬虫,网页抽取框架. 开源网络爬虫QQ交流群:322937592 email address: liinux at qq.com Python - 一种高效的屏幕,网页数据采集框架。 - 基于Scrapy内核由django Web框架开发的爬虫。 - ...

    PHP开发实战1200例源码

    实例132 随机抽取数组中元素 161 实例133 二维数组的输出 162 实例134 获取数组当前的键名和值 162 实例135 检测数组中是否存在某个值 163 实例136 获取数组中的当前单元 164 实例137 从数组中随机取出元素 165 实例...

    《正则表达式大全(上)》(高清晰)pdf版

    用于验证和解析网址,确保其格式正确,同时也可以从中抽取特定部分的信息,如域名或路径。 ### 去除重复字符 虽然提供的示例程序存在错误,但展示了如何使用正则表达式结合后向引用和字符集来去除字符串中的重复...

    常用字符串处理函数-求子字符串,字符串分割,编码转换.

    `substring`可以结合`indexOf`使用,以从复杂的字符串中抽取特定的部分,如从URL中提取域名: ```javascript var the_url = "http://www.webmonkey.com/javascript/index.html"; var lead_slashes = the_url.index...

    PHP开发实战1200例(第1卷).(清华出版.潘凯华.刘中华).part1

    实例132 随机抽取数组中元素 161 实例133 二维数组的输出 162 实例134 获取数组当前的键名和值 162 实例135 检测数组中是否存在某个值 163 实例136 获取数组中的当前单元 164 实例137 从数组中随机取出元素 165 实例...

    PHP开发实战1200例(第1卷).(清华出版.潘凯华.刘中华).part2

    实例132 随机抽取数组中元素 161 实例133 二维数组的输出 162 实例134 获取数组当前的键名和值 162 实例135 检测数组中是否存在某个值 163 实例136 获取数组中的当前单元 164 实例137 从数组中随机取出元素 165 实例...

    50个实用的 JQUEYR案例

    以上列举的是从给定的案例中抽取的部分示例,每个案例都展示了 jQuery 的强大功能及其在实际开发中的应用。通过学习这些案例,开发者可以更好地理解和运用 jQuery 的核心特性,从而提升网页的交互性和用户体验。

    《程序天下:JavaScript实例自学手册》光盘源码

    1.20 在网页中动态添加Script脚本 1.21 用JavaScript随机修改页面的标题 1.22 判断网页加载完毕 1.23 嵌入网页的播放器 1.24 设置指定网页为主页 1.25 使用JavaScript传递页面参数 1.26 页面被冻结 第 2章 按钮特效 ...

    程序天下:JavaScript实例自学手册

    1.20 在网页中动态添加Script脚本 1.21 用JavaScript随机修改页面的标题 1.22 判断网页加载完毕 1.23 嵌入网页的播放器 1.24 设置指定网页为主页 1.25 使用JavaScript传递页面参数 1.26 页面被冻结 第 2章 按钮特效 ...

    经典,常用正则表达式

    - 从网页源代码中抽取所有链接。 - 验证用户输入的URL地址是否正确。 #### 四、其他实用正则表达式 1. **去除重复字符**: ```javascript var s = "abacabefgeeii"; var s1 = s.replace(/(.).*\1/g, "$1"); ...

    js代码-前端的公共方法

    在前端开发中,JavaScript 是一种不可或缺的编程语言,它用于创建交互式的网页和应用程序。"js代码-前端的公共方法"这个主题聚焦于JavaScript中通用的、可复用的函数和模块,这些方法通常被组织成一个库或者框架,以...

    java干货(有视频)

    假设需要从网页中提取所有的电子邮件地址,可以使用以下正则表达式: ```java String regex = "[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,4}"; Pattern pattern = Pattern.compile(regex); Matcher matcher = ...

    收集一些常用的正则表达式(匹配中文字符、匹配双字节字符、匹配HTML标记、匹配空行 and so on~~~)

    10. 从URL地址中提取文件名:正则表达式(.*\/){0,}([^\.]+).*可以用来从URL中提取文件名,这在处理网页下载链接时非常有用。 11. 利用正则表达式限制表单输入:通过正则表达式可以限制用户在网页表单中输入特定类型...

    OracleCRM(Siebel).pptx

    * 独立的应用和开发平台,支持业界主流的操作系统、数据库、网页服务器、浏览器、手持设备等。 * 多渠道的交互方式,集成预置与电话、Email、短信、移动手持设备、IM 等多渠道用户交互机制。 * 强大的数据挖掘和分析...

Global site tag (gtag.js) - Google Analytics