当我们做广告的时候,有的时候需要给很多匿名用户发Email来实现我们的广告信息,这个时候我们就需要从网页中抓取到页面中的email地址,然后保存到数据库,然后才能逐一给用户发送邮件(平时我们所收到的大量的广告垃圾文件有的就是使用抓取技术)
闲话少说看代码:
package com.gd;
import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
*
* @author Sandy
*
*/
public class EmailSpider {
/**
* @param args
* @throws FileNotFoundException
*/
public static void main(String[] args) {
BufferedReader br;
try {
br = new BufferedReader(new FileReader(System
.getProperty("user.home")
+ "/spideremail.htm"));
String line = "";
try {
while ((line = br.readLine()) != null) {
parse(line);
}
} catch (IOException e) {
e.printStackTrace();
} finally {
if (br != null) {
try {
br.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
} catch (FileNotFoundException e) {
e.printStackTrace();
}
}
// 解析读出来的每一行的信息,然后对其逐行解析,把符合条件的email输出出来
private static void parse(String line) {
Pattern p = Pattern.compile("[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+");
Matcher matcher = p.matcher(line);
while (matcher.find()) {
System.out.println(matcher.group());
}
}
}
要想简单起见可以把异常信息直接throws
附件儿中是测试抓取email的测试文件
分享到:
相关推荐
在“Google”这个压缩包文件中,虽然没有具体的文件列表,但我们可以假设其中可能包含了一些关于如何使用正则表达式抓取Google搜索结果的教程或示例代码。通过学习这些资源,你可以进一步提升在网页抓取方面的能力,...
为了获取实际的HTML内容,可以使用HTTP客户端库如`HttpClient`来从给定的博客链接(http://blog.csdn.net/zxcvbnm32123?viewmode=list)抓取页面源码。不过,这个例子中的压缩包文件"12提取html中的所有的Email地址...
email_phone_scraper 电子邮件和电话刮板与python bs4,请求,正则表达式这涉及下载文本的请求,以查找其他页面链接(因此,该演示版又深入了一页,但以“与我们联系”为目标) 写入json,使用缩进将json打印到终端...
这个主题涉及网络数据抓取、正则表达式、Perl编程语言等方面的知识点。 首先,"NIH"通常在技术圈中是"Not Invented Here"(非此处发明)的缩写,可能意味着这个抓取工具是作者自创的,而不是使用已有的开源库或工具...
网页Email提取Asp程序源码是一种用于从网页内容中抓取和提取电子邮件地址的Web应用程序。这个程序的核心功能是利用ASP(Active Server Pages)技术,分析HTML文档,识别并收集其中的电子邮件地址。在互联网营销、...
【小程序-提取页面Email】是一种实用的自动化工具,主要用于从网页中批量提取电子邮件地址。这个小工具由开发者自编,其主要功能是通过输入一个URL(种子链接)作为起点,程序会递归地访问该链接下的所有页面,查找...
还可以使用更复杂的正则表达式或预训练的邮箱识别模型提高识别准确性。 6. **使用第三方库**: 除了自己编写代码,还有一些现成的库可以帮助我们,如`scrapy`(一个强大的爬虫框架)和`email-extractor`(专门用于...
4. **电子邮件地址提取**:使用正则表达式从每行数据中提取电子邮件地址。 5. **统计与输出**:记录提取到的每个电子邮件地址出现的次数,并打印结果。 ## 代码解析 ### URL构建与连接建立 ```java public void ...
总结来说,使用C语言编写网络蜘蛛搜索电子邮件地址涉及以下关键知识点:网络编程(HTTP协议),HTML解析,正则表达式匹配,爬虫算法(DFS或BFS),URL管理,网络错误处理,以及多线程/多进程编程。掌握这些技能,...
在github上集成测试覆盖率徽章-从结果网址中选择带有正则表达式的Facebook网址-转到有关页面的facebook-使用正则表达式选择电子邮件-使用以下结构写到输出文件company_name:email company_name_2:email_2 限制。...
2. **正则表达式匹配**:在抓取到的文本中,SLAYER Leecher可能使用正则表达式来识别电子邮件地址和密码的模式。正则表达式是一种强大的文本模式匹配工具,能够准确地找到符合特定规则的字符串。 3. **数据过滤与...
2. 数据解析:通过PHP的DOM解析器(如`DOMDocument`和`DOMXPath`)或正则表达式,从HTML源码中提取出QQ号码。这通常涉及到定位到特定的HTML元素,如用户列表项或者特定的CSS类名或ID。 3. 生成EMAIL地址:一旦获取...
2. **HTML解析**:获取到网页内容后,需要解析HTML,找出需要的数据,可以使用DOM或正则表达式进行处理。 3. **URL管理**:存储已访问和待访问的URL,避免重复抓取和陷入无限循环。 4. **多线程**:为了提高效率,...
通常,邮箱地址会出现在HTML的`<a>`标签、`<span>`标签或其他文本元素中,使用正则表达式可以有效地匹配这些地址。 - 需要注意的是,Google对频繁的自动查询有反爬策略,因此可能需要设置合适的延迟以避免被封禁。...
1.3 数据提取:使用正则表达式、BeautifulSoup、PyQuery、Scrapy等工具,从HTML中提取出所需信息。 1.4 存储数据:提取到的数据可以存储在本地文件、数据库或者云存储中。 1.5 避免重复:通过URL去重、数据库记录...
在上述代码中,我们定义了一个正则表达式来匹配邮箱地址,并使用`Pattern`和`Matcher`进行匹配。当找到匹配项时,将其打印出来。请注意,这只是一个基础的爬虫示例,实际的网页可能需要更复杂的逻辑来处理JavaScript...
接下来,我们要学习正则表达式(`re`模块),它能帮助我们根据特定模式匹配和提取文本。例如,查找所有邮箱地址: ```python import re email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b' ...
在 PHP 中,可以使用 preg_match 函数和正则表达式来验证电子邮件的格式。 ```php if (isset($_POST['action']) && $_POST['action'] == 'submitted') { $email = $_POST['email']; if (!preg_match("/^(?:w+.?)*...
此外,我们还需要用到`urllib2`来获取网页源码,以及使用正则表达式对时间格式进行匹配等。 #### 三、关键代码解析 1. **导入必要的库**: - `from bs4 import BeautifulSoup`:用于解析HTML文档。 - `import ...