`

java抓取网页的邮件地址

阅读更多
package pack.java.url;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class GetEmailDemo {

	/**
	 * 测试方法;
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		GetEmailDemo emailDemo = new GetEmailDemo();
		String error = emailDemo.getWebContent("http://www.tianya.cn/publicforum/content/no04/1/1456104.shtml");
		System.out.println(error);
		System.out.println("邮件地址查找完成...");
	}
	
	/**
	 * 获得网页中的源代码; 逐行解析;
	 * @param path
	 * @return
	 */
	private String getWebContent(String path){
		BufferedReader bufferedReader = null;
		StringBuffer sb = new StringBuffer();
		if(path!=null && !"".equals(path)){
			try {
				URL url = new URL(path);
				bufferedReader = new BufferedReader(new InputStreamReader(url.openStream()));
				String line = null;
				System.out.println("开始分析邮件地址...");
				while ((line = bufferedReader.readLine())!=null) {
					//分析是否有email地址;
					parse(line);
				}
			} catch (MalformedURLException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
				sb.append(e.toString());
			} catch (IOException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
				sb.append(e.toString());
			}finally{
				try {
					bufferedReader.close();
				} catch (IOException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
					sb.append(e.toString());
				}
			}
		}
		return sb.toString();
	}
	
	/**
	 * 分析数据;
	 * @param line
	 */
	private void parse(String line){
		if(line!=null && line.length()>0){
			 //邮箱正则表达式;
			String regexExpression = "[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+";
			Pattern pattern = Pattern.compile(regexExpression);
			Matcher matcher = pattern.matcher(line);
			while (matcher.find()) {
				System.out.println(matcher.group());
			}
		}
	}
}

 

分享到:
评论

相关推荐

    JAVA获取网页有效邮箱地址

    ### JAVA获取网页有效邮箱地址 #### 知识点解析 本篇文章主要介绍了一种通过Java程序来抓取网页上的有效邮箱地址的方法。该程序能够接收一个网页URL作为输入,然后解析网页源代码并从中提取出所有符合标准格式的...

    抓取网页中的邮箱地址

    以上就是使用Java和正则表达式抓取网页中邮箱地址的基本流程。在实际应用中,你可能需要处理各种异常,如网络错误、编码问题等,并且考虑如何优化性能,比如使用多线程或异步处理。同时,要注意遵守网站的robots.txt...

    java获取邮箱联系人库文件

    例如,查找特定的表格(table)、列表(ul或ol)或者其他容器元素,然后遍历其子元素获取联系人的姓名、邮箱地址等信息。 描述中提到了`httpwatch`工具,这是一个强大的HTTP性能分析器,可以帮助开发者在开发过程中...

    Java编写爬虫获取指定网页拿到邮箱号码

    在这个案例中,我们的目标是抓取网页中的邮箱地址,所以我们需要能够识别和提取HTML中符合邮箱格式的数据。 在Java中,我们可以使用Jsoup库来处理HTML解析。Jsoup是一个强大的库,它提供了简洁的API来解析HTML,并...

    java将网页保存成mht格式程序

    - **HTTP请求**:使用`java.net.URL`和`URLConnection`类来发起HTTP请求并获取网页的HTML内容。 - **资源定位**:通过解析HTML文档,使用`org.htmlparser`库或其他HTML解析库来提取页面中的资源链接,如图片、样式...

    java在网页上面抓取邮件地址的方法

    Java在网页上抓取邮件地址是一项常见的任务,特别是在数据分析、市场营销或者信息收集等场景中。这一过程涉及到网络请求、HTML解析以及正则表达式的运用。下面将详细解释这个方法的实现步骤。 首先,我们需要导入...

    Java抓取URL/Email实例源码

    Java作为一门广泛应用的编程语言,提供了丰富的库和工具来实现网页数据抓取,特别是URL和电子邮件(Email)的提取。本实例源码是关于如何使用Java进行URL和Email抓取的实践案例。 首先,我们需要理解基本的网页抓取...

    网页爬虫工具能够抓取网页信息的软件

    它可以用来定义要搜索的文本模式,比如邮箱地址、电话号码或是特定的文章标题。通过设定合适的正则表达式,PClawer可以准确地抓取到用户感兴趣的网页元素,而不仅仅是整个页面的HTML源代码。 在提供的【压缩包子...

    抓取电子邮件的Java代码

    这是我自己写的抓取网页上电子邮件地址的Java代码。 界面使用Swing。主要用到的: *1.GUI * 2.事件相应 * 3.正则表达式 * 4.输入输出流 * 5.设计思想:大管家式的。其他类必须持有大管家的引用 不好意思,前天改...

    java代码抓取网页邮箱的实现方法

    在Java编程中,抓取网页内容,特别是电子邮件地址,是一种常见的任务,这通常涉及到网络请求、数据解析以及正则表达式。以下是一个详细的步骤来解释如何实现这个功能: 1. **创建URL对象**:首先,我们需要创建一个...

    java使用正则抓取网页邮箱

    在这个场景中,我们使用Java的正则表达式功能来抓取网页上的邮箱地址。下面将详细解释这个过程以及涉及到的关键知识点。 首先,我们需要创建一个`URL`对象,它代表了要抓取网页的网络地址。在示例代码中,URL被初始...

    用java打开一个网页

    在Java中,我们通常使用`java.awt.Desktop`类来实现这个功能,该类提供了与本地桌面环境交互的能力,包括浏览网页、编辑文件、发送邮件等。下面将详细解释如何使用`Desktop`类来打开网页。 首先,确保引入了`java....

    java电子邮件系统

    3. 邮件接收:定期检查POP3或IMAP4邮箱,获取新邮件并存储在本地数据库。 4. 邮件显示:从数据库中检索邮件,通过JSP页面展示给用户。 5. 邮件管理:允许用户对邮件进行删除、移动、回复等操作。 6. 错误处理和异常...

    JAVA发送邮件代码

    message.setSubject("Java发送的Web网页邮件"); // 创建MimeBodyPart对象,用于存放HTML内容 MimeBodyPart htmlPart = new MimeBodyPart(); htmlPart.setContent("您好!这是来自Web的链接:点击此处查看网页</a></...

    JAVA+WEB邮件系统源码源码整理

    【JAVA+WEB邮件系统源码解析】 在Java和Web开发领域,构建一个邮件系统是一项常见的任务,它允许用户发送和接收电子邮件。这个“JAVA+WEB邮件系统源码”提供了宝贵的资源,帮助开发者深入理解如何利用Java技术实现...

    网页抓取 正则表达式 前台处理json对象

    综上所述,这个项目可能涉及到使用网页抓取技术获取网页数据,然后利用正则表达式清洗和解析数据。在前端部分,可能通过AJAX请求获取后端服务的JSON数据,并在页面上进行实时更新和展示。如果涉及到跨域问题,可能...

    使用Jsoup抓取网页关键信息并入库 ip天气查询并发送邮件

    在IT领域,网络爬虫是获取网页数据的重要手段,而Jsoup是一款强大的Java库,专门用于处理HTML文档,便于我们高效地抓取和解析网页内容。本项目将讲解如何使用Jsoup来抓取网页的关键信息,并将其存储到数据库中,同时...

    java web网页的多窗口打开选项卡形式

    在Java Web开发中,实现网页的多窗口打开选项卡形式是一项常见的需求,它能提供用户友好的界面体验,使得用户可以在同一浏览器窗口下方便地切换和管理多个网页或应用页面。这种功能通常在现代Web应用中被广泛采用,...

    基于Java的邮件服务器的设计与实现

    ### 基于Java的邮件服务器的设计与实现 #### 引言 随着互联网技术的发展,邮件作为信息交流的重要工具,在日常生活中扮演着不可或缺的角色。为了提高邮件系统的性能、可维护性和扩展性,本文提出了一种基于Java...

    java源码包---java 源码 大量 实例

    Java编写的网页版魔方游戏 内容索引:JAVA源码,游戏娱乐,魔方,网页游戏  Java编写的网页版魔方游戏,编译后生成.class文件,然后用HTML去调用,不过运行时候需要你的浏览器安装有运行Class的插件。Java源代码实现...

Global site tag (gtag.js) - Google Analytics