`
o_o_0
  • 浏览: 17526 次
  • 性别: Icon_minigender_1
  • 来自: 济南
文章分类
社区版块
存档分类
最新评论

使用HtmlParser 提取百度贴吧中的邮箱地址

 
阅读更多

下载地址



经测试,实际用时1秒左右







private static final Pattern p = Pattern.compile("\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*");
public static ArrayList<String> extractEmail(int id,int start,int end){
		ArrayList<String> list = new ArrayList<String>();
		try {
			for (int i = start; i <= end; i++) {

				Parser parser = new Parser("http://tieba.baidu.com/p/"+id+"?pn="+i);
			
				NodeFilter filter = new RegexFilter(
						"\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*");
				
				NodeList nodes = parser.extractAllNodesThatMatch(filter);
				
				if (nodes.size() > 0) {
					for (NodeIterator ni = nodes.elements(); ni.hasMoreNodes();) {
						Matcher m = p.matcher(ni.nextNode().toHtml());
						if (m.find()) {
							list.add(m.group());
						}
					}
				}
			}
			
		} catch (ParserException e) {
			
		}
		return list;
	}



	
分享到:
评论

相关推荐

    使用HtmlParser 提取百度贴吧中的图片

    使用HtmlParser 提取百度贴吧中的图片

    HtmlParser提取网页信息的设计与实现

    通过使用HtmlParser,我们可以高效地从网页中提取有用的信息,并对其进行清洗和存储。这对于自动化处理大量网页数据、实现信息检索和数据分析等方面都具有重要的意义。未来还可以进一步探索如何利用这些提取的信息来...

    HTMLParser提取网页超链接研究

    在本研究中,我们将重点探讨如何使用HTMLParser来提取网页中的超链接。 **2.2 开发环境的搭建** 为了使用HTMLParser进行网页超链接的提取,首先需要搭建合适的开发环境。本研究中选择的开发环境包括: - **...

    HTMLParser提取网页内容

    可以使用HTMLParser库提供的API来遍历DOM树,查找这些元素并获取其文本内容。 例如,对于标题提取,可以遍历HTML中的所有`&lt;h1&gt;`到`&lt;h6&gt;`标签,然后收集它们的文本;对于正文,可以寻找段落标签或其他可能包含正文...

    HTMLParser 使用举例

    * 连接萃取:从网页中萃取出需要的连接信息,包括 URL 和电子邮件地址等。 * 屏幕抓取:抓取网页中的内容。 * 资源萃取:从网页中萃取出需要的资源,例如图片、声音文件等。 * 浏览器前端:作为浏览器的前端,用于...

    Java使用HtmlParser实现简单的网络爬虫

    这里我们使用了HtmlParser库,它是一个开源的Java库,专门用于解析HTML文档,提取和处理网页上的信息。以下是如何使用HtmlParser实现网络爬虫的关键知识点: 1. **HtmlParser库**:HtmlParser是一个强大的HTML解析...

    HTMLParser.net源代码HTMLParser.net使用demo

    本项目名为"HTMLParser.net源代码HTMLParser.net使用demo",显然是一个包含示例代码的压缩包,用于展示如何在实际应用中使用HTMLParser.net。 HTMLParser.net的核心功能包括: 1. **HTML解析**:它能够将HTML字符...

    java使用htmlparser提取网页纯文本例子

    【Java使用HTMLParser提取网页纯文本】\n\n在Java编程中,提取网页纯文本是一项常见的任务,尤其在数据抓取、信息分析等领域。HTMLParser是一个强大的Java库,专门用于解析HTML文档,提取其中的文本内容。下面我们将...

    JAVA htmlparser 使用实例

    总之,通过以上介绍和示例,我们了解了如何在Java中使用`HtmlParser`库来解析HTML文档,并从中提取所需的信息。这对于开发人员来说是一个非常实用的技能,可以帮助我们在很多场景下更加高效地完成任务。

    javajsp中使用HTMLParser

    在JSP中使用HTMLParser,通常的步骤如下: 1. **导入依赖**:首先,你需要在项目中引入HTMLParser的库,可以通过Maven或Gradle添加对应的依赖。 2. **创建解析器**:创建`SAXHTMLParser`或`TagSoupParser`对象,前者...

    HtmlParser

    使用HTMLParser,我们可以解析网页内容,提取所需信息,如文章标题、链接、图片等。以下是一些核心概念和步骤: 1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_...

    HTMLParser使用文档和jar包

    本篇将详细阐述HTMLParser的使用方法、功能以及提供的相关资源。 首先,`HTMLParser-2.0-SNAPSHOT-doc.zip`包含了HTMLParser的使用文档。这份文档通常包含API参考、教程、示例代码和用户指南,是学习和理解...

    C# 抓取百度MP3地址 htmlparser实例

    在本文中,我们将深入探讨如何使用C#编程语言和HTMLParser库来抓取并解析百度MP3页面中的音频地址。这个过程涉及到网络请求、HTML解析以及数据提取等关键概念。 首先,我们需要理解C#的基本语法和.NET框架。C#是一...

    htmlparser库与教程

    实际应用中,HTMLParser常与网络请求库(如Apache HttpClient或OkHttp)结合使用,以获取远程网页内容,再进行后续的解析操作。同时,为了提高代码的可维护性和复用性,建议封装自己的数据抓取和处理模块。

    HTMLParser 使用文档、jar包、以及源码

    将这个库添加到Java项目的类路径中,就可以直接使用HTMLParser的功能。 在HTMLParser中,主要的类包括`HTMLDocument`和`HTMLScanner`。`HTMLDocument`是整个HTML文档的抽象,它包含了整个文档的结构和内容。`...

    htmlparser.jar文件

    在描述中提到的“org.htmlparser.Node”和其他的.class文件,这些都是HTMLParser库的核心组成部分。`org.htmlparser.Node` 是HTMLParser中的一个关键接口,它代表HTML文档中的一个节点,可以是元素(Element)、注释...

    C# HtmlParser使用小实例

    在本文中,我们将深入探讨如何在C#中使用Winista.HtmlParser库进行HTML解析。Winista.HtmlParser是一个轻量级的HTML解析器,适合用于快速提取网页内容,尤其是在开发搜索引擎或者网页爬虫时非常有用。这个小实例包含...

Global site tag (gtag.js) - Google Analytics