使用HtmlParser 提取百度贴吧中的邮箱地址 - - ITeye博客

`

o_o_0

浏览: 18458 次
性别:
来自: 济南

最近访客更多访客>>

liduke1020

awangjun

gybing

testben

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (25)

社区版块

存档分类

最新评论

使用HtmlParser 提取百度贴吧中的邮箱地址

阅读更多

经测试，实际用时1秒左右

private static final Pattern p = Pattern.compile("\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*");
public static ArrayList<String> extractEmail(int id,int start,int end){
		ArrayList<String> list = new ArrayList<String>();
		try {
			for (int i = start; i <= end; i++) {

				Parser parser = new Parser("http://tieba.baidu.com/p/"+id+"?pn="+i);
			
				NodeFilter filter = new RegexFilter(
						"\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*");
				
				NodeList nodes = parser.extractAllNodesThatMatch(filter);
				
				if (nodes.size() > 0) {
					for (NodeIterator ni = nodes.elements(); ni.hasMoreNodes();) {
						Matcher m = p.matcher(ni.nextNode().toHtml());
						if (m.find()) {
							list.add(m.group());
						}
					}
				}
			}
			
		} catch (ParserException e) {
			
		}
		return list;
	}

分享到：

使用HtmlParser 提取百度贴吧中的图片 | Oracle数据库的备份方法

2012-03-08 16:01
浏览 746
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

使用HtmlParser 提取百度贴吧中的图片: 使用HtmlParser 提取百度贴吧中的图片

HtmlParser提取网页信息的设计与实现: 通过使用HtmlParser，我们可以高效地从网页中提取有用的信息，并对其进行清洗和存储。这对于自动化处理大量网页数据、实现信息检索和数据分析等方面都具有重要的意义。未来还可以进一步探索如何利用这些提取的信息来...

HTMLParser提取网页超链接研究: 在本研究中，我们将重点探讨如何使用HTMLParser来提取网页中的超链接。 **2.2 开发环境的搭建** 为了使用HTMLParser进行网页超链接的提取，首先需要搭建合适的开发环境。本研究中选择的开发环境包括： - **...

HTMLParser提取网页内容: 可以使用HTMLParser库提供的API来遍历DOM树，查找这些元素并获取其文本内容。例如，对于标题提取，可以遍历HTML中的所有`<h1>`到`<h6>`标签，然后收集它们的文本；对于正文，可以寻找段落标签或其他可能包含正文...

java使用htmlparser提取网页纯文本例子: 【Java使用HTMLParser提取网页纯文本】\n\n在Java编程中，提取网页纯文本是一项常见的任务，尤其在数据抓取、信息分析等领域。HTMLParser是一个强大的Java库，专门用于解析HTML文档，提取其中的文本内容。下面我们将...

HTMLParser 使用举例: * 连接萃取：从网页中萃取出需要的连接信息，包括 URL 和电子邮件地址等。 * 屏幕抓取：抓取网页中的内容。 * 资源萃取：从网页中萃取出需要的资源，例如图片、声音文件等。 * 浏览器前端：作为浏览器的前端，用于...

Java使用HtmlParser实现简单的网络爬虫: 这里我们使用了HtmlParser库，它是一个开源的Java库，专门用于解析HTML文档，提取和处理网页上的信息。以下是如何使用HtmlParser实现网络爬虫的关键知识点： 1. **HtmlParser库**：HtmlParser是一个强大的HTML解析...

HTMLParser.net源代码HTMLParser.net使用demo: 本项目名为"HTMLParser.net源代码HTMLParser.net使用demo"，显然是一个包含示例代码的压缩包，用于展示如何在实际应用中使用HTMLParser.net。 HTMLParser.net的核心功能包括： 1. **HTML解析**：它能够将HTML字符...

JAVA htmlparser 使用实例: 总之，通过以上介绍和示例，我们了解了如何在Java中使用`HtmlParser`库来解析HTML文档，并从中提取所需的信息。这对于开发人员来说是一个非常实用的技能，可以帮助我们在很多场景下更加高效地完成任务。

javajsp中使用HTMLParser: 在JSP中使用HTMLParser，通常的步骤如下： 1. **导入依赖**：首先，你需要在项目中引入HTMLParser的库，可以通过Maven或Gradle添加对应的依赖。 2. **创建解析器**：创建`SAXHTMLParser`或`TagSoupParser`对象，前者...

HtmlParser: 使用HTMLParser，我们可以解析网页内容，提取所需信息，如文章标题、链接、图片等。以下是一些核心概念和步骤： 1. **创建自定义解析器**: 首先，我们需要继承Python的`HTMLParser`类，并重写其方法，如`handle_...

htmlparser的jar包: 在实际开发中，使用HTMLParser时，你可能需要处理一些常见的问题，比如CSS选择器的支持、JavaScript的解析、URL的处理等。虽然HTMLParser本身并不直接提供这些功能，但可以通过扩展其API或者与其他库（如Jsoup）结合...

htmlparser使用简单讲解: 我们首先读取HTML内容，然后使用`Parser.createParser()`创建一个`Parser`对象，接着使用`visitAllNodesWith()`方法遍历HTML文档的节点，将每个节点传递给`TextExtractingVisitor`，该访问者会提取出HTML中的文本...

HTMLParser使用文档和jar包: 本篇将详细阐述HTMLParser的使用方法、功能以及提供的相关资源。首先，`HTMLParser-2.0-SNAPSHOT-doc.zip`包含了HTMLParser的使用文档。这份文档通常包含API参考、教程、示例代码和用户指南，是学习和理解...

C# 抓取百度MP3地址 htmlparser实例: 在本文中，我们将深入探讨如何使用C#编程语言和HTMLParser库来抓取并解析百度MP3页面中的音频地址。这个过程涉及到网络请求、HTML解析以及数据提取等关键概念。首先，我们需要理解C#的基本语法和.NET框架。C#是一...

htmlparser库与教程: 实际应用中，HTMLParser常与网络请求库（如Apache HttpClient或OkHttp）结合使用，以获取远程网页内容，再进行后续的解析操作。同时，为了提高代码的可维护性和复用性，建议封装自己的数据抓取和处理模块。

HTMLParser 使用文档、jar包、以及源码: 将这个库添加到Java项目的类路径中，就可以直接使用HTMLParser的功能。在HTMLParser中，主要的类包括`HTMLDocument`和`HTMLScanner`。`HTMLDocument`是整个HTML文档的抽象，它包含了整个文档的结构和内容。`...

htmlparser.jar文件: 在描述中提到的“org.htmlparser.Node”和其他的.class文件，这些都是HTMLParser库的核心组成部分。`org.htmlparser.Node` 是HTMLParser中的一个关键接口，它代表HTML文档中的一个节点，可以是元素（Element）、注释...

Global site tag (gtag.js) - Google Analytics