下载地址
经测试,实际用时1秒左右
private static final Pattern p = Pattern.compile("\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*");
public static ArrayList<String> extractEmail(int id,int start,int end){
ArrayList<String> list = new ArrayList<String>();
try {
for (int i = start; i <= end; i++) {
Parser parser = new Parser("http://tieba.baidu.com/p/"+id+"?pn="+i);
NodeFilter filter = new RegexFilter(
"\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*");
NodeList nodes = parser.extractAllNodesThatMatch(filter);
if (nodes.size() > 0) {
for (NodeIterator ni = nodes.elements(); ni.hasMoreNodes();) {
Matcher m = p.matcher(ni.nextNode().toHtml());
if (m.find()) {
list.add(m.group());
}
}
}
}
} catch (ParserException e) {
}
return list;
}
分享到:
相关推荐
使用HtmlParser 提取百度贴吧中的图片
通过使用HtmlParser,我们可以高效地从网页中提取有用的信息,并对其进行清洗和存储。这对于自动化处理大量网页数据、实现信息检索和数据分析等方面都具有重要的意义。未来还可以进一步探索如何利用这些提取的信息来...
在本研究中,我们将重点探讨如何使用HTMLParser来提取网页中的超链接。 **2.2 开发环境的搭建** 为了使用HTMLParser进行网页超链接的提取,首先需要搭建合适的开发环境。本研究中选择的开发环境包括: - **...
可以使用HTMLParser库提供的API来遍历DOM树,查找这些元素并获取其文本内容。 例如,对于标题提取,可以遍历HTML中的所有`<h1>`到`<h6>`标签,然后收集它们的文本;对于正文,可以寻找段落标签或其他可能包含正文...
* 连接萃取:从网页中萃取出需要的连接信息,包括 URL 和电子邮件地址等。 * 屏幕抓取:抓取网页中的内容。 * 资源萃取:从网页中萃取出需要的资源,例如图片、声音文件等。 * 浏览器前端:作为浏览器的前端,用于...
这里我们使用了HtmlParser库,它是一个开源的Java库,专门用于解析HTML文档,提取和处理网页上的信息。以下是如何使用HtmlParser实现网络爬虫的关键知识点: 1. **HtmlParser库**:HtmlParser是一个强大的HTML解析...
本项目名为"HTMLParser.net源代码HTMLParser.net使用demo",显然是一个包含示例代码的压缩包,用于展示如何在实际应用中使用HTMLParser.net。 HTMLParser.net的核心功能包括: 1. **HTML解析**:它能够将HTML字符...
【Java使用HTMLParser提取网页纯文本】\n\n在Java编程中,提取网页纯文本是一项常见的任务,尤其在数据抓取、信息分析等领域。HTMLParser是一个强大的Java库,专门用于解析HTML文档,提取其中的文本内容。下面我们将...
总之,通过以上介绍和示例,我们了解了如何在Java中使用`HtmlParser`库来解析HTML文档,并从中提取所需的信息。这对于开发人员来说是一个非常实用的技能,可以帮助我们在很多场景下更加高效地完成任务。
在JSP中使用HTMLParser,通常的步骤如下: 1. **导入依赖**:首先,你需要在项目中引入HTMLParser的库,可以通过Maven或Gradle添加对应的依赖。 2. **创建解析器**:创建`SAXHTMLParser`或`TagSoupParser`对象,前者...
使用HTMLParser,我们可以解析网页内容,提取所需信息,如文章标题、链接、图片等。以下是一些核心概念和步骤: 1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_...
本篇将详细阐述HTMLParser的使用方法、功能以及提供的相关资源。 首先,`HTMLParser-2.0-SNAPSHOT-doc.zip`包含了HTMLParser的使用文档。这份文档通常包含API参考、教程、示例代码和用户指南,是学习和理解...
在本文中,我们将深入探讨如何使用C#编程语言和HTMLParser库来抓取并解析百度MP3页面中的音频地址。这个过程涉及到网络请求、HTML解析以及数据提取等关键概念。 首先,我们需要理解C#的基本语法和.NET框架。C#是一...
实际应用中,HTMLParser常与网络请求库(如Apache HttpClient或OkHttp)结合使用,以获取远程网页内容,再进行后续的解析操作。同时,为了提高代码的可维护性和复用性,建议封装自己的数据抓取和处理模块。
将这个库添加到Java项目的类路径中,就可以直接使用HTMLParser的功能。 在HTMLParser中,主要的类包括`HTMLDocument`和`HTMLScanner`。`HTMLDocument`是整个HTML文档的抽象,它包含了整个文档的结构和内容。`...
在描述中提到的“org.htmlparser.Node”和其他的.class文件,这些都是HTMLParser库的核心组成部分。`org.htmlparser.Node` 是HTMLParser中的一个关键接口,它代表HTML文档中的一个节点,可以是元素(Element)、注释...
在本文中,我们将深入探讨如何在C#中使用Winista.HtmlParser库进行HTML解析。Winista.HtmlParser是一个轻量级的HTML解析器,适合用于快速提取网页内容,尤其是在开发搜索引擎或者网页爬虫时非常有用。这个小实例包含...