public class ParseWork {
private Parser parser;
public ParseWork(String htmlAddress) throws ParserException {
parser = new Parser(htmlAddress);
}
/**
* 获取网页标题和正文组成的文本
* **/
protected String getText(String elementId) throws ParserException{
NodeFilter TitleFilter = new NodeClassFilter(TitleTag.class);
NodeFilter ElementIdFilter = new HasAttributeFilter("id", elementId);
OrFilter orFilter = new OrFilter(TitleFilter, ElementIdFilter); //做一个逻辑OR Filter组合
NodeList list = parser.extractAllNodesThatMatch(orFilter);
StringBuffer text = new StringBuffer();
for (int i = 0; i < list.size(); i++)
text = text.append(list.elementAt(i).toPlainTextString() + "\r\n");
return text.toString().trim();
}
public static void main(String[] args) throws ParserException, IOException {
ParseWork p = new ParseWork("E://JavaEye新闻.htm");
String mainText = p.getText("news_content");
//写网页正文文件
FileUtils.writeStringToFile(new File("E://javaeye新闻.txt"), mainText, "utf-8");
//摘要
}
}
分享到:
相关推荐
### JAVA HtmlParser 使用实例详解 在Java开发过程中,解析HTML文档是一项常见的需求,尤其是在处理Web爬虫、数据抓取等应用场景时。`HtmlParser`库为开发者提供了一种简便的方式来解析HTML文档,并从中提取所需的...
通过阅读提供的`C# HtmlParser使用实例.doc`文档,你可以深入了解如何利用这个库来满足你的具体需求。同时,`winsta.Htmlparser.chm`帮助文档是宝贵的参考资料,包含了详细的API说明和技术细节。记住,理解并熟练...
HTMLParser 使用举例 HTMLParser 是一个开源的类库,用于解析 Web 页面。它有两种主要使用方式:extraction 和 transformation。前者用于从网页中萃取出需要的内容,后者用于把 Web 页面中的内容转换为需要的格式。...
5. **提取数据**:使用`extractAllNodesThatMatch`方法,我们可以根据过滤器获取到满足条件的节点集合。然后,遍历这些节点,通常是遍历`NodeList`,并进行进一步的操作。例如,对于表格数据,我们可能会找到`...
**HtmlParser 2.1 知识点详解** HtmlParser是一个强大的开源库,主要用于解析HTML文档,它在处理不规则的HTML结构时表现出了极高的灵活性和稳定性。这个"HtmlParser 2.1 码源"是该库的2015年6月的最新版本,包含了...
实际应用中,HTMLParser常与网络请求库(如Apache HttpClient或OkHttp)结合使用,以获取远程网页内容,再进行后续的解析操作。同时,为了提高代码的可维护性和复用性,建议封装自己的数据抓取和处理模块。
这个实例是关于如何使用HTMLParser库来抓取和处理气象信息的。在Web开发和数据抓取领域,了解如何解析HTML页面对于获取网络上的结构化数据至关重要。在这个特定的实例中,我们将探讨如何利用HTMLParser库来实现这一...
`HtmlParser2003`可能是一个早期版本的源代码,而`AnalyzeHtml`和`WebParser`则可能是演示如何使用HtmlParser的项目。 1. **AnalyzeHtml**:这个项目可能展示了如何分析HTML文档,通过调用HtmlParser的API来提取...
org.htmlparser.tags.Div.class org.htmlparser.tags.DoctypeTag.class org.htmlparser.tags.FormTag.class org.htmlparser.tags.FrameSetTag.class org.htmlparser.tags.FrameTag.class org.htmlparser.tags.Head...
本项目名为"HTMLParser.net源代码HTMLParser.net使用demo",显然是一个包含示例代码的压缩包,用于展示如何在实际应用中使用HTMLParser.net。 HTMLParser.net的核心功能包括: 1. **HTML解析**:它能够将HTML字符...
在实际开发中,结合requests库获取网页内容,然后使用HTMLParser进行解析,是构建网络爬虫的基本流程之一。通过这样的方式,开发者可以从网页中提取所需信息,进行数据分析或存储,满足各种项目需求。 总的来说,...
本篇将详细阐述HTMLParser的使用方法、功能以及提供的相关资源。 首先,`HTMLParser-2.0-SNAPSHOT-doc.zip`包含了HTMLParser的使用文档。这份文档通常包含API参考、教程、示例代码和用户指南,是学习和理解...
### 使用HttpClient和HtmlParser实现简易爬虫的知识点详解 #### 一、HttpClient与HtmlParser简介 **HttpClient简介:** HttpClient是Jakarta Commons项目中的一个重要组件,用于提供灵活且高效的HTTP协议支持。它...
使用HTMLParser,我们可以解析网页内容,提取所需信息,如文章标题、链接、图片等。以下是一些核心概念和步骤: 1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_...
1. `org.htmlparser.Node`:这是所有节点的基本接口,提供了一系列操作方法,如将节点转化为纯文本或HTML字符串,遍历树形结构,获取节点的父节点、子节点、兄弟节点,以及获取节点在HTML源代码中的起始和结束位置。...
2. `public Parser (Lexer lexer, ParserFeedback fb)`: 使用指定的 Lexer 和 ParserFeedback 实例初始化。 3. `public Parser (URLConnection connection, ParserFeedback fb)`: 从 URLConnection 对象解析 HTML ...
1. **例子.txt**:这是一个包含使用HTMLParser库的实际示例代码的文本文件。开发者可以通过阅读和运行这些示例来快速理解如何在自己的项目中应用HTMLParser。 2. **HTMLParser-2.0-SNAPSHOT-doc.zip**:这是...
例如,可以使用`TagStart`事件捕获元素开始,`Text`事件获取元素内的文本,`TagEnd`事件表示元素结束。 5. 应用场景:HTMLParser适用于数据抓取、网页自动化测试、内容过滤等多种场景。比如,你可以使用它来提取...
// 从URL获取内容 parseHtml(szContent); } catch (Exception e) { e.printStackTrace(); } } private static String openFile(String szFileName) { // 文件读取逻辑 } private static String read...
【HttpClient和HtmlParser简介】 HttpClient是一个Java库,用于简化HTTP通信。它是由Apache Jakarta项目开发的,旨在提供更高效、更灵活的HTTP客户端支持。HttpClient提供了丰富的特性,遵循最新的HTTP标准,支持...