`
- 浏览:
286037 次
- 性别:
- 来自:
北京
-
- mport org.htmlparser.Parser;
-
import org.htmlparser.beans.StringBean;
-
import org.htmlparser.filters.NodeClassFilter;
-
import org.htmlparser.parserapplications.StringExtractor;
-
import org.htmlparser.tags.BodyTag;
-
import org.htmlparser.util.NodeList;
-
import org.htmlparser.util.ParserException;
-
-
public class GetContent {
-
-
public void getContentUsingStringBean(String url) {
-
StringBean sb = new StringBean();
-
sb.setLinks(true);
-
sb.setCollapse(true);
-
sb.setReplaceNonBreakingSpaces(true);
-
sb.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");
-
System.out.println("The Content is :\n" + sb.getStrings());
-
- }
-
-
public void getContentUsingStringExtractor(String url, boolean link) {
-
StringExtractor se = new StringExtractor(url);
-
String text = null;
-
try {
- text = se.extractStrings(link);
-
System.out.println("The content is :\n" + text);
-
} catch (ParserException e) {
- e.printStackTrace();
- }
- }
-
-
public void getContentUsingParser(String url) {
- NodeList nl;
-
try {
-
Parser p = new Parser(url);
-
nl = p.parse(new NodeClassFilter(BodyTag.class));
-
BodyTag bt = (BodyTag) nl.elementAt(0);
- System.out.println(bt.toPlainTextString());
-
} catch (ParserException e) {
- e.printStackTrace();
- }
- }
-
-
public static void main(String[] args) {
-
GetContent g = new GetContent();
-
-
-
g.getContentUsingStringExtractor("http://www.sina.com.cn/", false);
- }
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
在Web抓取或数据挖掘领域,HTMLParser是一个常用的工具,可以帮助我们从HTML源码中抽取有价值的文本信息,如网页正文、标题等。 在提供的代码片段中,`cleanHtml` 方法展示了如何使用正则表达式来清理HTML,移除...
### HTMLParser提取网页超链接研究 #### 一、引言 随着互联网技术的快速发展和普及,全球信息资源呈爆炸式增长。在这个过程中,各种互联网搜索引擎(例如百度、谷歌等)应运而生,它们极大地便利了人们获取所需...
### HtmlParser提取网页信息的设计与实现 #### 一、引言 随着互联网的快速发展和信息量的爆炸式增长,从海量网页数据中提取有价值的信息变得日益重要。这不仅有助于提高信息检索的效率,还能为自动化的数据分析...
本文主要介绍了如何利用HttpClient与HTMLParser这两种技术来实现网页正文的提取。文章首先阐述了互联网信息飞速增长的背景下,网页数据提取的重要性,以及自动化的网页抓取与分析对于科研、工程和商业活动的意义。...
### HTMLParser抽取Web网页正文信息的关键知识点 #### 一、HTMLParser简介与应用 HTMLParser是一种用于解析HTML文档的工具,特别适用于从Web网页中提取有用的信息。它能够有效地识别和解析HTML标签,帮助开发者从...
【Java使用HTMLParser提取网页纯文本】\n\n在Java编程中,提取网页纯文本是一项常见的任务,尤其在数据抓取、信息分析等领域。HTMLParser是一个强大的Java库,专门用于解析HTML文档,提取其中的文本内容。下面我们将...
在IT领域,尤其是在Web开发中,提取网页信息是一项常见的任务。C#作为.NET框架下的主要编程语言,提供了强大的工具和库来实现这一功能。在这个实例中,我们将探讨如何结合C#中的正则表达式(Regular Expressions)和...
标签"网页抓取"提示我们,这个项目不仅涉及HTMLParser,还可能涵盖了网络请求、网页解析、数据提取等多方面的知识。在实际操作中,开发者通常会编写爬虫程序,实现批量抓取和存储数据,可能还会涉及到异常处理、请求...
本篇将重点讲解如何利用HTMLParser库在Java中抓取网页数据。 HTMLParser是Java的一个开源库,专门用于解析HTML文档,提取其中的数据。它的设计目标是简化HTML解析过程,即使面对不规范的HTML代码也能有效地处理。...
HTMLParser 是一个强大的工具,用于解析和...通过上述方法,HTMLParser可以帮助我们有效地从网页中抽取出主要内容,提高信息检索的精确性和效率。这种方法在网页爬虫、内容分析和信息提取等领域具有广泛的应用价值。
它可以识别HTML标签、属性、文本等元素,使得开发者能够方便地提取网页中的结构化信息。 2. **网页爬虫的基本原理**:网页爬虫通过发送HTTP请求到目标网站,获取HTML响应,然后解析这些HTML内容来提取所需信息。在...
HTMLParser是Python中用于解析HTML文档的一个库,它允许开发者高效地从网页中提取所需的数据。在Web开发和数据挖掘领域,爬虫技术是获取大量网络数据的重要手段,而HTMLParser则是实现这一目标的关键工具之一。本文...
这个名为"提取网页内容的源码(htmlparser)"的项目,显然使用了HTMLParser库来实现这一功能。HTMLParser是Python中一个用于解析HTML和XML文档的库,它允许我们以编程的方式处理网页的源代码,从中获取我们需要的...
在网页抓取和信息采集领域,HTMLParser 提供了高效的处理机制,能够帮助开发者有效地解析复杂的HTML结构,提取所需的数据。以下是对HTMLParser及其在网页信息抽取中应用的详细说明: 1. **HTMLParser基本概念**: ...
比如,你可以使用它来提取网页上的特定数据,如价格、评论、链接等;也可以用于验证网页的结构是否符合预期,或者在不影响页面展示的情况下替换或添加HTML元素。 6. 扩展性:HTMLParser提供了丰富的API,允许开发者...