htmlparser提取网页正文 - Tonny - ITeye博客

`

blessed24

浏览: 288258 次
性别:
来自: 北京

最近访客更多访客>>

BeyondPC

wjzayy

yfxu10

903896940

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

86614009：如何在service层，如何获取绑定到当前线程的entitna ...
使用spring的OpenEntityManagerInView
yajunyajun2011：好帖子怎么没人顶呢
Java 正则表达式最大,最小匹配问题
xtuali：能说明一下，你的nutch是哪个版本的吗？谢谢！
搜索引擎Nutch源代码研究之一网页抓取（1）
dongmusic：需要学习这么多的东西，吐血中...
如何提高Java开发能力
jiminsc： cool
LDAP 验证、添加、修改、删除（转）

htmlparser提取网页正文

博客分类：

HTML

阅读更多

Java代码

复制代码

mport org.htmlparser.Parser;
import org.htmlparser.beans.StringBean;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.parserapplications.StringExtractor;
import org.htmlparser.tags.BodyTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class GetContent {
public void getContentUsingStringBean(String url) {
StringBean sb = new StringBean();
sb.setLinks(true);
sb.setCollapse(true);
sb.setReplaceNonBreakingSpaces(true);// If true regular space
sb.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");
System.out.println("The Content is :\n" + sb.getStrings());
}
public void getContentUsingStringExtractor(String url, boolean link) {
StringExtractor se = new StringExtractor(url);
String text = null;
try {
text = se.extractStrings(link);
System.out.println("The content is :\n" + text);
} catch (ParserException e) {
e.printStackTrace();
}
}
public void getContentUsingParser(String url) {
NodeList nl;
try {
Parser p = new Parser(url);
nl = p.parse(new NodeClassFilter(BodyTag.class));
BodyTag bt = (BodyTag) nl.elementAt(0);
System.out.println(bt.toPlainTextString());
} catch (ParserException e) {
e.printStackTrace();
}
}
public static void main(String[] args) {
GetContent g = new GetContent();
// g.getContentUsingStringBean("");
// g.getContentUsingParser("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");
g.getContentUsingStringExtractor("http://www.sina.com.cn/", false);
}

分享到：

利用HtmlParser进行网页信息提取[原创] | 如何分析网页-----使用HtmlParser(1)

2010-12-19 19:02
浏览 1925
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

HTMLParser提取网页内容: 在Web抓取或数据挖掘领域，HTMLParser是一个常用的工具，可以帮助我们从HTML源码中抽取有价值的文本信息，如网页正文、标题等。在提供的代码片段中，`cleanHtml` 方法展示了如何使用正则表达式来清理HTML，移除...

HTMLParser提取网页超链接研究: ### HTMLParser提取网页超链接研究 #### 一、引言随着互联网技术的快速发展和普及，全球信息资源呈爆炸式增长。在这个过程中，各种互联网搜索引擎（例如百度、谷歌等）应运而生，它们极大地便利了人们获取所需...

HtmlParser提取网页信息的设计与实现: ### HtmlParser提取网页信息的设计与实现 #### 一、引言随着互联网的快速发展和信息量的爆炸式增长，从海量网页数据中提取有价值的信息变得日益重要。这不仅有助于提高信息检索的效率，还能为自动化的数据分析...

基于HttpClient与HTMLParser 的网页正文提取: 本文主要介绍了如何利用HttpClient与HTMLParser这两种技术来实现网页正文的提取。文章首先阐述了互联网信息飞速增长的背景下，网页数据提取的重要性，以及自动化的网页抓取与分析对于科研、工程和商业活动的意义。...

java使用htmlparser提取网页纯文本例子: 【Java使用HTMLParser提取网页纯文本】\n\n在Java编程中，提取网页纯文本是一项常见的任务，尤其在数据抓取、信息分析等领域。HTMLParser是一个强大的Java库，专门用于解析HTML文档，提取其中的文本内容。下面我们将...

HTMLParser抽取Web网页正文信息.doc: ### HTMLParser抽取Web网页正文信息的关键知识点 #### 一、HTMLParser简介与应用 HTMLParser是一种用于解析HTML文档的工具，特别适用于从Web网页中提取有用的信息。它能够有效地识别和解析HTML标签，帮助开发者从...

C#正则+HTMLParser进行网页信息提取的实例。: 在IT领域，尤其是在Web开发中，提取网页信息是一项常见的任务。C#作为.NET框架下的主要编程语言，提供了强大的工具和库来实现这一功能。在这个实例中，我们将探讨如何结合C#中的正则表达式（Regular Expressions）和...

htmlparser抓取网页内容: 标签"网页抓取"提示我们，这个项目不仅涉及HTMLParser，还可能涵盖了网络请求、网页解析、数据提取等多方面的知识。在实际操作中，开发者通常会编写爬虫程序，实现批量抓取和存储数据，可能还会涉及到异常处理、请求...

java利用htmlparser抓取网页数据: 本篇将重点讲解如何利用HTMLParser库在Java中抓取网页数据。 HTMLParser是Java的一个开源库，专门用于解析HTML文档，提取其中的数据。它的设计目标是简化HTML解析过程，即使面对不规范的HTML代码也能有效地处理。...

HTMLParser抽取Web网页正文信息: HTMLParser 是一个强大的工具，用于解析和...通过上述方法，HTMLParser可以帮助我们有效地从网页中抽取出主要内容，提高信息检索的精确性和效率。这种方法在网页爬虫、内容分析和信息提取等领域具有广泛的应用价值。

基于htmlparser的网页爬虫和java调用excel代码: 它可以识别HTML标签、属性、文本等元素，使得开发者能够方便地提取网页中的结构化信息。 2. **网页爬虫的基本原理**：网页爬虫通过发送HTTP请求到目标网站，获取HTML响应，然后解析这些HTML内容来提取所需信息。在...

htmlparser实现网页上抓取数据: HTMLParser是Python中用于解析HTML文档的一个库，它允许开发者高效地从网页中提取所需的数据。在Web开发和数据挖掘领域，爬虫技术是获取大量网络数据的重要手段，而HTMLParser则是实现这一目标的关键工具之一。本文...

提取网页内容的源码（htmlparser）: 这个名为"提取网页内容的源码（htmlparser）"的项目，显然使用了HTMLParser库来实现这一功能。HTMLParser是Python中一个用于解析HTML和XML文档的库，它允许我们以编程的方式处理网页的源代码，从中获取我们需要的...

htmlparser进行网页信息的抽取: 在网页抓取和信息采集领域，HTMLParser 提供了高效的处理机制，能够帮助开发者有效地解析复杂的HTML结构，提取所需的数据。以下是对HTMLParser及其在网页信息抽取中应用的详细说明： 1. **HTMLParser基本概念**： ...

htmlparser网页分析: 比如，你可以使用它来提取网页上的特定数据，如价格、评论、链接等；也可以用于验证网页的结构是否符合预期，或者在不影响页面展示的情况下替换或添加HTML元素。 6. 扩展性：HTMLParser提供了丰富的API，允许开发者...

Global site tag (gtag.js) - Google Analytics