htmlparser 去除html标签体（获取body，title纯文本） - Tonny - ITeye博客

`

blessed24

浏览: 291548 次
性别:
来自: 北京

最近访客更多访客>>

BeyondPC

wjzayy

yfxu10

903896940

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

86614009：如何在service层，如何获取绑定到当前线程的entitna ...
使用spring的OpenEntityManagerInView
yajunyajun2011：好帖子怎么没人顶呢
Java 正则表达式最大,最小匹配问题
xtuali：能说明一下，你的nutch是哪个版本的吗？谢谢！
搜索引擎Nutch源代码研究之一网页抓取（1）
dongmusic：需要学习这么多的东西，吐血中...
如何提高Java开发能力
jiminsc： cool
LDAP 验证、添加、修改、删除（转）

htmlparser 去除html标签体（获取body，title纯文本）

博客分类：

HTML

阅读更多

package test;

import java.io.*;

import org.htmlparser.Parser;
import org.htmlparser.visitors.HtmlPage;

class Test {
public static void main(String[] argv) throws IOException, InterruptedException {
   Parser parser;
      String body = "";
      String title = "";

   try {
    parser = new Parser("http://www.hao123.com");
      parser.setEncoding("UTF-8");
      HtmlPage htmlpage = new HtmlPage(parser);
      parser.visitAllNodesWith(htmlpage);
      //通过htmlparser 获取body内容
      body = htmlpage.getBody().asString();
      //通过htmlparser 获取title内容
      title =htmlpage.getTitle();
      body = body.replaceAll("[　\\t\\n\\r\\f( |gt) ]+"," ");
      System.out.println(title);
      System.out.println(body);
   } catch (Exception e) {
    // TODO: handle exception
    e.printStackTrace();
   }
}
}

//获取源文件

   Parser parser = new Parser(address);
   parser.setEncoding("gbk");
   System.out.println(parser.parse(null).toHtml());

分享到：

对代理模式与Java动态代理类的理解（三转） | Java httpclient解决方案中的中文传递

2010-12-29 20:38
浏览 2672
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

扩展HTMLParser对自定义标签的处理能力: 资源名称：扩展HTMLParser对自定义标签的处理能力内容简介： HTMLParser是一个用来解析HTML文档的开放源码项目，它具有小巧、快速、使用简单的特点以及拥有强大的功能。现在该项目的最新版本是Integration Build ...

htmlparser(HTML页面解析)例子: 除了基础的开始标签、结束标签和文本数据处理外，HTMLParser还支持处理实体（entities）和属性值。例如，通过重写`handle_entityref`和`handle_charref`可以处理HTML实体，如`&`（代表`&`）和`<`（代表`）。...

HtmlParser: 1. **创建自定义解析器**: 首先，我们需要继承Python的`HTMLParser`类，并重写其方法，如`handle_starttag`、`handle_endtag`和`handle_data`，以便在遇到HTML标签开始、结束或数据时执行特定操作。 2. **启动爬虫*...

java解析html工具htmlparser的jar包及api文档: 例如，以下是一个简单的使用示例，展示如何使用HTMLParser解析一个HTML字符串并打印出所有的`<a>`标签： ```java import org.htmlparser.Parser; import org.htmlparser.util.NodeIterator; import org.htmlparser....

java使用htmlparser提取网页纯文本例子: 【Java使用HTMLParser提取网页纯文本】\n\n在Java编程中，提取网页纯文本是一项常见的任务，尤其在数据抓取、信息分析等领域。HTMLParser是一个强大的Java库，专门用于解析HTML文档，提取其中的文本内容。下面我们将...

htmlparser解析API: HTMLParser是一个纯Java编写的库，专门用于解析和处理HTML文档。它不依赖任何其他Java库，使得它成为一个轻量级且高效的解决方案。HTMLParser设计的目的是为了方便地解析、提取或修改HTML内容，适用于网页数据抓取和...

【Java】获取指定HTML 文档指定的body、页中超链接的标题和链接、指定博客文章的内容: 你可以进一步使用`text()`方法提取纯文本内容，去除HTML标签。 3. **提取超链接**： - 使用`select()`方法，结合CSS选择器定位所有的`<a>`标签（超链接）。例如，`doc.select("a")`将返回所有链接的Element列表。 ...

c#版htmlparser htmlparser.dll htmlparser源代码: 通过阅读源代码，开发者可以学习到如何处理HTML标签、属性、文本节点以及如何处理嵌套的HTML结构。在C#中，HTMLParser可能采用了递归下降解析器或基于事件的解析器模式。递归下降解析器通常使用函数或方法的递归来...

htmlparser(c#,java): - 内容清洗：在处理用户生成的HTML内容时，可以使用HTMLParser去除非法标签，标准化格式。 - Web应用程序：在服务器端，它可以解析HTTP请求中的HTML表单数据，或者在客户端解析动态生成的HTML响应。 - 搜索引擎...

Html解析助手htmlparser.jar: 3. **事件驱动解析**：`htmlparser.jar`支持事件驱动的解析模式，当遇到特定的HTML标签或事件时，会触发回调函数，这种方式对内存使用友好，适用于处理大型HTML文档。 4. **灵活性**：这个库允许用户自定义解析规则...

htmlparser解析Html的jar包和源文件包（两个）: - **内容分析**：在文本挖掘或信息检索应用中，HTMLParser可以帮助去除HTML标记，只保留纯文本内容。 - **自动化测试**：在自动化测试中，可以使用HTMLParser验证网页渲染的正确性，检查元素的结构和属性。 - **...

HTMLParser 2.0: HTMLParser库的设计基于事件驱动的模式，它会为遇到的每一个HTML标签、属性、文本等内容触发特定的事件。通过继承自HTMLParser类并重写其方法，用户可以定制化解析过程，对HTML元素进行处理。例如，当遇到开始标签时...

解析htmlparser的所有jar包: HTMLParser是一个Java库，专为解析HTML文档而设计。它提供了简单且灵活的方式来处理HTML...有了这个压缩包中包含的所有jar包，你将能够充分利用HTMLParser的功能，无论你是进行简单的文本提取还是复杂的网页处理任务。

htmlparser解析html分页: HTMLParser是一个用于解析HTML文档的库，尤其在处理非结构化或不标准的HTML时非常有用。这个库可能被用于从网页中提取数据，比如在爬虫项目中，或者进行自动化测试时解析页面内容。本篇文章将深入探讨HTMLParser的...

htmlparser.jar文件: HTMLParser提供了多种方法来访问和操作解析树，比如`parseContent()`用于获取整个文档的节点列表，`visitAllNodesWith()`可以遍历所有节点并应用自定义的访问器，`getFirstNodeWithTag()`用于找到第一个特定标签的...

htmlparser网页分析: 由于HTML经常存在不规范的情况，如缺少闭合标签、嵌套错误等，HTMLParser通过容错机制，能够较好地解析这些不规则的HTML。 2. DOM模型：HTMLParser基于DOM模型工作，将HTML文档转换为一棵节点树。每个HTML元素、...

HTMLParser-2.0-SNAPSHOT: Text对象提供了获取纯文本的方法。 6. **事件驱动模型**：HTMLParser支持事件驱动的解析模式。你可以注册监听器，当解析到特定的HTML元素时，监听器会被触发执行相应的操作。例如，可以创建一个`StartTagHandler`来...

htmlparser库与教程: 4. **遍历和访问HTML元素**：HTMLParser提供了对HTML文档节点的遍历方法，如`getElementsByTag()`，可以根据标签名获取元素集合。通过`getText()`或`getAttribute()`等方法，可以获取元素的内容和属性值。 5. **...

Winista.HtmlParser（含帮助手册）: Winista.HtmlParser提供的API可能包括了创建解析器对象、加载HTML源码、查找特定元素、遍历元素集合、获取元素属性、提取文本内容等方法。例如，`LoadHtmlString`用于加载HTML字符串，`FindFirst`或`FindAll`方法...

Global site tag (gtag.js) - Google Analytics