`

java html串转换成文本串

阅读更多
采用htmlparser 来解决将html串中抽取出文本串。


String str = "<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN\">" +
"<HTML><HEAD>" +
"<META http-equiv=Content-Type content=\"text/html; charset=gb2312\">" +
"<META content=\"MSHTML 6.00.6000.17095\" name=GENERATOR><LINK " +
"href=\"BLOCKQUOTE{margin-Top: 0px; margin-Bottom: 0px; margin-Left: 2em}\"" +
"rel=stylesheet></HEAD>" +
"<BODY style=\"FONT-SIZE: 10pt; MARGIN: 10px; FONT-FAMILY: verdana\">" +
"<DIV><FONT face=Verdana size=2>helll,测试邮件</FONT></DIV>" +
"<DIV><FONT face=Verdana size=2></FONT>&nbsp;</DIV>" +
"<DIV align=left><FONT face=Verdana color=#c0c0c0 size=2>2011-03-03 " +
"</FONT></DIV><FONT face=Verdana size=2>"+
"<HR style=\"WIDTH: 122px; HEIGHT: 2px\" align=left SIZE=2>"+

"<DIV><FONT face=Verdana color=#c0c0c0 size=2><SPAN>shopeye7</SPAN> " +
"</FONT></DIV></FONT></BODY></HTML>" ;

System.out.println(StringUtil.html2Str(str));

效果:
helll,测试邮件 2011-03-03 shopeye7


方法:
/**
* @param html
* @return
*/
public static String html2Str(String html) {
try {
html = nvl(html);
Parser parser = Parser.createParser(html, "utf-8");
TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
return visitor.getExtractedText();
} catch (Exception ex) {
return null;
}
}
  • lib.rar (300.7 KB)
  • 下载次数: 206
分享到:
评论
2 楼 任楚娴 2016-10-06  
你好,请问html = nvl(html); 这句中的nvl(html)调用的是什么方法?
1 楼 legends 2014-02-12  
试试,谢谢

相关推荐

    Java代码小工具(长文本字符串转换)

    在编写Java代码时,如果字符串过长,比如长篇幅的HTML代码或者SQL语句,就很难用一对双引号括起来,因为在java中,字符串常量是...本工具用于把多行长篇幅文本转换成Java的StringBuffer类来操作,可以正向和反向转换。

    在Java中轻松将HTML格式文本转换为纯文本(保留换行)

    lang和lang3这两个包里有转换所需的工具类 org.jsoup jsoup 1.11.3 commons-lang commons-lang 2.6 org.apache.commons commons-lang3 3.4 第二步:直接使用即可: import org.apache.commons.lang....

    java实现html文件转换成图片

    本代码实现html文件转换成一个图片的功能。附件包含所需要的包。 注:该代码转换的html文件必须一个屏幕能展现出来的,如果内容太多一个屏幕展现不出来则不能很好的转换。所以该代码只适用于内容不太多的html文件。...

    在Java中轻松将HTML格式文本转换为纯文本的方法示例(保留换行)

    在Java中轻松将HTML格式文本转换为纯文本是一项常见的需求,例如在爬虫、文本处理、数据分析等领域都需要将HTML格式文本转换为纯文本。为满足这个需求,本文将介绍一种使用Jsoup和commons-lang等库来将HTML格式文本...

    富文本编辑器生成的含有图片的内容转换成word文档 java 后端下载

    wangEditor 等富文本内容 (含图片: base64格式、http的网络图片等) 转换成word java后端下载

    通过java将word文档转换成html页面

    网上的一些java读取word文件写的不是很详细(不知道是我自己的水平不行?) 这里用jacob将word文档转换成html 并且是按原格式显示 真的很实用

    java poi把word文档转化为html,支持doc。

    这个是完整的一个poi把word文档转化为html,导入eclipase就可以运行。 不至于骗一点积分。

    在线预览-java实现word和excel转html

    java实现在线预览,将word,excel转换成html

    JAVA过滤标签实现将html内容转换为文本的方法示例

    JAVA过滤标签实现将html内容转换为文本的方法示例 本文主要介绍了使用JAVA过滤标签实现将html内容转换为文本的方法,涉及java针对HTML代码的正则替换相关操作技巧。以下是实现该方法的详细知识点: 1. 使用正则...

    java字符串验证工具

    sql防注入方法 过滤通过页面表单提交的字符 用特殊的字符连接字符串 将字符串数组转换为逗号链接的字符串,并且去掉最后一个逗号 分割字符串 字符串字符集转换 编码转换方法 将html文档转换为纯文本字符串方法 ...

    富文本html转word,word文件合并.zip

    java富文本html转word,word文件合并

    java 文本学习资料

    Java Web编程是软件开发中的重要领域,主要用于构建交互式的网页应用程序。本学习资料将深入讲解这一主题,尤其针对初学者,旨在提供一个全面且易懂的学习路径。 在第一部分,我们首先会接触到JAVA WEB编程的基础...

    JAVA使用itextpdf实现HTML转PDF

    java实现html转pdf,包含后端代码,html测试页面,pom依赖,jar包,如页面过于复杂需调整页面,有些样式itextpdf不支持,请寻找其它样式替换。

    java根据富文本生成pdf文件过程解析

    Java根据富文本生成pdf文件过程解析是指使用Java语言将富文本内容转换为pdf文件的过程。该过程主要涉及到HTML解析、CSS样式应用、PDF文件生成等技术。 首先,需要使用HTML解析器来解析富文本内容,并将其转换为普通...

    巧用Java程序把Word转换成Html文件

    Jacob是Java和Windows下的Com桥,通过它我们可以在Java程序中调用COM组件。如果你的JDK是1.4,那你需要下载Jacob1.9的jni库才能正常运行,早期版本在JDK1.4下有些问题。

    java代码转换成html.pdf

    【Java代码转换成HTML】 在IT行业中,有时我们需要将源代码文件,如Java代码,转换成HTML格式以便于在网络上传播或在线阅读。这个过程涉及到对源代码的解析和转义,确保HTML能够正确地呈现代码的结构和样式。 HTML...

    java实现html转txt

    只需要把html读出来,放到方法里面,就能得到html的文本,很好的方法,我找了好久,现在发上来

    使用flexmark在Java中将Markdown格式文本转换成HTML格式文本

    最近做的项目有将Markdown语法转换成HTML语法的这么一个需求 然鹅 自己写个Utils太麻烦了 为此找到了个很实用的转换工具包:flexmark 第一步:引入flexmark的依赖: com.vladsch.flexmark flexmark-all 0.50.42 ...

    利用POI将word转换成html实现在线阅读

    利用POI将word转换成html实现在线阅读

Global site tag (gtag.js) - Google Analytics