采用htmlparser 来解决将html串中抽取出文本串。
String str = "<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN\">" +
"<HTML><HEAD>" +
"<META http-equiv=Content-Type content=\"text/html; charset=gb2312\">" +
"<META content=\"MSHTML 6.00.6000.17095\" name=GENERATOR><LINK " +
"href=\"BLOCKQUOTE{margin-Top: 0px; margin-Bottom: 0px; margin-Left: 2em}\"" +
"rel=stylesheet></HEAD>" +
"<BODY style=\"FONT-SIZE: 10pt; MARGIN: 10px; FONT-FAMILY: verdana\">" +
"<DIV><FONT face=Verdana size=2>helll,测试邮件</FONT></DIV>" +
"<DIV><FONT face=Verdana size=2></FONT> </DIV>" +
"<DIV align=left><FONT face=Verdana color=#c0c0c0 size=2>2011-03-03 " +
"</FONT></DIV><FONT face=Verdana size=2>"+
"<HR style=\"WIDTH: 122px; HEIGHT: 2px\" align=left SIZE=2>"+
"<DIV><FONT face=Verdana color=#c0c0c0 size=2><SPAN>shopeye7</SPAN> " +
"</FONT></DIV></FONT></BODY></HTML>" ;
System.out.println(StringUtil.html2Str(str));
效果:
helll,测试邮件 2011-03-03 shopeye7
方法:
/**
* @param html
* @return
*/
public static String html2Str(String html) {
try {
html = nvl(html);
Parser parser = Parser.createParser(html, "utf-8");
TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
return visitor.getExtractedText();
} catch (Exception ex) {
return null;
}
}
分享到:
相关推荐
在编写Java代码时,如果字符串过长,比如长篇幅的HTML代码或者SQL语句,就很难用一对双引号括起来,因为在java中,字符串常量是...本工具用于把多行长篇幅文本转换成Java的StringBuffer类来操作,可以正向和反向转换。
lang和lang3这两个包里有转换所需的工具类 org.jsoup jsoup 1.11.3 commons-lang commons-lang 2.6 org.apache.commons commons-lang3 3.4 第二步:直接使用即可: import org.apache.commons.lang....
本代码实现html文件转换成一个图片的功能。附件包含所需要的包。 注:该代码转换的html文件必须一个屏幕能展现出来的,如果内容太多一个屏幕展现不出来则不能很好的转换。所以该代码只适用于内容不太多的html文件。...
在Java中轻松将HTML格式文本转换为纯文本是一项常见的需求,例如在爬虫、文本处理、数据分析等领域都需要将HTML格式文本转换为纯文本。为满足这个需求,本文将介绍一种使用Jsoup和commons-lang等库来将HTML格式文本...
wangEditor 等富文本内容 (含图片: base64格式、http的网络图片等) 转换成word java后端下载
网上的一些java读取word文件写的不是很详细(不知道是我自己的水平不行?) 这里用jacob将word文档转换成html 并且是按原格式显示 真的很实用
这个是完整的一个poi把word文档转化为html,导入eclipase就可以运行。 不至于骗一点积分。
java实现在线预览,将word,excel转换成html
JAVA过滤标签实现将html内容转换为文本的方法示例 本文主要介绍了使用JAVA过滤标签实现将html内容转换为文本的方法,涉及java针对HTML代码的正则替换相关操作技巧。以下是实现该方法的详细知识点: 1. 使用正则...
sql防注入方法 过滤通过页面表单提交的字符 用特殊的字符连接字符串 将字符串数组转换为逗号链接的字符串,并且去掉最后一个逗号 分割字符串 字符串字符集转换 编码转换方法 将html文档转换为纯文本字符串方法 ...
java富文本html转word,word文件合并
Java Web编程是软件开发中的重要领域,主要用于构建交互式的网页应用程序。本学习资料将深入讲解这一主题,尤其针对初学者,旨在提供一个全面且易懂的学习路径。 在第一部分,我们首先会接触到JAVA WEB编程的基础...
java实现html转pdf,包含后端代码,html测试页面,pom依赖,jar包,如页面过于复杂需调整页面,有些样式itextpdf不支持,请寻找其它样式替换。
Java根据富文本生成pdf文件过程解析是指使用Java语言将富文本内容转换为pdf文件的过程。该过程主要涉及到HTML解析、CSS样式应用、PDF文件生成等技术。 首先,需要使用HTML解析器来解析富文本内容,并将其转换为普通...
Jacob是Java和Windows下的Com桥,通过它我们可以在Java程序中调用COM组件。如果你的JDK是1.4,那你需要下载Jacob1.9的jni库才能正常运行,早期版本在JDK1.4下有些问题。
【Java代码转换成HTML】 在IT行业中,有时我们需要将源代码文件,如Java代码,转换成HTML格式以便于在网络上传播或在线阅读。这个过程涉及到对源代码的解析和转义,确保HTML能够正确地呈现代码的结构和样式。 HTML...
只需要把html读出来,放到方法里面,就能得到html的文本,很好的方法,我找了好久,现在发上来
最近做的项目有将Markdown语法转换成HTML语法的这么一个需求 然鹅 自己写个Utils太麻烦了 为此找到了个很实用的转换工具包:flexmark 第一步:引入flexmark的依赖: com.vladsch.flexmark flexmark-all 0.50.42 ...
利用POI将word转换成html实现在线阅读