采用htmlparser 来解决将html串中抽取出文本串。
String str = "<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN\">" +
"<HTML><HEAD>" +
"<META http-equiv=Content-Type content=\"text/html; charset=gb2312\">" +
"<META content=\"MSHTML 6.00.6000.17095\" name=GENERATOR><LINK " +
"href=\"BLOCKQUOTE{margin-Top: 0px; margin-Bottom: 0px; margin-Left: 2em}\"" +
"rel=stylesheet></HEAD>" +
"<BODY style=\"FONT-SIZE: 10pt; MARGIN: 10px; FONT-FAMILY: verdana\">" +
"<DIV><FONT face=Verdana size=2>helll,测试邮件</FONT></DIV>" +
"<DIV><FONT face=Verdana size=2></FONT> </DIV>" +
"<DIV align=left><FONT face=Verdana color=#c0c0c0 size=2>2011-03-03 " +
"</FONT></DIV><FONT face=Verdana size=2>"+
"<HR style=\"WIDTH: 122px; HEIGHT: 2px\" align=left SIZE=2>"+
"<DIV><FONT face=Verdana color=#c0c0c0 size=2><SPAN>shopeye7</SPAN> " +
"</FONT></DIV></FONT></BODY></HTML>" ;
System.out.println(StringUtil.html2Str(str));
效果:
helll,测试邮件 2011-03-03 shopeye7
方法:
/**
* @param html
* @return
*/
public static String html2Str(String html) {
try {
html = nvl(html);
Parser parser = Parser.createParser(html, "utf-8");
TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
return visitor.getExtractedText();
} catch (Exception ex) {
return null;
}
}
分享到:
相关推荐
在编写Java代码时,如果字符串过长,比如长篇幅的HTML代码或者SQL语句,就很难用一对双引号括起来,因为在java中,字符串常量是...本工具用于把多行长篇幅文本转换成Java的StringBuffer类来操作,可以正向和反向转换。
lang和lang3这两个包里有转换所需的工具类 org.jsoup jsoup 1.11.3 commons-lang commons-lang 2.6 org.apache.commons commons-lang3 3.4 第二步:直接使用即可: import org.apache.commons.lang....
本代码实现html文件转换成一个图片的功能。附件包含所需要的包。 注:该代码转换的html文件必须一个屏幕能展现出来的,如果内容太多一个屏幕展现不出来则不能很好的转换。所以该代码只适用于内容不太多的html文件。...
在Java编程中,将文本内容中的符合URL格式的字符串转换为超链接是一项常见的需求,特别是在处理用户生成内容或网络爬虫应用中。本教程将详细讲解如何使用Java实现这一功能,主要涉及URL正则表达式匹配和字符串处理...
在Java中轻松将HTML格式文本转换为纯文本是一项常见的需求,例如在爬虫、文本处理、数据分析等领域都需要将HTML格式文本转换为纯文本。为满足这个需求,本文将介绍一种使用Jsoup和commons-lang等库来将HTML格式文本...
3. **转化过程**: 转换Word到HTML的过程通常涉及解析Word文档的内容,包括文本、样式、图片等,然后将这些元素重构为HTML标签。POI库提供API来访问Word文档的各个部分,如段落、表格、列表、图片等。 4. **使用步骤...
Java转化成HTML涉及到的是将Java程序的输出或者数据转换成HTML格式,以便在Web浏览器中展示。而HTML转Java则可能指的是将HTML页面的内容提取出来,用Java进行处理或者解析。这两种转换在Web开发、数据迁移、爬虫等...
要将HTML转换为Word文档,我们需要遵循以下步骤: 1. **添加依赖**:在项目中引入docx4j库。如果你使用的是Maven,可以在pom.xml文件中添加如下依赖: ```xml <groupId>org.docx4j <artifactId>docx4j 版本号...
在IT行业中,转换文档格式是常见的需求之一,例如将HTML转换为RTF,或者反过来将RTF转换为HTML,甚至将HTML转换为PDF。这些转换在处理文本内容、排版和样式时尤其有用,比如在网页与桌面应用程序之间进行数据交换,...
下面我们将详细讨论如何在Java后端实现从wangEditor生成的富文本内容(包括base64编码的图片和网络图片)转换为Word文档,并提供下载功能。 首先,我们需要了解wangEditor生成的内容结构。wangEditor会将用户编辑的...
在HTML页面中,HTMLArea会将一个普通的textarea元素转换成一个富文本编辑器,用户可以通过可视化的工具栏来执行各种编辑操作。 为了使用HTMLArea,开发者需要在项目中引入相关的JavaScript库和CSS样式文件。这些...
3. **内容转换**:解析出的内容需要转化为HTML,这包括文本、样式、表格等元素。对于Word,可以利用OpenXML SDK的Java实现(如Apache POI)或者自定义解析XML并生成HTML代码;Excel的处理类似,需要将单元格、公式、...
总的来说,通过组合Apache POI和jsoup,我们可以实现在Java中将HTML转换为Word的功能。这为从网页抓取内容或生成报告提供了便利。不过,由于这种转换方式不支持视频,如果你有视频内容需要导出,可能需要寻找其他...
将HTML转换为Word文档的需求在数据处理、报告生成或网页内容导出时经常出现。Apache POI是Java库,专门用于处理Microsoft Office格式的文件,如Word(.doc和.docx)、Excel(.xls和.xlsx)等。在这个小例子中,我们...
因此,将HTML转换为PDF需要正确处理CSS样式、图像、链接等元素。 要使用iTextPDF在Java中实现HTML到PDF的转换,首先确保项目中引入了所需的依赖。在Maven项目中,可以在`pom.xml`文件中添加如下依赖: ```xml ...
在实际项目中,还可以考虑其他替代方案,如Apache POI,这是一个专门处理Microsoft Office格式的Java库,虽然它不直接支持Word到HTML的转换,但可以通过解析Word文档并手动构建HTML结构来实现。另一种方法是使用...
转换过程涉及到解析Word文档的XML结构,并将其转换成HTML标签。 Java中一个常用的库是Apache POI,它是一个用于处理Microsoft Office格式文件的库,包括Word文档。Apache POI提供了一套API,允许开发者读取、写入和...
Markdown是一种轻量级的标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成结构化的HTML(超文本标记语言)文档。在IT行业中,Markdown因其简洁、直观的语法,常用于编写软件文档、博客文章、README...
开发者可能创建了一个服务接口,接收PDF文件,然后调用相应的转换方法,最后返回HTML字符串或者直接将HTML写入文件。转换过程中,需要注意保持原始PDF的样式和排版,这可能涉及到解析PDF的字体、颜色、图像和页面...