public static String Html2Text(String inputString) {
String htmlStr = inputString; //含html标签的字符串
String textStr ="";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try {
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; //定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script> }
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; //定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style> }
String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式
p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); //过滤script标签
p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); //过滤style标签
p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); //过滤html标签
textStr = htmlStr;
}catch(Exception e) {
System.err.println("Html2Text: " + e.getMessage());
}
return textStr;//返回文本字符串
}
分享到:
相关推荐
可以使用StringUtils.replaceEach函数实现批量替换,例如将所有的html标签替换为指定的文本。 3. 使用ArrayList存储需要保留的html标签:在将html内容转换为文本时,需要保留一些html标签,例如img标签、table标签...
需要注意的是,正则表达式处理HTML有一定的局限性,特别是当HTML标签嵌套或者存在复杂结构时。对于更复杂的HTML处理,可能需要使用像Jsoup这样的库,它提供了更强大的解析和操作HTML的能力。 在实际项目中,`README...
例如,它们可能会将尖括号()转换为HTML实体,从而阻止HTML标签的执行。 接下来,我们要讨论的是过滤器(Filter)在Java Web应用程序中的角色。在Java Servlet规范中,过滤器是一个接口,允许开发者在请求到达目标...
其中一个常用的库是OWASP Java Encoder,它提供了一系列的函数用于正确地编码和过滤HTML、JavaScript、CSS和URL等内容。然而,给定的文件`CharacterFiltrationHtml.java`似乎是一个自定义实现的过滤方法,具体实现...
5. **JSP标签库**:在JSP页面中,我们可以使用自定义标签库(JSTL)来调用JavaBean中的过滤方法。例如,`${keywordFilter.filter(input)}"`,其中`keywordFilter`是JavaBean实例,`filter`是处理方法,`input`是待...
它们定义了一组自定义标签,这些标签可以被JSP开发者在页面上使用,类似于HTML标签,但提供了更复杂的功能。这些标签通常封装了特定的功能或业务逻辑,简化了代码并提高了可读性。 3. **Google Maps API**:Google ...
通常,这样的过滤器会移除或转义可能的恶意HTML标签,比如`<script>`、`<iframe>`等,以及一些特殊的属性,如`onload`、`onclick`等,这些都是JavaScript事件处理函数,可能会被用于执行恶意代码。 防止HTML脚本...
在本文中,我们将探讨Java过滤器的概念,以及 ExtremeDoc文本过滤器在实际开发中的应用和潜在用途。 Java过滤器是Java编程中一种常见的设计模式,主要用于处理数据流或请求。它们通常被用在网络应用、文件系统操作...
6. **兼容性和扩展性**: HTMLParser兼容Java 7及更高版本,并且可以通过自定义处理器和过滤器进行扩展,以适应特定的应用场景。 7. **性能优化**: 尽管DOM模型提供了方便的操作接口,但在大型HTML文档中可能会消耗...
这段代码定义了一个名为`RemoveHTML`的函数,它接受一个包含HTML的字符串作为参数,然后使用正则表达式来移除所有的HTML标签。 核心部分在于`objRegExp.Pattern = "<.+?>"`这一行。这里的正则表达式`<.+?>`是用来...
它将HTML代码与Java代码相结合,允许开发者在页面上嵌入Java表达式和脚本元素。JSP会自动将内容转化为Servlet,然后由Servlet处理请求并生成响应。JSP简化了Web开发,因为它允许设计人员和开发人员分别处理页面布局...
6. **JSTL(JavaServer Pages Standard Tag Library)**:JSTL是一组用于JSP的标准标签库,包括核心标签、XML标签、JDBC标签、JSTL函数等。13JSTL标准标签库.ppt可能讲述了如何使用JSTL简化JSP页面,如条件判断、...
16.4、Html标签 16.4.1、<html:form>标签 16.4.2、<html:text>与<html:password>标签 16.4.3、<html:radio>标签 16.4.5、<html:textarea>标签 16.4.6、<html:hidden>...
4. **JSTL(JavaServer Pages Standard Tag Library)标签库**:JSTL是一组用于JSP的标签库,它提供了核心标签、XML标签、SQL标签、函数标签等,简化了JSP页面的编写,提高代码的可读性和可维护性。例如,c:forEach...
GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...
GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...
GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...
GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...
GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...
GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...