public static String Html2Text(String inputString) {
String htmlStr = inputString; //含html标签的字符串
String textStr ="";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
java.util.regex.Pattern p_html1;
java.util.regex.Matcher m_html1;
try {
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; //定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script> }
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; //定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style> }
String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式
String regEx_html1 = "<[^>]+";
p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); //过滤script标签
p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); //过滤style标签
p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); //过滤html标签
p_html1 = Pattern.compile(regEx_html1,Pattern.CASE_INSENSITIVE);
m_html1 = p_html1.matcher(htmlStr);
htmlStr = m_html1.replaceAll(""); //过滤html标签
textStr = htmlStr;
}catch(Exception e) {
System.err.println("Html2Text: " + e.getMessage());
}
return textStr;//返回文本字符串
}
分享到:
相关推荐
"Java 中过滤Html标签" Java 中过滤Html标签是指在Java语言中删除或替换HTML标签的过程。这种技术广泛应用于Web开发中,例如删除恶意代码、防止XSS攻击、显示纯文本等。 在Java中,过滤Html标签的方法有多种,包括...
根据提供的文件信息,本文将详细解释C#中用于过滤HTML标签的几种方法,并对每一步进行深入解析。此过程涉及正则表达式、字符串替换以及HTML实体编码转换等技术细节。 ### C#过滤HTML标签的方法 #### 方法一:使用...
HTML(HyperText Markup Language)是用于创建网页的标准标记语言,而过滤HTML文本则是为了提取其中的有用信息,如文本内容、链接、图片等。 标题“易语言过滤html文本源码”暗示了我们将讨论如何使用易语言编写...
### Java正则表达式过滤HTML标签 在处理文本数据时,经常会遇到需要从HTML文档中提取纯文本内容的需求。为了去除HTML标记并保留有意义的文字部分,可以利用Java中的正则表达式来实现这一功能。本篇文章将详细介绍...
在Java编程中,"java过滤html代码"是一个常见的需求,主要目的是为了安全考虑,比如防止XSS(跨站脚本攻击)或者为了提取纯文本内容。这个任务可以通过使用正则表达式来实现,正如描述中提到的那样。下面我们将详细...
在C#编程中,过滤HTML方法是常见的需求,特别是在处理用户输入、网页抓取或数据清洗等场景。本文将深入探讨两种主要的C#过滤HTML标签的方法,帮助开发者选择最适合自己项目的技术方案。 首先,我们要明确HTML过滤的...
可以实现java过滤html标签、过滤指定标签等等
易语言源码易语言过滤html文本源码.rar 易语言源码易语言过滤html文本源码.rar 易语言源码易语言过滤html文本源码.rar 易语言源码易语言过滤html文本源码.rar 易语言源码易语言过滤html文本源码.rar 易语言源码...
过滤HTML标签的方法之一,非常好用,可以根据自己的需求来过滤相应的标签
### ASP 过滤HTML知识点详解 #### 一、概述 在Web开发中,尤其是在使用ASP(Active Server Pages)进行开发时,对用户提交的数据进行HTML标签过滤是非常重要的一个环节。这是因为未经处理的用户输入可能会包含恶意...
在IT行业中,过滤HTML标签是常见的数据处理任务,特别是在处理用户输入、数据分析或者网页抓取时。这个主题的标题“过滤HTML标签类”暗示我们将会探讨一个专门用于去除或处理HTML标签的类或库。这类工具通常用于确保...
标题“过滤HTML标签函数”所指的就是这样一个功能,它能够帮助我们清理和标准化文本,防止XSS(跨站脚本攻击)等安全问题,或者仅仅是为了提取纯文本内容。 描述中提到的“过滤html标签的代码,如果只是把类似的...
虽然在处理HTML和正则表达式时我们通常不会直接用到Boost库,但在其他C++项目中,Boost的正则表达式库(Boost.Regex)也可以用来过滤HTML中的制表符,其使用方式与Python的`re`模块类似。 总结起来,"正则 过滤 ...
"wxParse过滤HTML标签.rar"就是为了解决这个问题而提供的一个解决方案。 wxParse是一个强大的微信小程序富文本解析插件,它能够帮助开发者将HTML内容转换成小程序可以识别和渲染的格式。主要目标是过滤掉HTML标签,...
在IT行业中,尤其是在Web开发和数据处理领域,过滤HTML元素字符是一项重要的任务。这主要涉及到对用户输入的数据进行清理和安全处理,以防止跨站脚本(XSS)攻击和其他潜在的安全威胁。本文将深入探讨如何过滤HTML...
本文将深入探讨如何使用易语言过滤HTML文本,去除HTML代码,以提取纯文本内容。这对于数据清洗、网页抓取或者信息处理等场景非常有用。 首先,我们要明白HTML(HyperText Markup Language)是用于创建网页的标准...
2. **过滤HTML代码**:过滤HTML代码是为了防止跨站脚本攻击(XSS)。这可以通过以下方式实现: - 使用Html Agility Pack库解析和操作HTML字符串,移除或转义可能的恶意脚本。 - 使用ASP.NET的内置验证控件和...
为了便于复用,可以创建一个工具类,封装读取和过滤HTML的功能。例如: ```java public class HtmlFilter { public static String filterHtmlTags(String html, String... tagsToFilter) { // 使用Jsoup或其他...
`UnHtmlScript`工具类就是为了解决这个问题而设计的,它能够帮助开发者有效地过滤掉HTML、CSS和JavaScript标签,提取出纯文本内容。 HTML标签是用来构建网页结构的,例如`<p>`用于段落,`<a>`用于链接等。CSS则是...