public static String Html2Text(String inputString) {
String htmlStr = inputString; // 含html标签的字符串
String textStr = "";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try {
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; // 定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>
// }
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // 定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>
// }
String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式
p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); // 过滤script标签
p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); // 过滤style标签
p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); // 过滤html标签
textStr = htmlStr;
} catch (Exception e) {
System.err.println("Html2Text: " + e.getMessage());
}
return textStr;// 返回文本字符串
}
分享到:
相关推荐
在Java编程中,"java过滤html代码"是一个常见的需求,主要目的是为了安全考虑,比如防止XSS(跨站脚本攻击)或者为了提取纯文本内容。这个任务可以通过使用正则表达式来实现,正如描述中提到的那样。下面我们将详细...
#### 四、Asp过滤Html代码方法一 这种方法使用了循环来遍历所有匹配到的HTML标签,并逐个移除它们: ```vbscript Function RemoveHTML(strHTML) Dim objRegExp, Match, Matches Set objRegExp = New RegExp ...
本文介绍了一个用于过滤HTML中的潜在危险元素和属性的PHP函数——`uh()`。该函数主要通过正则表达式和`preg_replace()`函数实现对特定标签和属性的过滤。 #### 二、核心功能 ##### 1. 过滤多余空白 - **目的**:...
HTML代码过滤技术是一种网络安全与网页内容管理的重要手段。在互联网环境中,HTML(HyperText Markup Language)是构建网页的基础,但同时也可能被恶意用户利用来执行有害操作,如注入跨站脚本(XSS)、钓鱼攻击等。...
### ASP过滤实现过滤所有HTML代码知识点详解 #### 一、ASP环境与文本处理背景 在Web开发领域,ASP(Active Server Pages)是一种服务器端脚本技术,它允许开发者使用脚本语言(如VBScript或JScript)来创建动态...
过滤HTML、JavaScript和CSS代码是防止跨站脚本攻击(XSS)的关键步骤。XSS攻击允许恶意用户注入可执行的脚本,从而影响其他用户的浏览器,窃取数据或破坏网站功能。以下将详细阐述在Asp.net中如何进行这些类型的代码...
用于过滤HTML代码的工具,小巧,而且听实用的
在C#编程中,过滤HTML方法是常见的需求,特别是在处理用户输入、网页抓取或数据清洗等场景。本文将深入探讨两种主要的C#过滤HTML标签的方法,帮助开发者选择最适合自己项目的技术方案。 首先,我们要明确HTML过滤的...
2. **过滤HTML代码**:过滤HTML代码是为了防止跨站脚本攻击(XSS)。这可以通过以下方式实现: - 使用Html Agility Pack库解析和操作HTML字符串,移除或转义可能的恶意脚本。 - 使用ASP.NET的内置验证控件和...
包括常用过滤html标签、截取字符串及获得本页地址三大函数。 过滤html标签函数:如果只是把类似的标记统统去掉,并不需要考虑别的。 截取字符串函数:截取字符串并限制字符串长度,多于给定的长度 获得本页地址:...
为了防止XSS攻击,开发者通常会使用各种方法,其中包括使用特定的库和过滤器代码。在这个"javaxss必备jar包及过滤器代码"的主题中,我们将深入探讨XSS防护的原理、jar包的作用以及如何使用过滤器来增强应用的安全性...
根据提供的文件信息,本文将...以上代码展示了如何在C#中利用正则表达式和字符串处理方法来过滤HTML标签及其相关内容。这种方法不仅可以有效去除HTML标签,还能处理各种HTML实体,从而确保最终输出的安全性和准确性。
下面是一个简单的过滤器示例代码,用于展示过滤器的基本使用方法: ```java package me.gacl.web.filter; import java.io.IOException; import javax.servlet.Filter; import javax.servlet.FilterChain; import ...
在这个实例代码中,我们将深入探讨Servlet过滤器的使用,以及如何通过它来增强应用程序的功能。 首先,我们需要了解Servlet过滤器的基本原理。在`web.xml`部署描述符中,我们可以通过`<filter>`和`<filter-mapping>...
在Java中,过滤Html标签的方法有多种,包括使用正则表达式、使用HtmlParser等。下面我们将详细介绍使用正则表达式过滤Html标签的方法。 使用正则表达式过滤Html标签的关键是定义正确的正则表达式。正则表达式是一种...
此段代码定义了一个名为`FilterHTML`的私有方法,它接收一个字符串参数`contents`并返回一个新的字符串。其主要功能是从输入字符串中移除所有的HTML标签,返回只包含文本内容的字符串。 #### 函数实现细节 1. **...
本文所介绍的“wap代码html过滤器”正是这样一款工具,其主要功能在于对标准HTML代码进行过滤和转换,使其适应WAP浏览器的显示需求。具体来说,该过滤器实现了以下几项核心操作: 1. **替换HTML标签为WAP兼容的标签...
标题提到的"过滤代码工程文件注释"是一项常见的优化策略,其主要目的是减少代码占用的空间,尤其是对于需要打包发布的项目而言,注释的去除可以显著减小文件大小,提高下载和部署的效率。这通常发生在项目构建或发布...
Sql过滤html不像正则表达式那么方便,这个代码是模拟替换。
标题“易语言过滤html文本源码”暗示了我们将讨论如何使用易语言编写代码来处理HTML文档。这个过程通常涉及到字符串处理、正则表达式和DOM解析等技术。 描述中的“@易语言源码分享站”表明这是一个共享源码的平台,...