package cn.jxsme.util.tool;
import java.util.regex.Pattern;
/*
* autho huangjin green eat
*Oct 17, 2008
*/
public class FifterHtml {
public static String Html2Text(String inputString) {
String htmlStr = inputString; //��html��ǩ���ַ�
String textStr ="";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try {
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; //����script��������ʽ{��<script[^>]*?>[\\s\\S]*?<\\/script> }
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; //����style��������ʽ{��<style[^>]*?>[\\s\\S]*?<\\/style> }
// String regEx_html = "<[^>]+>"; //����HTML��ǩ��������ʽ
String regEx_html = "<[.[^<]]*>";
p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); //����script��ǩ
p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); //����style��ǩ
p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); //����html��ǩ
textStr= htmlStr.replaceAll("<td>", "");
textStr=htmlStr.replaceAll("<","");
textStr=htmlStr.replaceAll(">","");
textStr = htmlStr;
}catch(Exception e) {
System.err.println("yjxHtml2Text().Html2Text: " + e.getMessage());
}
return textStr;//�����ı��ַ�
}
public static String FifterSQL(String str)
{
return str.replaceAll(".*([';]+|(--)+).*", " ");
}
public static String TestToHtml(String input){
if (input == null) {
return null;
}
if (input.length() == 0) {
return input;
}
input = input.replaceAll(" ", " ");
input = input.replaceAll("\r\n", "<br/>");
input = input.replaceAll("\n", "<br/>");
return input;
}
public static String HtmlToTest(String input){
if (input == null) {
return null;
}
if (input.length() == 0) {
return input;
}
input = input.replaceAll( " "," ");
input = input.replaceAll("<br/>","\r\n");
input = input.replaceAll("<br/>","\n");
return input;
}
}
分享到:
相关推荐
这种方法的优点在于,它可以正确处理嵌套标签、自闭合标签以及HTML属性,同时提供了更多的灵活性,比如保留特定的HTML部分或替换某些内容。 在实际应用中,应根据项目需求和性能考虑选择合适的过滤方法。如果HTML...
具体到实现细节,"易语言html元素过滤源码"可能包含了以下几个部分: 1. **HTML文件读取**:利用易语言的文件操作函数读取本地或远程的HTML文件。 2. **XMLhttp请求**:使用易语言的网络组件,创建XMLhttp请求,设置...
根据提供的文件信息,本文将详细解释C#中用于过滤HTML标签的几种方法,并对每一步进行深入解析。此过程涉及正则表达式、字符串替换以及HTML实体编码转换等技术细节。 ### C#过滤HTML标签的方法 #### 方法一:使用...
在IT行业中,过滤HTML标签是常见的数据处理任务,特别是在处理用户输入、数据分析或者网页抓取时。这个主题的标题“过滤HTML标签类”暗示我们将会探讨一个专门用于去除或处理HTML标签的类或库。这类工具通常用于确保...
总的来说,HTML代码过滤技术是网络安全的重要组成部分,它通过对HTML内容的智能分析和处理,有效防止了恶意代码的传播,保护了用户的隐私和系统的安全。在实际应用中,需要结合具体场景选择合适的过滤策略和技术,以...
通过解析和遍历HTML文档,我们可以筛选出需要的部分,而忽略其余内容。 在易语言中实现HTML过滤,通常涉及到以下几个核心概念: 1. **字符串操作**:易语言提供了丰富的字符串处理函数,如“查找”、“替换”等,...
### Java正则表达式过滤HTML标签 在处理文本数据时,经常会遇到需要从HTML文档中提取纯文本内容的需求。为了去除HTML标记并保留有意义的文字部分,可以利用Java中的正则表达式来实现这一功能。本篇文章将详细介绍...
"wxParse过滤HTML标签.rar"就是为了解决这个问题而提供的一个解决方案。 wxParse是一个强大的微信小程序富文本解析插件,它能够帮助开发者将HTML内容转换成小程序可以识别和渲染的格式。主要目标是过滤掉HTML标签,...
这通常在HTML的`<head>`部分完成,例如: ```html <!DOCTYPE html> <html lang="zh"> , initial-scale=1.0"> <title>Vue3 HTML嵌入 <script src="https://unpkg.com/vue@next"></script> <!-- Vue3应用...
2. **过滤HTML代码**:过滤HTML代码是为了防止跨站脚本攻击(XSS)。这可以通过以下方式实现: - 使用Html Agility Pack库解析和操作HTML字符串,移除或转义可能的恶意脚本。 - 使用ASP.NET的内置验证控件和...
用于过滤html的标签,应用java语言,提取html中文本的部分
- **HTML标签检测**: 过滤器会检查输入字符串中是否包含HTML标签,如`<script>`, `<iframe>`, `<img>`等,这些标签通常被用于XSS攻击。如果发现这些标签,过滤器会采取相应的措施,如删除、替换或转义,以确保它们...
在Android开发中,HTML::Pipeline是一个用于处理和过滤HTML内容的工具类库。这个库的主要目的是将HTML源码转换为更便于操作的数据结构,比如Markdown或者其他格式,以便于在应用程序中进行显示、存储或者进一步处理...
易语言html元素过滤源码可能包含以下几个部分: 1. HTML解析模块:这部分代码负责将HTML字符串转化为可操作的数据结构,如树形结构,便于遍历和访问各个元素。 2. 元素匹配规则:定义了需要过滤的HTML元素特征,...
综上所述,JavaWeb页面过滤器之编码过滤是确保Web应用正常运行,特别是处理中文字符时不可或缺的一部分。通过理解其原理和实现,开发者可以更好地控制和优化Web应用的字符编码,从而提供更高质量的服务。在MyEclipse...
在IT领域,尤其是在数据处理和网页解析中,"正则过滤HTML"是一个常见的任务,它涉及到文本处理、正则表达式以及HTML的理解。这个任务的主要目的是通过正则表达式从HTML源码中提取或移除特定的信息,例如标签、属性、...
例如,我们可以使用“查找字符串”函数来寻找特定的HTML标签,然后通过“替换字符串”函数删除或替换不需要的部分。对于嵌套标签的处理,可以利用循环和递归等编程结构来实现。 在本压缩包中的"易语言HTML源码过滤...
标题“java使用正则表达式过滤html标签”意味着文章的主题是关于如何使用Java编程语言结合正则表达式来清除或处理HTML标签,这是在处理Web开发中经常会遇到的需求。描述中提到,文章将介绍这一技术,并希望读者通过...
在`testTable1.html`中,可能还会有其他的HTML元素,如按钮或下拉菜单,用来触发过滤操作。同时,CSS(Cascading Style Sheets)可能被用来美化过滤后的表格样式,使其更具可读性。 总的来说,"页面内容的选择过滤...
总结,AngularJS的过滤器是其强大功能的一部分,帮助开发者轻松地处理和展示数据。无论是内置过滤器还是自定义过滤器,都能显著提升应用的交互性和用户体验。通过深入理解过滤器的工作原理和用法,我们可以更好地...