`
cooler1217
  • 浏览: 378681 次
  • 性别: Icon_minigender_1
  • 来自: 长春
社区版块
存档分类
最新评论

Java正则表达式过滤html标签

 
阅读更多
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* <p>
* Title: HTML相关的正则表达式工具类
* </p>
* <p>
* Description: 包括过滤HTML标记,转换HTML标记,替换特定HTML标记
* </p>
* <p>
* Copyright: Copyright (c) 2006
* </p>
*
* @author hejian
* @version 1.0
* @createtime 2006-10-16
*/
public class HtmlRegexpUtil {
private final static String regxpForHtml = "<([^>]*)>"; // 过滤所有以<开头以>结尾的标签
private final static String regxpForImgTag = "<\\s*img\\s+([^>]*)\\s*>"; // 找出IMG标签
private final static String regxpForImaTagSrcAttrib = "src=\"([^\"]+)\""; // 找出IMG标签的SRC属性
/**
*
*/
public HtmlRegexpUtil() {
// TODO Auto-generated constructor stub
}
/**
*
* 基本功能:替换标记以正常显示
* <p>
*
* @param input
* @return String
*/
public String replaceTag(String input) {
if (!hasSpecialChars(input)) {
return input;
}
StringBuffer filtered = new StringBuffer(input.length());
char c;
for (int i = 0; i <= input.length() - 1; i++) {
c = input.charAt(i);
switch (c) {
case '<':
filtered.append("&lt;");
break;
case '>':
filtered.append("&gt;");
break;
case '"':
filtered.append("&quot;");
break;
case '&':
filtered.append("&amp;");
break;
default:
filtered.append(c);
}
}
return (filtered.toString());
}
/**
*
* 基本功能:判断标记是否存在
* <p>
*
* @param input
* @return boolean
*/
public boolean hasSpecialChars(String input) {
boolean flag = false;
if ((input != null) && (input.length() > 0)) {
char c;
for (int i = 0; i <= input.length() - 1; i++) {
c = input.charAt(i);
switch (c) {
case '>':
flag = true;
break;
case '<':
flag = true;
break;
case '"':
flag = true;
break;
case '&':
flag = true;
break;
}
}
}
return flag;
}
 
/**
*
* 基本功能:过滤所有以"<"开头以">"结尾的标签
* <p>
*
* @param str
* @return String
*/
public static String filterHtml(String str) {
Pattern pattern = Pattern.compile(regxpForHtml);
Matcher matcher = pattern.matcher(str);
StringBuffer sb = new StringBuffer();
boolean result1 = matcher.find();
while (result1) {
matcher.appendReplacement(sb, "");
result1 = matcher.find();
}
matcher.appendTail(sb);
return sb.toString();
}
/**
*
* 基本功能:过滤指定标签
* <p>
*
* @param str
* @param tag
*            指定标签
* @return String
*/
public static String fiterHtmlTag(String str, String tag) {
String regxp = "<\\s*" + tag + "\\s+([^>]*)\\s*>";
Pattern pattern = Pattern.compile(regxp);
Matcher matcher = pattern.matcher(str);
StringBuffer sb = new StringBuffer();
boolean result1 = matcher.find();
while (result1) {
matcher.appendReplacement(sb, "");
result1 = matcher.find();
}
matcher.appendTail(sb);
return sb.toString();
}
/**
*
* 基本功能:替换指定的标签
* <p>
*
* @param str
* @param beforeTag
*            要替换的标签
* @param tagAttrib
*            要替换的标签属性值
* @param startTag
*            新标签开始标记
* @param endTag
*            新标签结束标记
* @return String
* @如:替换img标签的src属性值为[img]属性值[/img]
*/
public static String replaceHtmlTag(String str, String beforeTag,
String tagAttrib, String startTag, String endTag) {
String regxpForTag = "<\\s*" + beforeTag + "\\s+([^>]*)\\s*>";
String regxpForTagAttrib = tagAttrib + "=\"([^\"]+)\"";
Pattern patternForTag = Pattern.compile(regxpForTag);
Pattern patternForAttrib = Pattern.compile(regxpForTagAttrib);
Matcher matcherForTag = patternForTag.matcher(str);
StringBuffer sb = new StringBuffer();
boolean result = matcherForTag.find();
while (result) {
StringBuffer sbreplace = new StringBuffer();
Matcher matcherForAttrib = patternForAttrib.matcher(matcherForTag
.group(1));
if (matcherForAttrib.find()) {
matcherForAttrib.appendReplacement(sbreplace, startTag
+ matcherForAttrib.group(1) + endTag);
}
matcherForTag.appendReplacement(sb, sbreplace.toString());
result = matcherForTag.find();
}
matcherForTag.appendTail(sb);
return sb.toString();
}
}
分享到:
评论

相关推荐

    java正则表达式过滤html标签

    java正则表达式过滤html标签 java正则表达式过滤html标签是指使用java语言中的正则表达式来过滤html标签的操作。HtmlRegexpUtil这个工具类提供了多种过滤html标签的方法,包括过滤所有以"开头以"&gt;"结尾的标签、找出...

    Java正则表达式过滤html标签1[参考].pdf

    Java正则表达式过滤html标签 Java正则表达式是一种强大的文本处理工具,可以用来过滤、提取和替换文本中的特定模式。在HTML标记处理中,正则表达式可以用来过滤、提取和替换HTML标签。 本文将介绍如何使用Java正则...

    正则表达式 Java 判断字串是否合理

    根据给定的文件信息,我们可以总结出以下关于Java正则表达式的重要知识点: ### 1. 正则表达式简介 正则表达式是一种强大的文本处理工具,它能够帮助我们匹配、查找、替换等操作符合某种规则的字符串。在Java中,...

    java使用正则表达式过滤html标签

    标题“java使用正则表达式过滤html标签”意味着文章的主题是关于如何使用Java编程语言结合正则表达式来清除或处理HTML标签,这是在处理Web开发中经常会遇到的需求。描述中提到,文章将介绍这一技术,并希望读者通过...

    Java正则表达式教程

    Java正则表达式教程是为那些想要深入了解Java编程语言中正则表达式使用方法的初学者准备的。正则表达式(Regular Expression)是一种强大的文本处理工具,它用于模式匹配、搜索、替换等操作,广泛应用于字符串处理和...

    日常中最常用的正则表达式代码

    这些正则表达式都是日常编程中常用的基础模式,它们在数据验证、搜索、过滤等任务中发挥着关键作用。理解并掌握这些表达式,对于提高开发效率和代码质量至关重要。在实际应用中,根据具体需求,可能需要对这些基础...

    java正则表达式

    Java正则表达式是Java编程语言中用于处理字符串的强大工具,它基于Perl风格的正则表达式,可以用来进行文本的查找、替换和提取等操作。在Java中,正则表达式通过`java.util.regex`包提供的类和接口来实现。这篇博文...

    Java 中 过滤Html标签

    "Java 中过滤Html标签" Java 中过滤Html标签是指在Java语言中删除或替换HTML标签的过程。...使用正则表达式过滤Html标签是Java中的一种常见技术,可以用来删除恶意代码、防止XSS攻击、显示纯文本等。

    正则表达式总结文档集合

    对于HTML标签的匹配,可以使用类似以下的正则表达式:`*[a-zA-Z]+&gt;`。此表达式匹配单个HTML标签,不包括属性。 #### 八、ASP, PHP, JSP等脚本语言使用正则过滤和匹配 在Web开发中,正则表达式是非常有用的工具。...

    移除HTML标签的正则表达式

    标题提到的"移除HTML标签的正则表达式"就是解决这类问题的一个方法。以下将详细解释这个ASP版本的正则表达式及其工作原理。 首先,我们来看这段ASP代码: ```vbscript ' 模块名: RemoveHTML ' 功 能 : 移除HTML...

    ️ 讲解关于正则表达式,前端,后端等相关的知识。也记录自己的一些学习内容.zip

    5. **HTML标签过滤**:在用户输入内容时,防止恶意插入HTML代码,可以使用正则表达式移除或转义非法标签。 后端开发中的正则表达式应用: 1. **数据过滤**:在接收用户输入数据时,后端需要对数据进行清洗,去除...

    工作中收藏常用、使用的正则表达式语句

    **应用场景:** 这个正则表达式用于删除HTML标签,保留纯文本内容。这对于从网页中提取纯文本信息非常有帮助。 ### 5. 去除字符串首尾的空白字符 **正则表达式:** `^\s*|\s*$` **应用场景:** 用于去除字符串开头...

    jsp学习详细资料(含有正则表达式)

    4. **数据过滤**:在读取或写入数据库之前,可以用正则表达式对数据进行清洗和格式化。 5. **模板引擎**:一些模板引擎如FreeMarker或Velocity,它们的配置或模板语法中也支持正则表达式,用于动态内容的处理。 这...

    java常用正则表达式.doc

    Java中的正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和验证字符串模式。在Java中,正则表达式通常与`java.util.regex`包中的类一起使用,如`Pattern`和`Matcher`。以下是一些常用的正则表达式及其...

    正则表达式

    ### 正则表达式在Java中的应用与匹配规则详解 #### 标题解析:正则表达式 正则表达式是一种强大的文本模式匹配工具,在文本处理、数据验证、字符串搜索和替换等方面有着广泛的应用。在Java中,正则表达式通过`java...

    正则表达式javatxt

    从给定的文件信息中,我们可以提炼出一系列与正则表达式相关的知识点,涉及中文字符匹配、特殊字符排除、字符串模式、HTML标签提取、电子邮件地址验证、URL格式检测、用户名规则、电话号码格式、数字验证、日期格式...

    java过滤html代码

    下面我们将详细讨论如何在Java中通过正则表达式过滤HTML代码。 首先,我们需要理解HTML标签的基本结构。HTML标签通常由尖括号 `和 `&gt;` 包围,如 `&lt;tag&gt;` 和 `&lt;/tag&gt;`,其中 `tag` 是标签名称。有一些特殊的情况,如...

    java代码-正则去除HTML代码中的IMG标签

    需要注意的是,正则表达式处理HTML有一定的局限性,特别是当HTML标签嵌套或者存在复杂结构时。对于更复杂的HTML处理,可能需要使用像Jsoup这样的库,它提供了更强大的解析和操作HTML的能力。 在实际项目中,`README...

Global site tag (gtag.js) - Google Analytics