`
icyheart
  • 浏览: 779785 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

过滤代码中的html标签

    博客分类:
  • J2SE
阅读更多
public  String html2Text(String inputString) {    
      String htmlStr = inputString; //含html标签的字符串    
      String textStr ="";    
      java.util.regex.Pattern p_script;    
      java.util.regex.Matcher m_script;    
      java.util.regex.Pattern p_style;    
      java.util.regex.Matcher m_style;    
      java.util.regex.Pattern p_html;    
      java.util.regex.Matcher m_html;    
          
      try {    
       String regEx_script = "<[\s]*?script[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?script[\s]*?>"; //定义script的正则表达式{或<script>]*?>[\s\S]*?<\/script> }    
       String regEx_style = "<[\s]*?style[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?style[\s]*?>"; //定义style的正则表达式{或<style>]*?>[\s\S]*?<\/style> }    
          String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式    
           
          p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);    
          m_script = p_script.matcher(htmlStr);    
          htmlStr = m_script.replaceAll(""); //过滤script标签    
   
          p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);    
          m_style = p_style.matcher(htmlStr);    
          htmlStr = m_style.replaceAll(""); //过滤style标签    
           
          p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);    
          m_html = p_html.matcher(htmlStr);    
          htmlStr = m_html.replaceAll(""); //过滤html标签    
           
       textStr = htmlStr;    
           
      }catch(Exception e) {    
                  System.err.println("Html2Text: " + e.getMessage());    
      }    
          
      return textStr;//返回文本字符串    
    }      

 

 

分享到:
评论

相关推荐

    过滤字符串中的HTML标签

    ### 过滤字符串中的HTML标签 在Web开发和文本处理领域中,经常需要对包含HTML(HyperText Markup Language)标签的字符串进行清洗,以便只保留其中的纯文本内容。这通常是为了提高数据的安全性、可读性和易于处理。...

    Java 中 过滤Html标签

    "Java 中过滤Html标签" Java 中过滤Html标签是指在Java语言中删除或替换HTML标签的过程。...使用正则表达式过滤Html标签是Java中的一种常见技术,可以用来删除恶意代码、防止XSS攻击、显示纯文本等。

    java过滤html代码

    接下来,我们来看如何编写一个简单的Java方法,使用正则表达式来移除字符串中的HTML标签。以下是一个名为 `RemoveHtmlInString` 的类,其中包含一个静态方法 `removeHtmlTags`: ```java public class ...

    java正则表达式过滤html标签

    java正则表达式过滤html标签是指使用java语言中的正则表达式来过滤html标签的操作。HtmlRegexpUtil这个工具类提供了多种过滤html标签的方法,包括过滤所有以"开头以"&gt;"结尾的标签、找出IMG标签、找出IMG标签的SRC...

    C# 过滤HTML标签的几种方法

    根据提供的文件信息,本文将...以上代码展示了如何在C#中利用正则表达式和字符串处理方法来过滤HTML标签及其相关内容。这种方法不仅可以有效去除HTML标签,还能处理各种HTML实体,从而确保最终输出的安全性和准确性。

    HTML代码过滤技术

    - 使用白名单策略:只允许特定的HTML标签和属性存在,而不是试图过滤掉所有有害元素,这种方法可以更有效地防止未知漏洞。 - 实时更新:定期更新过滤规则,以应对新的攻击手法和漏洞。 - 防护XSS攻击:除了过滤外...

    php过滤危险html代码

    - **目的**:防止用户提交恶意代码或者破坏页面布局的HTML标签。 - **正则表达式**: - `/&lt;(\/?)(script|i?frame|style|html|body|title|link|meta|\?|\%)([^&gt;]*?)&gt;/isU` - **替换方式**:根据需求,可以选择保留...

    asp过滤实现过滤所有的HTML代码

    下面介绍一个简单的HTML标签过滤函数,该函数利用正则表达式来去除字符串中的HTML标签。 #### 四、函数实现细节 1. **函数定义:** ```vb Function RemoveHTML(strText) ``` - `strText`参数:传入需要过滤...

    Java过滤器,字符过滤,标签过滤

    标签过滤则是为了防止HTML标签被恶意利用,比如XSS(跨站脚本攻击)。通过过滤或转义HTML标签,可以确保用户提交的内容不会执行任何有害脚本。在Java中,可以使用诸如OWASP Java Encoder库这样的工具来帮助安全地...

    java过滤html,css,js标签工具类(UnHtmlScript)

    1. **HTML标签去除**:这个工具类可能会提供一个方法,例如`removeHtmlTags(String content)`,用于删除HTML标签,只保留文本内容。这通常涉及到正则表达式,如`/*?&gt;/g`,来匹配并替换HTML标签。 2. **CSS去除**:...

    过滤HTML标签类

    在IT行业中,过滤HTML标签是常见的数据处理任务,特别是在处理用户输入、数据分析或者网页抓取时。这个主题的标题“过滤HTML标签类”暗示我们将会探讨一个专门用于去除或处理HTML标签的类或库。这类工具通常用于确保...

    过滤html标签函数

    描述中提到的“过滤html标签的代码,如果只是把类似的标记统统去掉,并不需要考虑别的”,暗示了一个简单的实现方式,即通过查找并替换所有小于号(`)和大于号(`&gt;`)来移除HTML标签。这种方法虽然快速,但并不完善...

    常用过滤、截取HTML代码

    包括常用过滤html标签、截取字符串及获得本页地址三大函数。 过滤html标签函数:如果只是把类似的标记统统去掉,并不需要考虑别的。 截取字符串函数:截取字符串并限制字符串长度,多于给定的长度 获得本页地址:...

    html标签过滤标签jar包

    在Web开发中,尤其是使用Java和JSP时,为了确保用户输入的数据安全并防止恶意代码注入,开发者通常会使用特定的库来过滤或转义HTML标签。"html标签过滤标签jar包"是一个这样的库,它提供了一种便捷的方式,允许在JSP...

    过滤代码工程文件注释

    标题提到的"过滤代码工程文件注释"是一项常见的优化策略,其主要目的是减少代码占用的空间,尤其是对于需要打包发布的项目而言,注释的去除可以显著减小文件大小,提高下载和部署的效率。这通常发生在项目构建或发布...

    Aspnet中过滤html代码

    ",确保文本不会被解释为HTML标签。 2. 使用`Server.HtmlEncode()`:这是Asp.net中的一个内置方法,功能与`HttpUtility.HtmlEncode()`相似,用于在输出内容到页面前对用户输入进行编码。 3. ASP.NET MVC的`...

    wap代码 html过滤器(java)

    ### WAP代码HTML过滤器(Java):深入解析与实现 在移动互联网发展的早期阶段,WAP(Wireless Application Protocol)技术曾是移动设备访问互联网的主要方式之一。由于当时移动设备处理能力和屏幕尺寸的限制,WAP...

    asp.net 正则表达式过滤所有html标签

    ### ASP.NET 中使用正则表达式过滤HTML标签的详细解析 在Web开发中,经常需要对用户输入的数据进行处理,特别是在展示用户提交的内容时,为了防止XSS攻击或确保页面的整洁度,去除HTML标签变得至关重要。本文将详细...

    App_Code生成静态过滤html代码操作sql

    2. **过滤HTML代码**:过滤HTML代码是为了防止跨站脚本攻击(XSS)。这可以通过以下方式实现: - 使用Html Agility Pack库解析和操作HTML字符串,移除或转义可能的恶意脚本。 - 使用ASP.NET的内置验证控件和...

Global site tag (gtag.js) - Google Analytics