`
will-vip
  • 浏览: 40891 次
  • 性别: Icon_minigender_1
  • 来自: 广州
文章分类
社区版块
存档分类
最新评论

过滤html标签的代码

阅读更多

过滤html标签的代码

public   String html2Text(String inputString) {    
      String htmlStr 
=  inputString;  // 含html标签的字符串    
      String textStr  = "" ;    
      java.util.regex.Pattern p_script;    
      java.util.regex.Matcher m_script;    
      java.util.regex.Pattern p_style;    
      java.util.regex.Matcher m_style;    
      java.util.regex.Pattern p_html;    
      java.util.regex.Matcher m_html;    
          
      
try  {    
       String regEx_script 
=   " <[\s]*?script[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?script[\s]*?> " // 定义script的正则表达式{或<script>]*?>[\s\S]*?<\/script> }    
       String regEx_style  =   " <[\s]*?style[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?style[\s]*?> " // 定义style的正则表达式{或<style>]*?>[\s\S]*?<\/style> }    
          String regEx_html  =   " <[^>]+> " // 定义HTML标签的正则表达式    
           
          p_script 
=  Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);    
          m_script 
=  p_script.matcher(htmlStr);    
          htmlStr 
=  m_script.replaceAll( "" );  // 过滤script标签    
   
          p_style 
=  Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);    
          m_style 
=  p_style.matcher(htmlStr);    
          htmlStr 
=  m_style.replaceAll( "" );  // 过滤style标签    
           
          p_html 
=  Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);    
          m_html 
=  p_html.matcher(htmlStr);    
          htmlStr 
=  m_html.replaceAll( "" );  // 过滤html标签    
           
       textStr 
=  htmlStr;    
           
      }
catch (Exception e) {    
                  System.err.println(
" Html2Text:  "   +  e.getMessage());    
      }    
          
      
return  textStr; // 返回文本字符串    
    }     

来源:http://blog.csdn.net/dahaizisheng/archive/2007/09/13/1784018.aspx

分享到:
评论

相关推荐

    Java 中 过滤Html标签

    在Java中,我们可以使用下面的代码来过滤Html标签: ```java public class FilterStr { public static String FilterHtmlText(String inputString) { String htmlStr = inputString; String textStr = ""; ...

    java正则表达式过滤html标签

    java正则表达式过滤html标签 java正则表达式过滤html标签是指使用java语言中的正则表达式来...HtmlRegexpUtil类提供了多种方法来过滤html标签,提高了开发效率和代码质量,广泛应用于网页内容的过滤、文本处理等领域。

    java过滤html代码

    在Java编程中,"java过滤html代码"是一个常见的需求,主要目的是为了安全考虑,比如防止XSS(跨站脚本攻击)或者为了提取纯文本内容。这个任务可以通过使用正则表达式来实现,正如描述中提到的那样。下面我们将详细...

    C# 过滤HTML标签的几种方法

    根据提供的文件信息,本文将...以上代码展示了如何在C#中利用正则表达式和字符串处理方法来过滤HTML标签及其相关内容。这种方法不仅可以有效去除HTML标签,还能处理各种HTML实体,从而确保最终输出的安全性和准确性。

    过滤字符串中的HTML标签

    ### 过滤字符串中的HTML标签 在Web开发和文本处理领域中,经常需要对包含HTML(HyperText Markup Language)标签的字符串进行清洗,以便只保留其中的纯文本内容。这通常是为了提高数据的安全性、可读性和易于处理。...

    php过滤危险html代码

    - **目的**:防止用户提交恶意代码或者破坏页面布局的HTML标签。 - **正则表达式**: - `/&lt;(\/?)(script|i?frame|style|html|body|title|link|meta|\?|\%)([^&gt;]*?)&gt;/isU` - **替换方式**:根据需求,可以选择保留...

    过滤HTML标签类

    虽然没有具体的代码示例,但理解过滤HTML标签类的基本概念和常见功能对于任何涉及Web开发或数据处理的IT专业人士都是必要的。在实际项目中,合理使用这类工具可以提高安全性,提升用户体验,并简化数据处理流程。

    过滤html标签函数

    描述中提到的“过滤html标签的代码,如果只是把类似的标记统统去掉,并不需要考虑别的”,暗示了一个简单的实现方式,即通过查找并替换所有小于号(`)和大于号(`&gt;`)来移除HTML标签。这种方法虽然快速,但并不完善...

    java过滤html,css,js标签工具类(UnHtmlScript)

    1. **HTML标签去除**:这个工具类可能会提供一个方法,例如`removeHtmlTags(String content)`,用于删除HTML标签,只保留文本内容。这通常涉及到正则表达式,如`/*?&gt;/g`,来匹配并替换HTML标签。 2. **CSS去除**:...

    HTML代码过滤技术

    - 使用白名单策略:只允许特定的HTML标签和属性存在,而不是试图过滤掉所有有害元素,这种方法可以更有效地防止未知漏洞。 - 实时更新:定期更新过滤规则,以应对新的攻击手法和漏洞。 - 防护XSS攻击:除了过滤外...

    asp过滤实现过滤所有的HTML代码

    - `strText`参数:传入需要过滤HTML标签的字符串。 2. **正则表达式初始化:** ```vb Dim RegEx Set RegEx = New RegExp ``` - 创建一个新的`RegExp`对象,并将其赋值给变量`RegEx`。 3. **设置正则...

    常用过滤、截取HTML代码

    包括常用过滤html标签、截取字符串及获得本页地址三大函数。 过滤html标签函数:如果只是把类似的标记统统去掉,并不需要考虑别的。 截取字符串函数:截取字符串并限制字符串长度,多于给定的长度 获得本页地址:...

    Java过滤器,字符过滤,标签过滤

    标签过滤则是为了防止HTML标签被恶意利用,比如XSS(跨站脚本攻击)。通过过滤或转义HTML标签,可以确保用户提交的内容不会执行任何有害脚本。在Java中,可以使用诸如OWASP Java Encoder库这样的工具来帮助安全地...

    js过滤HTML标签完整实例

    在互联网编程中,过滤HTML标签是一个常见需求,尤其在处理用户输入的内容时,防止潜在的跨站脚本攻击(XSS)等安全问题。本文将详细介绍如何使用JavaScript中的正则表达式来过滤HTML标签,通过一个简单的实例来演示...

    html标签过滤标签jar包

    "html标签过滤标签jar包"是一个这样的库,它提供了一种便捷的方式,允许在JSP页面直接处理和过滤HTML标签。 这个jar包包含了一系列预定义的过滤规则,可以识别并移除或者转义用户提交的HTML字符串中的潜在危险元素...

    C#过滤HTML标签源码,使用的正则表达式

    只有一个方法 传入要过滤的字符串 即可完成HTML标签的过滤操作 返回不带HTML标签的字符串 非常方便,且实用

    App_Code生成静态过滤html代码操作sql

    2. **过滤HTML代码**:过滤HTML代码是为了防止跨站脚本攻击(XSS)。这可以通过以下方式实现: - 使用Html Agility Pack库解析和操作HTML字符串,移除或转义可能的恶意脚本。 - 使用ASP.NET的内置验证控件和...

    C#过滤html方法

    本文将深入探讨两种主要的C#过滤HTML标签的方法,帮助开发者选择最适合自己项目的技术方案。 首先,我们要明确HTML过滤的目标,通常是为了防止XSS(跨站脚本攻击)或确保数据在显示时安全无害。HTML标签可以被恶意...

    wap代码 html过滤器(java)

    1. **替换HTML标签为WAP兼容的标签**:例如,将`&lt;p&gt;`和`&lt;div&gt;`标签替换为` `,这是因为WAP标准不支持所有HTML标签,而` `作为换行标签,在大多数情况下可以提供类似的功能。 2. **图片处理与优化**:对于`...

Global site tag (gtag.js) - Google Analytics