`
ttitfly
  • 浏览: 624052 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

过滤Html标签(转)

    博客分类:
  • java
阅读更多
java 代码
  1. public  String html2Text(String inputString) {   
  2.       String htmlStr = inputString; //含html标签的字符串   
  3.       String textStr ="";   
  4.       java.util.regex.Pattern p_script;   
  5.       java.util.regex.Matcher m_script;   
  6.       java.util.regex.Pattern p_style;   
  7.       java.util.regex.Matcher m_style;   
  8.       java.util.regex.Pattern p_html;   
  9.       java.util.regex.Matcher m_html;   
  10.          
  11.       try {   
  12.        String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"//定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script> }   
  13.        String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"//定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style> }   
  14.           String regEx_html = "<[^>]+>"//定义HTML标签的正则表达式   
  15.           
  16.           p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);   
  17.           m_script = p_script.matcher(htmlStr);   
  18.           htmlStr = m_script.replaceAll(""); //过滤script标签   
  19.   
  20.           p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);   
  21.           m_style = p_style.matcher(htmlStr);   
  22.           htmlStr = m_style.replaceAll(""); //过滤style标签   
  23.           
  24.           p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);   
  25.           m_html = p_html.matcher(htmlStr);   
  26.           htmlStr = m_html.replaceAll(""); //过滤html标签   
  27.           
  28.        textStr = htmlStr;   
  29.           
  30.       }catch(Exception e) {   
  31.                   System.err.println("Html2Text: " + e.getMessage());   
  32.       }   
  33.          
  34.       return textStr;//返回文本字符串   
  35.     }     
分享到:
评论

相关推荐

    Java 中 过滤Html标签

    "Java 中过滤Html标签" Java 中过滤Html标签是指在Java语言中删除或替换HTML标签的过程。这种技术广泛应用于Web开发中,例如删除恶意代码、防止XSS攻击、显示纯文本等。 在Java中,过滤Html标签的方法有多种,包括...

    java正则表达式过滤html标签

    java正则表达式过滤html标签 java正则表达式过滤html标签是指使用java语言中的正则表达式来过滤html标签的操作。HtmlRegexpUtil这个工具类提供了多种过滤html标签的方法,包括过滤所有以"开头以"&gt;"结尾的标签、找出...

    java过滤html标签

    可以实现java过滤html标签、过滤指定标签等等

    C# 过滤HTML标签的几种方法

    根据提供的文件信息,本文将详细解释C#中用于过滤HTML标签的几种方法,并对每一步进行深入解析。此过程涉及正则表达式、字符串替换以及HTML实体编码转换等技术细节。 ### C#过滤HTML标签的方法 #### 方法一:使用...

    过滤含html标签的字符串

    过滤含html标签的字符串 过滤含html标签的字符串 过滤含html标签的字符串 过滤含html标签的字符串 过滤含html标签的字符串 过滤含html标签的字符串 过滤含html标签的字符串 过滤含html标签的字符串

    wxParse过滤HTML标签.rar

    "wxParse过滤HTML标签.rar"就是为了解决这个问题而提供的一个解决方案。 wxParse是一个强大的微信小程序富文本解析插件,它能够帮助开发者将HTML内容转换成小程序可以识别和渲染的格式。主要目标是过滤掉HTML标签,...

    过滤HTML标签类

    在IT行业中,过滤HTML标签是常见的数据处理任务,特别是在处理用户输入、数据分析或者网页抓取时。这个主题的标题“过滤HTML标签类”暗示我们将会探讨一个专门用于去除或处理HTML标签的类或库。这类工具通常用于确保...

    java 读取html过滤标签

    为了便于复用,可以创建一个工具类,封装读取和过滤HTML的功能。例如: ```java public class HtmlFilter { public static String filterHtmlTags(String html, String... tagsToFilter) { // 使用Jsoup或其他...

    过滤html标签函数

    标题“过滤HTML标签函数”所指的就是这样一个功能,它能够帮助我们清理和标准化文本,防止XSS(跨站脚本攻击)等安全问题,或者仅仅是为了提取纯文本内容。 描述中提到的“过滤html标签的代码,如果只是把类似的...

    Java过滤器,字符过滤,标签过滤

    标签过滤则是为了防止HTML标签被恶意利用,比如XSS(跨站脚本攻击)。通过过滤或转义HTML标签,可以确保用户提交的内容不会执行任何有害脚本。在Java中,可以使用诸如OWASP Java Encoder库这样的工具来帮助安全地...

    过滤字符串中的HTML标签

    ### 过滤字符串中的HTML标签 在Web开发和文本处理领域中,经常需要对包含HTML(HyperText Markup Language)标签的字符串进行清洗,以便只保留其中的纯文本内容。这通常是为了提高数据的安全性、可读性和易于处理。...

    java过滤html,css,js标签工具类(UnHtmlScript)

    1. **HTML标签去除**:这个工具类可能会提供一个方法,例如`removeHtmlTags(String content)`,用于删除HTML标签,只保留文本内容。这通常涉及到正则表达式,如`/*?&gt;/g`,来匹配并替换HTML标签。 2. **CSS去除**:...

    过滤HTML标签的方法之一

    过滤HTML标签的方法之一,非常好用,可以根据自己的需求来过滤相应的标签

    Java正则表达式过滤html标签1[参考].pdf

    Java正则表达式过滤html标签 Java正则表达式是一种强大的文本处理工具,可以用来过滤、提取和替换文本中的特定模式。在HTML标记处理中,正则表达式可以用来过滤、提取和替换HTML标签。 本文将介绍如何使用Java正则...

    js过滤HTML标签完整实例

    在互联网编程中,过滤HTML标签是一个常见需求,尤其在处理用户输入的内容时,防止潜在的跨站脚本攻击(XSS)等安全问题。本文将详细介绍如何使用JavaScript中的正则表达式来过滤HTML标签,通过一个简单的实例来演示...

    html标签过滤标签jar包

    "html标签过滤标签jar包"是一个这样的库,它提供了一种便捷的方式,允许在JSP页面直接处理和过滤HTML标签。 这个jar包包含了一系列预定义的过滤规则,可以识别并移除或者转义用户提交的HTML字符串中的潜在危险元素...

    java使用正则表达式过滤html标签

    标题“java使用正则表达式过滤html标签”意味着文章的主题是关于如何使用Java编程语言结合正则表达式来清除或处理HTML标签,这是在处理Web开发中经常会遇到的需求。描述中提到,文章将介绍这一技术,并希望读者通过...

    JAVA过滤标签实现将html内容转换为文本的方法示例

    1. 使用正则表达式去掉HTML标签:在将html内容转换为文本时,需要去掉html标签,从而获取纯文本内容。可以使用正则表达式来实现该操作,例如去掉head标签、注释、样式、js代码、word标签、xml标签等。 2. 使用...

    C#正则过滤HTML标签并保留指定标签的方法

    通过这些知识点,我们可以了解到如何在C#中使用正则表达式来过滤HTML标签并保留特定标签。需要注意的是,正则表达式虽然强大,但在处理复杂的HTML结构时可能会遇到一些限制,因为HTML不是正则表达式的正规语言。在...

Global site tag (gtag.js) - Google Analytics