`
struts
  • 浏览: 76281 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

过滤html

    博客分类:
  • java
阅读更多
public static String Html2Text(String inputString) {
      String htmlStr = inputString; //含html标签的字符串
      String textStr ="";
      java.util.regex.Pattern p_script;
      java.util.regex.Matcher m_script;
      java.util.regex.Pattern p_style;
      java.util.regex.Matcher m_style;
      java.util.regex.Pattern p_html;
      java.util.regex.Matcher m_html;
     
      java.util.regex.Pattern p_html1;
      java.util.regex.Matcher m_html1;
  
      try {
       String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; //定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script> }
       String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; //定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style> }
          String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式
          String regEx_html1 = "<[^>]+";
          p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
          m_script = p_script.matcher(htmlStr);
          htmlStr = m_script.replaceAll(""); //过滤script标签

          p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
          m_style = p_style.matcher(htmlStr);
          htmlStr = m_style.replaceAll(""); //过滤style标签
     
          p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
          m_html = p_html.matcher(htmlStr);
          htmlStr = m_html.replaceAll(""); //过滤html标签
         
          p_html1 = Pattern.compile(regEx_html1,Pattern.CASE_INSENSITIVE);
          m_html1 = p_html1.matcher(htmlStr);
          htmlStr = m_html1.replaceAll(""); //过滤html标签
     
         
       textStr = htmlStr;
     
      }catch(Exception e) {
               System.err.println("Html2Text: " + e.getMessage());
      }
  
      return textStr;//返回文本字符串
       } 
分享到:
评论

相关推荐

    Java 中 过滤Html标签

    "Java 中过滤Html标签" Java 中过滤Html标签是指在Java语言中删除或替换HTML标签的过程。这种技术广泛应用于Web开发中,例如删除恶意代码、防止XSS攻击、显示纯文本等。 在Java中,过滤Html标签的方法有多种,包括...

    C# 过滤HTML标签的几种方法

    根据提供的文件信息,本文将详细解释C#中用于过滤HTML标签的几种方法,并对每一步进行深入解析。此过程涉及正则表达式、字符串替换以及HTML实体编码转换等技术细节。 ### C#过滤HTML标签的方法 #### 方法一:使用...

    易语言过滤html文本源码

    HTML(HyperText Markup Language)是用于创建网页的标准标记语言,而过滤HTML文本则是为了提取其中的有用信息,如文本内容、链接、图片等。 标题“易语言过滤html文本源码”暗示了我们将讨论如何使用易语言编写...

    Aspnet中过滤html代码

    过滤HTML、JavaScript和CSS代码是防止跨站脚本攻击(XSS)的关键步骤。XSS攻击允许恶意用户注入可执行的脚本,从而影响其他用户的浏览器,窃取数据或破坏网站功能。以下将详细阐述在Asp.net中如何进行这些类型的代码...

    java正则表达式过滤html标签

    ### Java正则表达式过滤HTML标签 在处理文本数据时,经常会遇到需要从HTML文档中提取纯文本内容的需求。为了去除HTML标记并保留有意义的文字部分,可以利用Java中的正则表达式来实现这一功能。本篇文章将详细介绍...

    java过滤html代码

    在Java编程中,"java过滤html代码"是一个常见的需求,主要目的是为了安全考虑,比如防止XSS(跨站脚本攻击)或者为了提取纯文本内容。这个任务可以通过使用正则表达式来实现,正如描述中提到的那样。下面我们将详细...

    C#过滤html方法

    在C#编程中,过滤HTML方法是常见的需求,特别是在处理用户输入、网页抓取或数据清洗等场景。本文将深入探讨两种主要的C#过滤HTML标签的方法,帮助开发者选择最适合自己项目的技术方案。 首先,我们要明确HTML过滤的...

    java过滤html标签

    可以实现java过滤html标签、过滤指定标签等等

    易语言源码易语言过滤html文本源码.rar

    易语言源码易语言过滤html文本源码.rar 易语言源码易语言过滤html文本源码.rar 易语言源码易语言过滤html文本源码.rar 易语言源码易语言过滤html文本源码.rar 易语言源码易语言过滤html文本源码.rar 易语言源码...

    过滤HTML标签的方法之一

    过滤HTML标签的方法之一,非常好用,可以根据自己的需求来过滤相应的标签

    ASP 过滤HTML

    ### ASP 过滤HTML知识点详解 #### 一、概述 在Web开发中,尤其是在使用ASP(Active Server Pages)进行开发时,对用户提交的数据进行HTML标签过滤是非常重要的一个环节。这是因为未经处理的用户输入可能会包含恶意...

    过滤HTML标签类

    在IT行业中,过滤HTML标签是常见的数据处理任务,特别是在处理用户输入、数据分析或者网页抓取时。这个主题的标题“过滤HTML标签类”暗示我们将会探讨一个专门用于去除或处理HTML标签的类或库。这类工具通常用于确保...

    过滤html标签函数

    标题“过滤HTML标签函数”所指的就是这样一个功能,它能够帮助我们清理和标准化文本,防止XSS(跨站脚本攻击)等安全问题,或者仅仅是为了提取纯文本内容。 描述中提到的“过滤html标签的代码,如果只是把类似的...

    正则 过滤 html tab

    虽然在处理HTML和正则表达式时我们通常不会直接用到Boost库,但在其他C++项目中,Boost的正则表达式库(Boost.Regex)也可以用来过滤HTML中的制表符,其使用方式与Python的`re`模块类似。 总结起来,"正则 过滤 ...

    wxParse过滤HTML标签.rar

    "wxParse过滤HTML标签.rar"就是为了解决这个问题而提供的一个解决方案。 wxParse是一个强大的微信小程序富文本解析插件,它能够帮助开发者将HTML内容转换成小程序可以识别和渲染的格式。主要目标是过滤掉HTML标签,...

    过滤HTML元素字符

    在IT行业中,尤其是在Web开发和数据处理领域,过滤HTML元素字符是一项重要的任务。这主要涉及到对用户输入的数据进行清理和安全处理,以防止跨站脚本(XSS)攻击和其他潜在的安全威胁。本文将深入探讨如何过滤HTML...

    易语言过滤html文本

    本文将深入探讨如何使用易语言过滤HTML文本,去除HTML代码,以提取纯文本内容。这对于数据清洗、网页抓取或者信息处理等场景非常有用。 首先,我们要明白HTML(HyperText Markup Language)是用于创建网页的标准...

    App_Code生成静态过滤html代码操作sql

    2. **过滤HTML代码**:过滤HTML代码是为了防止跨站脚本攻击(XSS)。这可以通过以下方式实现: - 使用Html Agility Pack库解析和操作HTML字符串,移除或转义可能的恶意脚本。 - 使用ASP.NET的内置验证控件和...

    java 读取html过滤标签

    为了便于复用,可以创建一个工具类,封装读取和过滤HTML的功能。例如: ```java public class HtmlFilter { public static String filterHtmlTags(String html, String... tagsToFilter) { // 使用Jsoup或其他...

Global site tag (gtag.js) - Google Analytics