`
tyy_gs123
  • 浏览: 522 次
  • 性别: Icon_minigender_2
  • 来自: 西安
最近访客 更多访客>>
社区版块
存档分类
最新评论

过滤html文本

    博客分类:
  • c#
阅读更多

/// <summary>
        /// 过滤html文本
        /// </summary>
        /// <param name="strHtml"></param>
        /// <returns></returns>
        public static string StripHTML(string strHtml)
        {
            if (string.IsNullOrEmpty(strHtml))
                return string.Empty;
            string[] aryReg ={
                @"<script[^>]*?>.*?</script>", @"<font[^>]*?>", @"</font>",
                @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
                @"([\r\n])[\s]+",
                @"&(quot|#34);",
                @"&(amp|#38);",
                @"&(lt|#60);",
                @"&(gt|#62);",
                @"&(nbsp|#160);",
                @"&(iexcl|#161);",
                @"&(cent|#162);",
                @"&(pound|#163);",
                @"&(copy|#169);",
                @"&#(\d+);",
                @"-->",
                @"<!--.*\n"};

            string[] aryRep = {
                "","","",
                "",
                "",
                "\"",
                "&",
                "<",
                ">",
                " ",
               "\xa1",//chr(161),
               "\xa2",//chr(162),
               "\xa3",//chr(163),
               "\xa9",//chr(169),
               "",
               "\r\n",
               ""};

            string newReg = aryReg[0];
            string strOutput = strHtml;
            for (int i = 0; i < aryReg.Length; i++)
            {
                Regex regex = new Regex(aryReg[i], RegexOptions.IgnoreCase);
                strOutput = regex.Replace(strOutput, aryRep[i]);
            }

            strOutput.Replace("<", "");
            strOutput.Replace(">", "");
            strOutput.Replace("\r\n", "");


            return strOutput;
        }

分享到:
评论

相关推荐

    易语言过滤html文本源码

    HTML(HyperText Markup Language)是用于创建网页的标准标记语言,而过滤HTML文本则是为了提取其中的有用信息,如文本内容、链接、图片等。 标题“易语言过滤html文本源码”暗示了我们将讨论如何使用易语言编写...

    易语言过滤html文本

    本文将深入探讨如何使用易语言过滤HTML文本,去除HTML代码,以提取纯文本内容。这对于数据清洗、网页抓取或者信息处理等场景非常有用。 首先,我们要明白HTML(HyperText Markup Language)是用于创建网页的标准...

    易语言源码易语言过滤html文本源码.rar

    易语言源码易语言过滤html文本源码.rar 易语言源码易语言过滤html文本源码.rar 易语言源码易语言过滤html文本源码.rar 易语言源码易语言过滤html文本源码.rar 易语言源码易语言过滤html文本源码.rar 易语言源码...

    易语言过滤html文本源码-易语言

    在易语言中过滤HTML文本,主要是通过字符串处理函数来实现的。HTML文本是由标签和文本内容组成的,标签通常是以"开始,以"&gt;"结束,而我们需要的是标签之间的纯文本内容。因此,我们可以使用字符串查找、替换和分割等...

    Java 中 过滤Html标签

    "Java 中过滤Html标签" Java 中过滤Html标签是指在Java语言中删除或替换HTML标签的过程。...使用正则表达式过滤Html标签是Java中的一种常见技术,可以用来删除恶意代码、防止XSS攻击、显示纯文本等。

    Alex-Word-Filter-MFC版

    能够过滤符号分割的敏感词,能够过滤Html文本中的敏感词。自带2400多词库,可以在线修改词库,分为文本过滤,带符号文本过滤以及html文本过滤。Java版带符号Html过滤在JIT中为5000字文本,40ms左右,C++版为。欢迎...

    C# 过滤HTML标签的几种方法

    根据提供的文件信息,本文将详细解释C#中用于过滤HTML标签的几种方法,并对每一步进行深入解析。此过程涉及正则表达式、字符串替换以及HTML实体编码转换等技术细节。 ### C#过滤HTML标签的方法 #### 方法一:使用...

    文本过滤NHtmlFilter v1.0源码2012811

    开源代码NHtmlFilter 过滤Html危险脚本 防止XSS攻击 如何防止XSS攻击,在.net做web开发上真的很弱。 底层框架,基础类库是很不完善。又是做互联网应用,安全总是要考虑的吧。 今天要解决的一个小问题就是过滤掉用户...

    java过滤html代码

    在Java编程中,"java过滤html代码"是一个常见的需求,主要目的是为了安全考虑,比如防止XSS(跨站脚本攻击)或者为了提取纯文本内容。这个任务可以通过使用正则表达式来实现,正如描述中提到的那样。下面我们将详细...

    html----渲染富文本

    通过使用HTML实体编码、DOM清洗或者使用如sanitize-html这样的库来过滤不安全的标签和属性,可以防止恶意代码的注入。 6. **响应式设计**:为了确保富文本在不同设备和屏幕尺寸上都能良好显示,需要结合使用媒体...

    java正则表达式过滤html标签

    java正则表达式过滤html标签 java正则表达式过滤html标签是指使用java语言中的正则表达式来...HtmlRegexpUtil类提供了多种方法来过滤html标签,提高了开发效率和代码质量,广泛应用于网页内容的过滤、文本处理等领域。

    微信小程序、小程序html富文本转换插件、html富文本标签转换

    此外,为了防止XSS攻击,开发者在处理用户输入的HTML内容时,应进行适当的过滤和转义。 在实际应用中,你可能还会遇到性能优化、自定义标签处理、富文本内容的动态加载等问题。对于这些问题,wxParse提供了相应的...

    java的xxsProtect过滤xss

    - **HTML标签检测**: 过滤器会检查输入字符串中是否包含HTML标签,如`&lt;script&gt;`, `&lt;iframe&gt;`, `&lt;img&gt;`等,这些标签通常被用于XSS攻击。如果发现这些标签,过滤器会采取相应的措施,如删除、替换或转义,以确保它们...

    C#过滤html方法

    在C#编程中,过滤HTML方法是常见的需求,特别是在处理用户输入、网页抓取或数据清洗等场景。本文将深入探讨两种主要的C#过滤HTML标签的方法,帮助开发者选择最适合自己项目的技术方案。 首先,我们要明确HTML过滤的...

    易语言html元素过滤

    4. **元素过滤**:根据需求,对解析后的HTML文本进行元素过滤,如删除特定标签、保留特定内容等。 5. **结果输出**:将过滤后的HTML内容保存到文件或显示在用户界面上。 在实际应用中,可能会遇到各种问题,比如...

    过滤HTML标签类

    在IT行业中,过滤HTML标签是常见的数据处理任务,特别是在处理用户输入、数据分析或者网页抓取时。这个主题的标题“过滤HTML标签类”暗示我们将会探讨一个专门用于去除或处理HTML标签的类或库。这类工具通常用于确保...

    Ruby-AutoHtml一组过滤器集合用于将纯文本转换成HTML代码

    这个库提供了一组强大的过滤器,可以解析文本中的链接、图片、视频等元素,并将其转化为相应的HTML标记,使得在网页显示时能够正确地呈现和交互。 AutoHtml库的核心理念是简化文本到HTML的转换过程,它为开发者提供...

    java 读取html过滤标签

    为了便于复用,可以创建一个工具类,封装读取和过滤HTML的功能。例如: ```java public class HtmlFilter { public static String filterHtmlTags(String html, String... tagsToFilter) { // 使用Jsoup或其他...

    项目中使用到的解析html富文本

    在IT行业中,富文本解析是...总结,富文本解析是项目开发中的关键技术,涵盖了HTML基础、解析库选择、安全过滤、渲染呈现等多个环节。理解和掌握这些知识点,有助于提升项目中富文本处理的能力,提供更好的用户体验。

    封装HTMLPurifier的富文本过滤器实现自定义白名单机制

    通过以上步骤,你可以创建一个基于HTMLPurifier的富文本过滤器,以确保用户输入的HTML内容安全无害。对于大型项目,你还可以考虑进一步封装这个过滤器,例如,创建一个服务类,以便在整个应用中方便地使用。 在...

Global site tag (gtag.js) - Google Analytics