`
sty2008boy
  • 浏览: 299449 次
  • 性别: Icon_minigender_1
  • 来自: 太原
社区版块
存档分类
最新评论

C#去掉HTML标记

阅读更多

using System.Text.RegularExpressions;
    /// <summary>
    /// 去除HTML标记
    /// </summary>
    /// <param name="strHtml">包括HTML的源码 </param>
    /// <returns>已经去除后的文字</returns>  
 public static string StripHTML(string strHtml)
    {
        string[] aryReg ={
          @"<script[^>]*?>.*?</script>",
          @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
          @"([ ])[\s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);", 
          @"&(nbsp|#160);", 
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(\d+);",
          @"-->",
          @"<!--.* "
         
         };
        string[] aryRep = {
           "",
           "",
           "",
           "\"",
           "&",
           "<",
           ">",
           " ",
           "\xa1",//chr(161),
           "\xa2",//chr(162),
           "\xa3",//chr(163),
           "\xa9",//chr(169),
           "",
           " ",
           ""
          };
        string newReg = aryReg[0];
        string strOutput = strHtml;
        for (int i = 0; i < aryReg.Length; i++)
        {
            Regex regex = new Regex(aryReg[i], RegexOptions.IgnoreCase);
            strOutput = regex.Replace(strOutput, aryRep[i]);
        }
        strOutput.Replace("<", "");
        strOutput.Replace(">", "");
        strOutput.Replace(" ", "");
        return strOutput;
    }
 
分享到:
评论

相关推荐

    去除C#HTML标签

    C# 去掉 字符串中的 HTML 标签。 有些字符串中 包含一些 HTML 标签 不想要,就可以用 它去掉其中的标签了。

    C# 过滤HTML标签的几种方法

    根据提供的文件信息,本文将详细解释C#中用于过滤HTML标签的几种方法,并对每一步进行深入解析。...这种方法不仅可以有效去除HTML标签,还能处理各种HTML实体,从而确保最终输出的安全性和准确性。

    c#里去掉html标记

    ### C#中去除HTML标记的方法 在Web开发或者文本处理中,经常需要将包含HTML标记的字符串转换为纯文本格式。这种需求在多种场景下都可能出现,比如:展示用户输入时防止XSS攻击、提取文章内容等。本文将详细介绍如何...

    C# 去除所有HTML代码

    - 使用正则表达式`@"&lt;(.[^&gt;]*)&gt;"`来匹配所有的HTML标签,并用空字符串替换,达到去除HTML标签的目的。 - 这里`[^&gt;]*&gt;`表示匹配所有以`开始,以`&gt;`结束的HTML标签,包括单标签(如` `)和成对标签(如`&lt;p&gt;&lt;/p&gt;`...

    C#字符串.HTML编码处理方式

    本文将详细介绍如何在C#中实现HTML编码处理,包括去除HTML标签、转义特殊字符等方面的内容。 #### 1. HTML编码与解码的重要性 在Web应用中,为了防止XSS(跨站脚本攻击)等安全问题,以及确保数据显示正确,经常...

    C#过滤html方法

    在`RegexTest`这个文件中,可能包含了一个使用正则表达式去除HTML标签的例子。正则表达式是一种强大的文本处理工具,可以用来匹配、替换或删除特定模式的字符串。例如,我们可以使用以下正则表达式去除HTML标签: ...

    C#正则过滤HTML标签并保留指定标签的方法

    在C#中,处理HTML内容时常常需要过滤掉一些不需要的标签,而保留一些特定标签。这可以通过正则表达式(Regular Expression)实现。正则表达式是一种文本模式,包括普通字符(例如,字母和数字)和特殊字符(称为"元...

    C#后台去掉提交内容中的HTML标记

    最好把所有的特殊HTML标记都找出来,然后把与其相对应的Unicode字符一起影射到Hash表内,最后一起都替换掉

    C#过滤HTML标签源码,使用的正则表达式

    只有一个方法 传入要过滤的字符串 即可完成HTML标签的过滤操作 返回不带HTML标签的字符串 非常方便,且实用

    C#获取HTML中的文本信息

    HTML是一种标记语言,它使用标签来定义文档的结构和内容。比如,`&lt;p&gt;`表示段落,`&lt;a&gt;`表示链接,`&lt;h1&gt;`到`&lt;h6&gt;`表示不同级别的标题等。我们的目标是把这些标签去掉,只保留它们之间的文本内容。 在C#中,可以使用`...

    AfterWork.Html,HTML页面处理,C#源码。

    在`AfterWork.Html`项目中,开发者可能已经实现了自定义的功能,比如从HTML页面中提取特定数据、清洗HTML以去除无用的标签、替换特定内容,或者生成新的HTML页面。这些功能对于数据抓取、网页自动化或者内容管理应用...

    CHM转换器(c#)可以转换CHM到TXT、HTML,也可以实现HTML->TXT,附所有源代码

    如果目标格式是TXT,可以使用HTML解析库(如HtmlAgilityPack)读取HTML文件,去除HTML标签,只保留纯文本内容;如果目标格式是HTML,可能只需将HTML文件移动到相应目录即可。 5. 最后,根据用户需求整理输出目录,...

    asp 去除HTML

    在IT领域,特别是Web开发中,去除HTML标签的需求十分常见,尤其是在处理用户输入的数据时,为了防止XSS(跨站脚本)攻击或是为了展示纯文本内容,开发者往往需要将带有HTML标签的字符串转换为纯文本。在经典ASP环境...

    C#使用正则表达式过滤html标签

    在C#编程中,正则表达式是一种强大的文本处理工具,尤其在处理HTML内容时,可以用来有效地过滤或提取特定的HTML标签。本篇文章将详细解释如何使用C#的正则表达式来过滤HTML标签,以便将HTML字符串转换为纯文本。 ...

    C#使用for循环移除HTML标记

    首先,虽然正则表达式是常见的去除HTML标记的方法,如`StripTagsRegex`函数所示,使用`*?&gt;`匹配HTML标签。但要注意的是,正则表达式处理HTML并不总是完美的,因为它可能无法正确处理嵌套的标签或者复杂的HTML结构。...

    .net中去除HTML标记的类

    去除HTML标记 包括HTML的源码 集合了很多代码移除

    C#在线预览PDF

    将PDF每一页渲染成图片后,可以通过HTML的标签加载这些图片以实现预览。 3. **PDF转HTML**:另一种方法是将PDF内容转换为HTML,这通常需要更复杂的处理。PDFsharp或Syncfusion库可以做到这一点,它们可以解析PDF并...

    C#中除去所有在HTML元素中标记

    /// 除去所有在HTML元素中标记 public static string StripHTML(string strHtml) { string strOutput=... 您可能感兴趣的文章:C#使用正则表达式过滤html标签C#抓取网页数据 解析标题描述图片等信息 去除HTML标签

    GetHtml.rar_PDA C#_Ppc_c# html

    从标签"pda_c# ppc c#_html"中,我们可以推断出该程序专注于C#语言的Web交互,特别是在PDA和PPC设备上的实现。这可能涉及到使用.NET框架的WebClient或HttpWebRequest类来发送HTTP请求,获取HTML响应,然后使用...

    C#实现过滤html标签并保留a标签的方法

    有时候,我们只需要在HTML字符串中保留特定标签,例如a标签,而去除其他的HTML标签。为了实现这一功能,可以使用正则表达式,它是一种强大的文本处理工具,能够通过定义匹配模式来搜索、替换或提取字符串。 本文的...

Global site tag (gtag.js) - Google Analytics