using System.Text.RegularExpressions;
/// <summary>
/// 去除HTML标记
/// </summary>
/// <param name="strHtml">包括HTML的源码 </param>
/// <returns>已经去除后的文字</returns>
public static string StripHTML(string strHtml)
{
string[] aryReg ={
@"<script[^>]*?>.*?</script>",
@"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
@"([ ])[\s]+",
@"&(quot|#34);",
@"&(amp|#38);",
@"&(lt|#60);",
@"&(gt|#62);",
@"&(nbsp|#160);",
@"&(iexcl|#161);",
@"&(cent|#162);",
@"&(pound|#163);",
@"&(copy|#169);",
@"&#(\d+);",
@"-->",
@"<!--.* "
};
string[] aryRep = {
"",
"",
"",
"\"",
"&",
"<",
">",
" ",
"\xa1",//chr(161),
"\xa2",//chr(162),
"\xa3",//chr(163),
"\xa9",//chr(169),
"",
" ",
""
};
string newReg = aryReg[0];
string strOutput = strHtml;
for (int i = 0; i < aryReg.Length; i++)
{
Regex regex = new Regex(aryReg[i], RegexOptions.IgnoreCase);
strOutput = regex.Replace(strOutput, aryRep[i]);
}
strOutput.Replace("<", "");
strOutput.Replace(">", "");
strOutput.Replace(" ", "");
return strOutput;
}
分享到:
相关推荐
C# 去掉 字符串中的 HTML 标签。 有些字符串中 包含一些 HTML 标签 不想要,就可以用 它去掉其中的标签了。
根据提供的文件信息,本文将详细解释C#中用于过滤HTML标签的几种方法,并对每一步进行深入解析。...这种方法不仅可以有效去除HTML标签,还能处理各种HTML实体,从而确保最终输出的安全性和准确性。
### C#中去除HTML标记的方法 在Web开发或者文本处理中,经常需要将包含HTML标记的字符串转换为纯文本格式。这种需求在多种场景下都可能出现,比如:展示用户输入时防止XSS攻击、提取文章内容等。本文将详细介绍如何...
- 使用正则表达式`@"<(.[^>]*)>"`来匹配所有的HTML标签,并用空字符串替换,达到去除HTML标签的目的。 - 这里`[^>]*>`表示匹配所有以`开始,以`>`结束的HTML标签,包括单标签(如` `)和成对标签(如`<p></p>`...
本文将详细介绍如何在C#中实现HTML编码处理,包括去除HTML标签、转义特殊字符等方面的内容。 #### 1. HTML编码与解码的重要性 在Web应用中,为了防止XSS(跨站脚本攻击)等安全问题,以及确保数据显示正确,经常...
在`RegexTest`这个文件中,可能包含了一个使用正则表达式去除HTML标签的例子。正则表达式是一种强大的文本处理工具,可以用来匹配、替换或删除特定模式的字符串。例如,我们可以使用以下正则表达式去除HTML标签: ...
在C#中,处理HTML内容时常常需要过滤掉一些不需要的标签,而保留一些特定标签。这可以通过正则表达式(Regular Expression)实现。正则表达式是一种文本模式,包括普通字符(例如,字母和数字)和特殊字符(称为"元...
最好把所有的特殊HTML标记都找出来,然后把与其相对应的Unicode字符一起影射到Hash表内,最后一起都替换掉
只有一个方法 传入要过滤的字符串 即可完成HTML标签的过滤操作 返回不带HTML标签的字符串 非常方便,且实用
HTML是一种标记语言,它使用标签来定义文档的结构和内容。比如,`<p>`表示段落,`<a>`表示链接,`<h1>`到`<h6>`表示不同级别的标题等。我们的目标是把这些标签去掉,只保留它们之间的文本内容。 在C#中,可以使用`...
在`AfterWork.Html`项目中,开发者可能已经实现了自定义的功能,比如从HTML页面中提取特定数据、清洗HTML以去除无用的标签、替换特定内容,或者生成新的HTML页面。这些功能对于数据抓取、网页自动化或者内容管理应用...
如果目标格式是TXT,可以使用HTML解析库(如HtmlAgilityPack)读取HTML文件,去除HTML标签,只保留纯文本内容;如果目标格式是HTML,可能只需将HTML文件移动到相应目录即可。 5. 最后,根据用户需求整理输出目录,...
在IT领域,特别是Web开发中,去除HTML标签的需求十分常见,尤其是在处理用户输入的数据时,为了防止XSS(跨站脚本)攻击或是为了展示纯文本内容,开发者往往需要将带有HTML标签的字符串转换为纯文本。在经典ASP环境...
在C#编程中,正则表达式是一种强大的文本处理工具,尤其在处理HTML内容时,可以用来有效地过滤或提取特定的HTML标签。本篇文章将详细解释如何使用C#的正则表达式来过滤HTML标签,以便将HTML字符串转换为纯文本。 ...
首先,虽然正则表达式是常见的去除HTML标记的方法,如`StripTagsRegex`函数所示,使用`*?>`匹配HTML标签。但要注意的是,正则表达式处理HTML并不总是完美的,因为它可能无法正确处理嵌套的标签或者复杂的HTML结构。...
去除HTML标记 包括HTML的源码 集合了很多代码移除
将PDF每一页渲染成图片后,可以通过HTML的标签加载这些图片以实现预览。 3. **PDF转HTML**:另一种方法是将PDF内容转换为HTML,这通常需要更复杂的处理。PDFsharp或Syncfusion库可以做到这一点,它们可以解析PDF并...
/// 除去所有在HTML元素中标记 public static string StripHTML(string strHtml) { string strOutput=... 您可能感兴趣的文章:C#使用正则表达式过滤html标签C#抓取网页数据 解析标题描述图片等信息 去除HTML标签
从标签"pda_c# ppc c#_html"中,我们可以推断出该程序专注于C#语言的Web交互,特别是在PDA和PPC设备上的实现。这可能涉及到使用.NET框架的WebClient或HttpWebRequest类来发送HTTP请求,获取HTML响应,然后使用...
有时候,我们只需要在HTML字符串中保留特定标签,例如a标签,而去除其他的HTML标签。为了实现这一功能,可以使用正则表达式,它是一种强大的文本处理工具,能够通过定义匹配模式来搜索、替换或提取字符串。 本文的...