`
534064358
  • 浏览: 13671 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

过滤HTML代码,只留下文本

阅读更多
    using System; 
  using System.Web; 
  using System.Text.RegularExpressions;
 public static string NoHTML(string Htmlstring) 
  { 
  //删除剧本 
  Htmlstring = Regex.Replace(Htmlstring,@"<script[^>]*?>.*?</script>", "",RegexOptions.IgnoreCase); 
  //删除HTML 
  Htmlstring = Regex.Replace(Htmlstring,@"<(.[^>]*)>","",RegexOption s.IgnoreCase); 
  Htmlstring = Regex.Replace(Htmlstring,@"([\r\n])[\s]+","",Regex Options.IgnoreCase); 
  Htmlstring = Regex.Replace(Htmlstring,@"-->","",RegexOptions.Ign oreCase); 
  Htmlstring = Regex.Replace(Htmlstring,@"<!--.*","",RegexOptions. IgnoreCase); 
  Htmlstring = Regex.Replace(Htmlstring,@"&(quot|#34);","\"",Rege xOptions.IgnoreCase); 
  Htmlstring = Regex.Replace(Htmlstring,@"&(amp|#38);","&",RegexO ptions.IgnoreCase); 
  Htmlstring = Regex.Replace(Htmlstring,@"&(lt|#60);","<",RegexOpt ions.IgnoreCase); 
  Htmlstring = Regex.Replace(Htmlstring,@"&(gt|#62);",">",RegexOpt ions.IgnoreCase); 
  Htmlstring = Regex.Replace(Htmlstring,@"&(nbsp|#160);"," ",RegexOptions.IgnoreCase); 
  Htmlstring = Regex.Replace(Htmlstring,@"&(iexcl|#161);","\xa1", RegexOptions.IgnoreCase); 
  Htmlstring = Regex.Replace(Htmlstring,@"&(cent|#162);","\xa2",R egexOptions.IgnoreCase); 
  Htmlstring = Regex.Replace(Htmlstring,@"&(pound|#网易);","\xa3", RegexOptions.IgnoreCase); 
  Htmlstring = Regex.Replace(Htmlstring,@"&(copy|#169);","\xa9",R egexOptions.IgnoreCase); 
  Htmlstring = Regex.Replace(Htmlstring, @"&#(\d+);","",RegexOptions.IgnoreCase); 
  Htmlstring.Replace("<",""); 
  Htmlstring.Replace(">",""); 
  Htmlstring.Replace("\r\n",""); 
  Htmlstring=HttpContext.Current.Server.HtmlEncode(H tmlstring).Trim(); 
  return Htmlstring; 
  } 

 

/**////提取HTML代码中书契的C#函数 
  /// <summary> 
  /// 去除HTML标记 
  /// </summary> 
  /// <param name="strHtml">包孕HTML的源码 </param> 
  /// <returns>已经去除后的书契</returns> 
  using System; 
  using System.Text.RegularExpressions; 
  public class StripHTMLTest{ 
  public static void Main(){ 
  string s=StripHTML("<HTML><HEAD><TITLE>资料测试</TITLE></HEAD><BODY>信息</BODY></HTML>"); 
  Console.WriteLine(s); 
  } 
  public static string StripHTML(string strHtml){ 
  string [] aryReg ={ 
  @"<script[^>]*?>.*?</script>", 
  @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>", 
  @"([\r\n])[\s]+", 
  @"&(quot|#34);", 
  @"&(amp|#38);", 
  @"&(lt|#60);", 
  @"&(gt|#62);", 
  @"&(nbsp|#160);", 
  @"&(iexcl|#161);", 
  @"&(cent|#162);", 
  @"&(pound|#网易);", 
  @"&(copy|#169);", 
  @"&#(\d+);", 
  @"-->", 
  @"<!--.*\n" 
  }; 
  string [] aryRep = { 
  "", 
  "", 
  "", 
  "\"", 
  "&", 
  "<", 
  ">", 
  " ", 
  "\xa1",//chr(161), 
  "\xa2",//chr(162), 
  "\xa3",//chr(网易), 
  "\xa9",//chr(169), 
  "", 
  "\r\n", 
  "" 
  }; 
  string newReg =aryReg[0]; 
  string strOutput=strHtml; 
  for(int i = 0;i<aryReg.Length;i++){ 
  Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase); 
  strOutput = regex.Replace(strOutput,aryRep[i]); 
  } 
  strOutput.Replace("<",""); 
  strOutput.Replace(">",""); 
  strOutput.Replace("\r\n",""); 
  return strOutput; 
  } 
  } 
  写一个静态要领 
  移除HTML标签#region 移除HTML标签 
  /**//// <summary> 
  /// 移除HTML标签 
  /// </summary> 
  /// <param name="HTMLStr">HTMLStr</param> 
  public static string ParseTags(string HTMLStr) 
  { 
  return System.Text.RegularExpressions.Regex.Replace(HTMLS tr, "<[^>]*>", ""); 
  } 

 

 取出文本中的图片地址#region 取出文本中的图片地址 
  /**//// <summary> 
  /// 取出文本中的图片地址 
  /// </summary> 
  /// <param name="HTMLStr">HTMLStr</param> 
  public static string GetImgUrl(string HTMLStr) 
  { 
  string str = string.Empty; 
  string sPattern = @"^<img\s+[^>]*>"; 
  Regex r = new Regex(@"<img\s+[^>]*\s*src\s*=\s*([']?)(?<url>\S+)'?[^> ]*>", 
  RegexOptions.Compiled); 
  Match m = r.Match(HTMLStr.ToLower()); 
  if (m.Success) 
  str = m.Result("${url}"); 
  return str; 
  } 

 

分享到:
评论

相关推荐

    HTML新年许愿墙代码,网页版春节许愿墙代码,兔年许愿墙代码

    例如,`&lt;h1&gt;`标签用于大标题,`&lt;form&gt;`用于创建表单,`&lt;input&gt;`用于设置文本输入框,`&lt;button&gt;`用于创建按钮。 2. CSS(Cascading Style Sheets):CSS负责网页的样式和布局。在许愿墙中,funcss文件可能包含了对...

    文本式留言板

    HTML代码会设置这些元素的布局和样式,使用户能够方便地填写和提交信息。 PHP(Hypertext Preprocessor)是一种服务器端脚本语言,用于处理动态内容。在文本式留言板中,PHP的主要作用是在用户点击提交按钮后接收...

    纯javascript文本编辑器

    3. **API接口**:提供JavaScript API供开发者调用,例如获取或设置编辑器内容、插入特定HTML代码、执行格式化操作等。 4. **跨平台兼容**:由于完全基于JavaScript,这样的编辑器通常能在各种现代浏览器中工作,...

    商业编程-源码-PHP文本留言本.zip

    【PHP文本留言本】是一个基于PHP的简单应用,主要用于实现网站上的用户互动功能,让访客可以在不注册的情况下留下他们的信息或建议。这个压缩包包含了实现这一功能所需的全部源代码,帮助开发者理解PHP基础和Web交互...

    超级批量文本替换V5.02 绿色版

    传统的文本编辑器通常只能对单个文件进行查找和替换,但《超级批量文本替换V5.02 绿色版》可以一次性处理多个文件甚至整个目录下的所有文件,无论是HTML、CSS、JavaScript还是其他类型的文本文件,都能轻松应对。...

    php文本留言本

    【PHP文本留言本】是一个基于PHP编程语言实现的简单在线留言板程序,主要目的是提供一个平台让用户可以留下他们的姓名、来源地、电子邮件地址以及留言内容。这个程序通常包含两个主要功能:管理和申请。管理员可以...

    JSP 文本留言簿

    【JSP 文本留言簿】是一个基于Java Server Pages(JSP)技术的简单应用程序,它允许用户在网页上留下文本信息,实现一个基本的在线留言板功能。JSP是Java平台上用于构建动态web应用的一种技术,它结合了HTML、Java...

    php文本留言本.7z

    这个压缩包文件“php文本留言本.7z”包含了一个完整的PHP留言本源代码,允许访客在网站上留下他们的消息,并且管理员可以查看、管理这些留言。 在PHP中,开发这样的留言本涉及到以下几个核心知识点: 1. **PHP基础...

    JSP文本留言用于网站留言

    JSP页面由HTML代码和嵌入的Java代码组成。在服务器端,JSP会被转换成Servlet,然后编译为字节码执行。在客户端,用户看到的是HTML输出。JSP的执行过程包括翻译、编译和执行三个阶段。 2. **JSP指令和动作**: - *...

    留言板jsp代码

    JSP代码指的是用JSP语法编写的程序,而“留言板”则是一个交互式的Web组件,允许用户提交信息并显示其他用户留下的消息。"留言板jsp代码"是对整个项目源码的概括,这些代码会包含处理用户输入、存储留言、显示留言等...

    基于PHP的文本留言本.zip

    4. **分页**:如果留言数量多,可以使用分页功能,每次只显示一定数量的留言。 5. **回复功能**:允许用户对特定留言进行回复,可能需要额外的字段来跟踪回复关系。 6. **样式设计**:CSS用于美化留言本的界面,使其...

    lyb.rar_html 留言_html 留言板_html留言_留言板管理_留言板网站

    在Web开发领域,HTML留言板是常见的互动功能之一,它为网站用户提供了一个方便的平台,使他们能够留下反馈、建议或进行简单的交流。本篇文章将深入探讨如何利用HTML技术来创建一个完整的留言板系统,以及如何进行...

    制作留言板案例代码

    HTML(超文本标记语言)用于创建网页的基本结构,如标题、段落和表单元素。在这个案例中,`dingdang`可能代表一个HTML文件,包含了留言板的布局和交互元素,如留言输入框、提交按钮等。CSS(层叠样式表)用于美化...

    asp只采集网站可见文本的正则

    代码中,`ClearHTMLCode`函数的目标是清除HTML代码,留下可读的文本。它有三个主要的正则表达式模式: 1. `"(.+?)&lt;\/s+cript&gt;"`:这个模式用于匹配JavaScript脚本标签`&lt;script&gt;`和`&lt;/script&gt;`之间的内容。`s+`表示...

    Web应用代码安全编写注意事项

    #### 三、存在源文件的文本(可直接下载的) **说明:** 开发者有时会不小心将包含敏感信息的源文件、备份文件或其他文件留在Web应用目录中。这些文件可能被未经授权的人获取。 **检测方法:** - 漏洞扫描工具可...

    留言板php代码(文件存储)

    1. `message.txt`:这是一个纯文本文件,用于存储用户在留言板上留下的信息。PHP脚本会读取、写入或更新这个文件以展示和保存留言。 2. `form.php`:这是前端展示给用户填写留言的HTML表单。表单通常包含输入字段,...

    个人网页.rar

    主页的设计至关重要,因为它给访客留下了第一印象。在这个个人网页中,可能使用了HTML(超文本标记语言)来编写结构,CSS(层叠样式表)来定义页面的外观和布局,以及可能的JavaScript来增加交互性。 "个人简介...

    在线编辑的网页版本 richedit

    - **安全问题**:由于富文本编辑器允许用户输入HTML代码,可能存在XSS(跨站脚本攻击)风险,因此需要对用户提交的内容进行适当的过滤和转义。 - **性能优化**:大型文档可能会导致页面加载慢,需要考虑如何优化编辑...

    FCKeditor_2.6.3.zip

    4. **富文本编辑**:用户可以通过FCKeditor进行格式化文本操作,如加粗、斜体、下划线,调整字体、大小、颜色,插入图片、链接、表格,以及使用HTML代码直接编辑。 5. **自定义配置**:开发者可以根据需求自定义...

    自己写的留言板(php)

    这个项目中提到的编辑器可能是像CKEditor或TinyMCE这样的开源工具,它们通过JavaScript库在前端处理用户输入,然后将HTML代码发送到后端。在PHP端,我们需要处理这些HTML代码并将其安全地存储到数据库中,以防止XSS...

Global site tag (gtag.js) - Google Analytics