C#、JS利用正则表达式清理HTML标记一例

全部 Ruby Python PHP Flash C++ .net Rails Flex C C# Django

浏览 2857 次

锁定老帖子主题：C#、JS利用正则表达式清理HTML标记一例精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
zu14 等级: 初级会员性别: 文章: 1 积分: 80 来自: 杭州	发表时间：2009-02-13 最后修改：2009-02-13 相关推荐: 加州旅馆 Hotel California (The Eagles) 经典正则表达式——常用的正则表达式正则表达式分析网页数据正则表达式深入剖析：正则表达式的奥秘更多相关推荐有些时候，我们对一些内容，清理掉HTML标记，只保留纯内容或一部分内容，例如下面的一段： <SPAN class = InsertWordsDisplay>这里不要</span>只要这里 <SPAN class=\"InsertWordsDisplay\">不要()</span> 对上面的这段代码，我们只要蓝色的内容，也就是“凡是被HTML标记包围的内容，都不要了* ” C# 的实现方式： string strToBeFiltered = "<SPAN class = InsertWordsDisplay>这里不要</span>只要这里<SPAN class=\"InsertWordsDisplay\">不要()</span>" ; Regex reg = new Regex ("<span\\s+class\\s{0,}=\\s{0,}\"{0,1}InsertWordsDisplay\"{0,1}>.+?</span>" , RegexOptions .IgnoreCase \| RegexOptions .Multiline); string strFiltered = reg.Replace(strToBeFiltered, "" ); 上面的 strFiltered 就是最终的结果了 Javascript 的实现方式： < script type = "text/javascript" > var strToBeFiltered = '<SPAN class = InsertWordsDisplay>不要</span>要<SPAN class="InsertWordsDisplay">不要()</span>' ; var pattern = /< span \ s + class \ s { 0 ,}=\ s { 0 ,} "{0,1}InsertWordsDisplay" { 0 , 1 }\ s { 0 ,}>.+?<\/ span >/ ig ; var strFiltered = strToBeFiltered . replace ( pattern , '' ); alert ( strFiltered ); </ script > 希望起个抛砖引玉的作用吧声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → 编程语言技术版

跳转论坛: