`
benfreer
  • 浏览: 105199 次
  • 性别: Icon_minigender_2
  • 来自: 沈阳
文章分类
社区版块
存档分类
最新评论

正则表达式过滤标签收集[ASP]

阅读更多
转于:
http://hi.baidu.com/sqs3ng/blog/item/4c5d9a44bc31bb44500ffe24.html
过滤 所有 html :

Function ReplaceHtml(ConStr)
     Dim tmpReStr,regEx
     tmpReStr = Cstr(ConStr)
     Set regEx = New RegExp
     regEx.Pattern = "<\/*[^<>]*>"
     regEx.IgnoreCase = True
     regEx.Global = True
     tmpReStr = regEx.Replace(tmpReStr,"")
     ReplaceHtml = tmpReStr
End Function

过滤 style :

Function ReplaceStyleTag(ConStr)
     Dim tmpReStr,regEx
     tmpReStr = Cstr(ConStr)
     Set regEx = New RegExp
     regEx.Pattern = "(<style)+[^<>]*>[^\0]*(<\/style>)+"
     regEx.IgnoreCase = True
     regEx.Global = True
     tmpReStr = regEx.Replace(tmpReStr,"")
     ReplaceStyleTag = tmpReStr
     Set regEx = Nothing
End Function


过滤 层 div :

Function ReplaceDivTag(ConStr)
     Dim tmpReStr,regEx
     tmpReStr = Cstr(ConStr)
     Set regEx = New RegExp
     regEx.Pattern = "<(\/){0,1}div[^<>]*>"
     regEx.IgnoreCase = True
     regEx.Global = True
     tmpReStr = regEx.Replace(tmpReStr,"")
     ReplaceDivTag = tmpReStr
     Set regEx = Nothing
End Function



过滤 链接 a :

Function ReplaceATag(ConStr)
     Dim tmpReStr,regEx
     tmpReStr = Cstr(ConStr)
     Set regEx = New RegExp
     regEx.Pattern = "<(\/){0,1}a[^<>]*>"
     regEx.IgnoreCase = True
     regEx.Global = True
     tmpReStr = regEx.Replace(tmpReStr,"")
     ReplaceATag = tmpReStr
     Set regEx = Nothing
End Function


过滤 字体 font :

Function ReplaceFontTag(ConStr)
     Dim tmpReStr,regEx
     tmpReStr = Cstr(ConStr)
     Set regEx = New RegExp
     regEx.Pattern = "<(\/){0,1}font[^<>]*>"
     regEx.IgnoreCase = True
     regEx.Global = True
     tmpReStr = regEx.Replace(tmpReStr,"")
     ReplaceFontTag = tmpReStr
     Set regEx = Nothing
End Function


过滤 span :

Function ReplaceSpanTag(ConStr)
     Dim tmpReStr,regEx
     tmpReStr = Cstr(ConStr)
     Set regEx = New RegExp
     regEx.Pattern = "<(\/){0,1}span[^<>]*>"
     regEx.IgnoreCase = True
     regEx.Global = True
     tmpReStr = regEx.Replace(tmpReStr,"")
     ReplaceSpanTag = tmpReStr
     Set regEx = Nothing
End Function


过滤 object :

Function ReplaceObjectTag(ConStr)
     Dim tmpReStr,regEx
     tmpReStr = Cstr(ConStr)
     Set regEx = New RegExp
     regEx.Pattern = "<object.*?/object>"
     regEx.IgnoreCase = True
     regEx.Global = True
     tmpReStr = regEx.Replace(tmpReStr,"")
     ReplaceObjectTag = tmpReStr
     Set regEx = Nothing
End Function


过滤 iframe:

Function ReplaceIFrameTag(ConStr)
     Dim tmpReStr,regEx
     tmpReStr = Cstr(ConStr)
     Set regEx = New RegExp
     regEx.Pattern = "(<iframe){1,}[^<>]*>[^\0]*(<\/iframe>){1,}"
     regEx.IgnoreCase = True
     regEx.Global = True
     tmpReStr = regEx.Replace(tmpReStr,"")
     ReplaceIFrameTag = tmpReStr
     Set regEx = Nothing
End Function


过滤 script:

Function ReplaceScriptTag(ConStr)
     Dim tmpReStr,regEx
     tmpReStr = Cstr(ConStr)
     Set regEx = New RegExp
     regEx.Pattern = "(<script){1,}[^<>]*>[^\0]*(<\/script>){1,}"
     regEx.IgnoreCase = True
     regEx.Global = True
     tmpReStr = regEx.Replace(tmpReStr,"")
     ReplaceScriptTag = tmpReStr
     Set regEx = Nothing
End Function


过滤 Class :

Function ReplaceClassTag(ConStr)
     Dim tmpReStr,regEx
     tmpReStr = Cstr(ConStr)
     Set regEx = New RegExp
     regEx.Pattern = "(class=){1,}(""|\'){0,1}\S+(""|\'|>|\s){0,1}"
     regEx.IgnoreCase = True
     regEx.Global = True
     tmpReStr = regEx.Replace(tmpReStr,"")
     ReplaceClassTag = tmpReStr
     Set regEx = Nothing
End Function
分享到:
评论

相关推荐

    asp alexa查询小偷程序

    ScriptHtml函数通过正则表达式过滤HTML标记。正则表达式是一种强大的文本处理工具,能够实现复杂的字符串查找、匹配和替换功能。在这个函数中,正则表达式用于定位并删除HTML中的特定标签。 6. 字符串截取技术 ...

    基于ASP的哇啊BT下载爬虫ASP+入库版.zip

    1. **HTTP请求与解析**:爬虫会模拟用户的HTTP请求来获取网页内容,然后使用正则表达式或DOM解析库(如Microsoft JScript DOM或第三方库)解析HTML,提取所需数据。 2. **数据库操作**:程序需要连接到数据库(如...

    ASP 留言簿(简单的)

    4. **验证与过滤**:防止恶意输入,例如使用正则表达式检查邮箱格式,过滤HTML标签以防止XSS攻击。 5. **页面逻辑**:使用ASP脚本来处理用户请求,如添加新留言、删除留言或查看留言。 ### ASP实现留言簿 - **HTML...

    基于ASP的百度软件爬虫ASP伪静态版 v1.0.zip

    7. **数据处理**:爬虫抓取的数据可能需要进行清洗、过滤和存储,可能涉及到正则表达式、DOM解析、数据库操作等技术。 8. **安全性与合规性**:使用网络爬虫需遵循网站的robots.txt规则,并尊重数据隐私,确保不...

    基于ASP的曲阳热线互联网新闻采集系统 v1.0.zip

    【标题】"基于ASP的曲阳热线互联网新闻采集系统 v1.0" 是一个早期的网络新闻抓取软件,主要用于从互联网上自动化地收集、整理和发布新闻资讯。该系统利用了ASP(Active Server Pages)技术,这是一种由微软开发的...

    行业论坛ASP小偷程序 v1.0.rar

    这部分可能涉及到正则表达式知识,以确保正确匹配和提取所需数据。 4. **数据过滤与处理**:在抓取数据后,你可能需要进行一些预处理,比如去除HTML标签、转换特殊字符、处理重复内容等,以保证数据的整洁性和可用...

    ASP,NET源码——[新闻文章]易企通新闻文章采集系统.zip

    这涉及到字符串操作、正则表达式匹配等技巧,ASP.NET 提供了System.Text.RegularExpressions命名空间,方便进行文本处理。 3. **内容存储**:采集到的新闻数据需要存储在数据库中,便于后续的查询和展示。ASP.NET ...

    基于规则模型的通用网页正文提取组件

    &lt;br&gt;该组件内部算法主要应用了规则模型抽取,所有规则基本使用正则表达式实现,具体正则可参考我的BLOG上《正文抽取正则》以及《聊聊网页正文抽取》内容。 ...

    ASP新浪爱问小偷 v1.0 build 20110623

    这通常涉及到了HTML解析技术,如使用正则表达式或者DOM解析库(如ASP的ServerXMLHTTP对象)。 2. **数据过滤与存储**:对抓取到的数据进行筛选和处理,去除无效信息,如广告、HTML标签等,然后将有效数据存储在本地...

    mycvseach

    这种工具通常会涉及文本处理、正则表达式、数据分析等技术,以便从大量简历中提取关键信息,如技能、经验年限、教育背景等。它可能还具备过滤和排序功能,让用户可以根据特定条件快速找到合适的候选人。 在工具类别...

Global site tag (gtag.js) - Google Analytics