转于:
http://hi.baidu.com/sqs3ng/blog/item/4c5d9a44bc31bb44500ffe24.html
过滤 所有 html :
Function ReplaceHtml(ConStr)
Dim tmpReStr,regEx
tmpReStr = Cstr(ConStr)
Set regEx = New RegExp
regEx.Pattern = "<\/*[^<>]*>"
regEx.IgnoreCase = True
regEx.Global = True
tmpReStr = regEx.Replace(tmpReStr,"")
ReplaceHtml = tmpReStr
End Function
过滤 style :
Function ReplaceStyleTag(ConStr)
Dim tmpReStr,regEx
tmpReStr = Cstr(ConStr)
Set regEx = New RegExp
regEx.Pattern = "(<style)+[^<>]*>[^\0]*(<\/style>)+"
regEx.IgnoreCase = True
regEx.Global = True
tmpReStr = regEx.Replace(tmpReStr,"")
ReplaceStyleTag = tmpReStr
Set regEx = Nothing
End Function
过滤 层 div :
Function ReplaceDivTag(ConStr)
Dim tmpReStr,regEx
tmpReStr = Cstr(ConStr)
Set regEx = New RegExp
regEx.Pattern = "<(\/){0,1}div[^<>]*>"
regEx.IgnoreCase = True
regEx.Global = True
tmpReStr = regEx.Replace(tmpReStr,"")
ReplaceDivTag = tmpReStr
Set regEx = Nothing
End Function
过滤 链接 a :
Function ReplaceATag(ConStr)
Dim tmpReStr,regEx
tmpReStr = Cstr(ConStr)
Set regEx = New RegExp
regEx.Pattern = "<(\/){0,1}a[^<>]*>"
regEx.IgnoreCase = True
regEx.Global = True
tmpReStr = regEx.Replace(tmpReStr,"")
ReplaceATag = tmpReStr
Set regEx = Nothing
End Function
过滤 字体 font :
Function ReplaceFontTag(ConStr)
Dim tmpReStr,regEx
tmpReStr = Cstr(ConStr)
Set regEx = New RegExp
regEx.Pattern = "<(\/){0,1}font[^<>]*>"
regEx.IgnoreCase = True
regEx.Global = True
tmpReStr = regEx.Replace(tmpReStr,"")
ReplaceFontTag = tmpReStr
Set regEx = Nothing
End Function
过滤 span :
Function ReplaceSpanTag(ConStr)
Dim tmpReStr,regEx
tmpReStr = Cstr(ConStr)
Set regEx = New RegExp
regEx.Pattern = "<(\/){0,1}span[^<>]*>"
regEx.IgnoreCase = True
regEx.Global = True
tmpReStr = regEx.Replace(tmpReStr,"")
ReplaceSpanTag = tmpReStr
Set regEx = Nothing
End Function
过滤 object :
Function ReplaceObjectTag(ConStr)
Dim tmpReStr,regEx
tmpReStr = Cstr(ConStr)
Set regEx = New RegExp
regEx.Pattern = "<object.*?/object>"
regEx.IgnoreCase = True
regEx.Global = True
tmpReStr = regEx.Replace(tmpReStr,"")
ReplaceObjectTag = tmpReStr
Set regEx = Nothing
End Function
过滤 iframe:
Function ReplaceIFrameTag(ConStr)
Dim tmpReStr,regEx
tmpReStr = Cstr(ConStr)
Set regEx = New RegExp
regEx.Pattern = "(<iframe){1,}[^<>]*>[^\0]*(<\/iframe>){1,}"
regEx.IgnoreCase = True
regEx.Global = True
tmpReStr = regEx.Replace(tmpReStr,"")
ReplaceIFrameTag = tmpReStr
Set regEx = Nothing
End Function
过滤 script:
Function ReplaceScriptTag(ConStr)
Dim tmpReStr,regEx
tmpReStr = Cstr(ConStr)
Set regEx = New RegExp
regEx.Pattern = "(<script){1,}[^<>]*>[^\0]*(<\/script>){1,}"
regEx.IgnoreCase = True
regEx.Global = True
tmpReStr = regEx.Replace(tmpReStr,"")
ReplaceScriptTag = tmpReStr
Set regEx = Nothing
End Function
过滤 Class :
Function ReplaceClassTag(ConStr)
Dim tmpReStr,regEx
tmpReStr = Cstr(ConStr)
Set regEx = New RegExp
regEx.Pattern = "(class=){1,}(""|\'){0,1}\S+(""|\'|>|\s){0,1}"
regEx.IgnoreCase = True
regEx.Global = True
tmpReStr = regEx.Replace(tmpReStr,"")
ReplaceClassTag = tmpReStr
Set regEx = Nothing
End Function
分享到:
相关推荐
ScriptHtml函数通过正则表达式过滤HTML标记。正则表达式是一种强大的文本处理工具,能够实现复杂的字符串查找、匹配和替换功能。在这个函数中,正则表达式用于定位并删除HTML中的特定标签。 6. 字符串截取技术 ...
1. **HTTP请求与解析**:爬虫会模拟用户的HTTP请求来获取网页内容,然后使用正则表达式或DOM解析库(如Microsoft JScript DOM或第三方库)解析HTML,提取所需数据。 2. **数据库操作**:程序需要连接到数据库(如...
4. **验证与过滤**:防止恶意输入,例如使用正则表达式检查邮箱格式,过滤HTML标签以防止XSS攻击。 5. **页面逻辑**:使用ASP脚本来处理用户请求,如添加新留言、删除留言或查看留言。 ### ASP实现留言簿 - **HTML...
7. **数据处理**:爬虫抓取的数据可能需要进行清洗、过滤和存储,可能涉及到正则表达式、DOM解析、数据库操作等技术。 8. **安全性与合规性**:使用网络爬虫需遵循网站的robots.txt规则,并尊重数据隐私,确保不...
【标题】"基于ASP的曲阳热线互联网新闻采集系统 v1.0" 是一个早期的网络新闻抓取软件,主要用于从互联网上自动化地收集、整理和发布新闻资讯。该系统利用了ASP(Active Server Pages)技术,这是一种由微软开发的...
这部分可能涉及到正则表达式知识,以确保正确匹配和提取所需数据。 4. **数据过滤与处理**:在抓取数据后,你可能需要进行一些预处理,比如去除HTML标签、转换特殊字符、处理重复内容等,以保证数据的整洁性和可用...
这涉及到字符串操作、正则表达式匹配等技巧,ASP.NET 提供了System.Text.RegularExpressions命名空间,方便进行文本处理。 3. **内容存储**:采集到的新闻数据需要存储在数据库中,便于后续的查询和展示。ASP.NET ...
<br>该组件内部算法主要应用了规则模型抽取,所有规则基本使用正则表达式实现,具体正则可参考我的BLOG上《正文抽取正则》以及《聊聊网页正文抽取》内容。 ...
这通常涉及到了HTML解析技术,如使用正则表达式或者DOM解析库(如ASP的ServerXMLHTTP对象)。 2. **数据过滤与存储**:对抓取到的数据进行筛选和处理,去除无效信息,如广告、HTML标签等,然后将有效数据存储在本地...
这种工具通常会涉及文本处理、正则表达式、数据分析等技术,以便从大量简历中提取关键信息,如技能、经验年限、教育背景等。它可能还具备过滤和排序功能,让用户可以根据特定条件快速找到合适的候选人。 在工具类别...