`

采集系统万能正则表达式

阅读更多
由于经常要写一些采集的程序,下面的三个函数是采集中的很常用的函数。姑且叫采集系统万能正则表达式吧。全部源码见
http://www.softbk.com/news.asp?id=3564 <script type="text/javascript"><!-- google_ad_client = "pub-4334685396432654"; //468x15, 创建于 07-12-5 google_ad_slot = "3722935453"; google_ad_width = 468; google_ad_height = 15; //--></script><script src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type="text/javascript"> </script>     欢迎一起交流

//获取页面的html源码
 public  string GetHtmlSource(string Url, string charset)
        
{
            
if (charset == "" || charset == null) charset = "gb2312";
            
string text1 = "";
            
try
            
{
                HttpWebRequest request1 
= (HttpWebRequest)WebRequest.Create(Url);
                HttpWebResponse response1 
= (HttpWebResponse)request1.GetResponse();
                Stream stream1 
= response1.GetResponseStream();
                StreamReader reader1 
= new StreamReader(stream1, Encoding.GetEncoding(charset));
                text1 
= reader1.ReadToEnd();
                stream1.Close();
                response1.Close();
            }

            
catch (Exception exception1)
            
{
            }

            
return text1;
        }


 public string SniffwebCode(string code, string wordsBegin, string wordsEnd)
        
{
            
string NewsTitle = "";
            Regex regex1 
= new Regex("" + wordsBegin + @"(?<title>[\s\S]+?)" + wordsEnd + "", RegexOptions.Compiled | RegexOptions.IgnoreCase);
            
for (Match match1 = regex1.Match(code); match1.Success; match1 = match1.NextMatch())
            
{
                NewsTitle 
= match1.Groups["title"].ToString();
            }

            
return NewsTitle;

        }

 public ArrayList SniffwebCodeReturnList(string code, string wordsBegin, string wordsEnd)
        
{
            ArrayList urlList 
= new ArrayList();
            
//string NewsTitle = "";
            Regex regex1 = new Regex("" + wordsBegin + @"(?<title>[\s\S]+?)" + wordsEnd + "", RegexOptions.Compiled | RegexOptions.IgnoreCase);
            
for (Match match1 = regex1.Match(code); match1.Success; match1 = match1.NextMatch())
            
{
                urlList.Add(match1.Groups[
"title"].ToString());
            }

            
return urlList;

        }
分享到:
评论

相关推荐

    万能新闻采集器--php版

    3. **正则表达式**:虽然DOM解析更为推荐,但有时简单的正则表达式也能快速完成数据抽取任务。PHP内置了对正则表达式的全面支持,可以用于匹配和替换字符串。 4. **数据存储**:采集到的数据通常需要保存起来,以便...

    基于PHP的UZCMS镜像采集系统(万能克隆爬虫程序)php版.zip

    同时,PHP还有强大的字符串处理和正则表达式支持,用于解析HTML文档和提取数据。这个"万能克隆爬虫程序"可能集成了这些特性,使得用户能够高效地抓取和复制网页内容。 【描述】中提到的"基于PHP的UZCMS镜像采集系统...

    雨楠万能ASP采集程序 简易版 v0.1-ASP源码.zip

    4. 正则表达式:学会使用正则表达式进行文本匹配和提取,这是从网页中定位并抽取特定数据的关键。 5. HTML和DOM解析:理解HTML文档结构,学习如何通过DOM接口遍历和操作HTML元素,提取所需数据。 6. 数据处理与...

    UZCMS镜像采集系统(万能克隆小偷程序) v1.0.rar

    11. 支持自定义模板风格:通过正则表达式,屏蔽目标站的风格模块,将目标站的CSS文件下载到本地,即可实现自己制作完全脱离目标站的独立风格模板(新手需要帮助可以联系我们); 12. 支持站群功能:通过本程序的...

    雨楠万能ASP采集程序源码简易版v0.1

    3. **整合能力**:雨楠万能ASP采集程序简易版V0.1能够与其他程序无缝集成,意味着开发者可以将采集到的数据直接导入到自己的系统中,如内容管理系统(CMS)或者数据分析平台。这在构建个性化信息聚合站点或进行数据...

    PHP万能采集网站源码.zip

    XPath表达式可以用来选取HTML节点,正则表达式则常用于模式匹配和数据提取。 4. **伪静态**:为了提高SEO(搜索引擎优化)和用户体验,系统可能采用了URL伪静态技术。这通常通过服务器配置(如Apache的.htaccess...

    e语言-易语言万能一键下载器

    再者,"正则表达式支持库"是处理和分析文本的强大工具,它允许开发者通过预定义的模式匹配和提取数据。在一键下载器中,正则表达式可能用于解析网页内容,找出需要下载的文件链接,或者从HTML源码中提取特定的信息。...

    基于PHP的UZCMS镜像采集系统(万能克隆抓取程序)php版源码.zip

    这通常需要用到正则表达式或者DOM解析库(如PHP的DOMDocument)。 3. **存储与处理**:解析后的数据会被存储在数据库中,以便后续展示或进一步处理。这里需要考虑如何有效地存储结构化和非结构化数据,以及如何处理...

    网站万能信息采集器 asp

    这通常通过正则表达式或DOM解析库来实现,如Microsoft的MSXML库或开源的HtmlAgilityPack。 2. **网络请求**:采集器发送HTTP/HTTPS请求到目标网站,获取网页内容。这可能涉及到模拟登录、处理cookies、处理验证码等...

    无敌万能采集器-采集

    它通常使用正则表达式、DOM解析、XPath或BeautifulSoup等库来识别和提取目标数据,例如文章内容、作者信息、评论等。 3. **多线程与并发处理**:为了提高采集效率,无敌万能采集器支持多线程或异步处理,能同时处理...

    全能字符替换.rar

    4、*支持高级表达式的匹配:支持大小写开关、特殊字符(如换行符)、正则表达式(包括通配符);特别是比UltraEdit/Word等实现的正则表达式还要完整得多; 5、*生成动态替换串:替换结果可以是动态变量,文件名可以...

    万能asp采集器

    1. **自定义规则**:用户可以设置规则来指定需要抓取的网页元素,例如通过CSS选择器或正则表达式定位目标内容。 2. **多线程采集**:支持同时处理多个网页,提高采集效率。 3. **数据存储**:采集到的数据可以保存为...

    ASP源码—发布站万能文章采集插件 v1.0.zip

    ASP源码—发布站万能文章采集插件v1.0是一个基于ASP(Active Server Pages)技术开发的网站内容采集工具。ASP是微软推出的一种服务器端脚本环境,用于生成动态网页。此插件主要用于自动从互联网上抓取并发布文章,以...

    ASP.NET源码——[小偷采集]万能小偷程序.zip

    3. **数据处理**:将抓取到的数据进行清洗、格式化,可能涉及到正则表达式操作,以便后续存储或展示。 4. **数据库操作**:如果需要将采集到的数据存储,可能会用到ADO.NET或者其他ORM(对象关系映射)框架如Entity...

    采集全站资源PHP源码V1.2

    2. 正则表达式:在PHP中进行数据匹配和提取时,正则表达式是非常常用的工具。 3. session与cookie:用于跟踪用户状态,可能在登录认证和个性化服务中使用。 4. 错误处理和日志记录:确保程序在遇到问题时能够正常...

    PYTHON万能爬虫程序,代码可直接使用

    3. **正则表达式**:通过正则表达式可以匹配和提取网页中的特定文本,`re`库是Python的标准库,用于处理正则表达式。 4. **数据存储**:爬取到的数据通常需要存储,Python提供了多种数据持久化方式,如文本文件、...

    vivi万能小偷程序采集规则编写视频教程之初级使用.rar

    您会学习到正则表达式的基础知识,它是匹配和提取文本的强大工具。 4. **数据清洗与处理**:在采集过程中,原始数据往往包含无用或格式不正确的信息。教程将教授如何使用vivi内置的函数或自定义脚本来清洗和处理...

    雨楠万能ASP采集程序 简易版 v0.1

    例如,对于不同网站的HTML标签布局差异,用户可以自定义正则表达式或者DOM操作来定位需要的数据。这种灵活性使得该程序能够适应广泛的变化和需求,避免了对每个网站编写单独采集代码的繁琐过程。 "可以整合到你自己...

    关关采集器规则编写教程(图文详解版).docx

    ### 关关采集器规则编写教程知识点详析 #### 一、引言 关关采集器是一款功能强大的数据抓取工具,适用于...正则表达式的灵活运用是实现高效数据采集的关键,希望本教程能够帮助大家解决实际工作中遇到的数据抓取难题。

    UZCMS镜像采集系统(万能克隆小偷程序)

    11. 支持自定义模板风格:通过正则表达式,屏蔽目标站的风格模块,将目标站的CSS文件下载到本地,即可实现自己制作完全脱离目标站的独立风格模板(新手需要帮助可以联系我们); 12. 支持站群功能:通过本程序的镜像...

Global site tag (gtag.js) - Google Analytics