`
dcdc723
  • 浏览: 189565 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

用C#写的一个采集某大型B2C数据的程序(数据采集)

    博客分类:
  • net
阅读更多
using System;
using System.Net;
using System.Text;
using System.Text.RegularExpressions;
namespace web
{
    public partial class dang : System.Web.UI.Page
    {
        protected void Page_Load(object sender, EventArgs e)
        {

            WebClient wc = new WebClient();
            byte[] bt = wc.DownloadData(@"网址");
            string res = Encoding.Default.GetString(bt);
            res = Regex.Replace(res, @"<!DOCTYPE .*?第1页", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
            res = Regex.Replace(res, @"<!--页尾 开始 -->.*?</html>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
            res = Regex.Replace(res, @"<div id=""divBottomPageNavi"".*?</div>.*?</div>.*?</div>.*?</div>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
            res = Regex.Replace(res, @"</div><div class='list_r_title_text3a'>.*?list_r_line""></div>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
            res = Regex.Replace(res, @"<div class=""clear"">.*?", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);

            res = Regex.Replace(res, @"<div class=""list_r_list"">.*?<h2>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
            res = Regex.Replace(res, @"</h2>.*?</div>.*?</div>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
            res = Regex.Replace(res, @"<a name=""link_prd_name"" href='", "");
            res = Regex.Replace(res, @"' target=""_blank"">", "ww");
            res = Regex.Replace(res, @"ww.*?</a>", "");
            res = Regex.Replace(res, "</div>", ";");
            res = res.Substring(0, res.Length - 1).ToString();
            string[] ress = res.Split(';');
            for (int i = 0; i < ress.Length - 1; i++)
            {

                WebClient wc1 = new WebClient();
                string ur = @"" + ress[i] + "";
                byte[] bt1 = wc.DownloadData(ur);
                string res1 = Encoding.Default.GetString(bt1);
                res1 = Regex.Replace(res1, @"<!DOCTYPE .*?您最近的浏览历史", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
                res1 = Regex.Replace(res1, @"<h2 class=""black14"">.*?<!--价格购买区结束-->", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
                res1 = Regex.Replace(res1, @"<a name=""review_point""></a>.*?</html>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);


                // Response.Write(res1);
                Regex chubantime = new Regex(@"<li>出版时间:.*?</li>");
                if (chubantime.IsMatch(res1))
                {
                    string chubantime1 = chubantime.Match(res1).Value.ToString();
                    chubantime1 = Regex.Replace(chubantime1, "<li>出版时间:", "");
                    chubantime1 = Regex.Replace(chubantime1, "</li>", "");
                    Response.Write(chubantime1.Trim() + "<br>");
                }
                Regex zishu = new Regex(@"<li>字  数:.*?</li>");
                if (zishu.IsMatch(res1))
                {
                    string zishu1 = zishu.Match(res1).Value.ToString();
                    zishu1 = Regex.Replace(zishu1, "<li>字  数:", "");
                    zishu1 = Regex.Replace(zishu1, "</li>", "");
                    Response.Write(zishu1.Trim() + "<br>");
                }
                Regex banci = new Regex(@"<li>版  次:.*?</li>");
                if (banci.IsMatch(res1))
                {
                    string banci1 = banci.Match(res1).Value.ToString();
                    banci1 = Regex.Replace(banci1, "<li>版  次:", "");
                    banci1 = Regex.Replace(banci1, "</li>", "");
                    Response.Write(banci1.Trim() + "<br>");
                }
                Regex yeshu = new Regex(@"<li>页  数:.*?</li>");
                if (yeshu.IsMatch(res1))
                {
                    string yeshu1 = yeshu.Match(res1).Value.ToString();
                    yeshu1 = Regex.Replace(yeshu1, "<li>页  数:", "");
                    yeshu1 = Regex.Replace(yeshu1, "</li>", "");
                    Response.Write(yeshu1.Trim() + "<br>");
                }
                Regex yshsj = new Regex(@"<li>印刷时间:.*?</li>");
                if (yshsj.IsMatch(res1))
                {
                    string yshsj1 = yshsj.Match(res1).Value.ToString();
                    yshsj1 = Regex.Replace(yshsj1, "<li>印刷时间:", "");
                    yshsj1 = Regex.Replace(yshsj1, "</li>", "");
                    Response.Write(yshsj1.Trim() + "<br>");
                }
                Regex kaiben = new Regex(@"<li>开  本:.*?</li>");
                if (kaiben.IsMatch(res1))
                {
                    string kaiben1 = kaiben.Match(res1).Value.ToString();
                    kaiben1 = Regex.Replace(kaiben1, "<li>开  本:", "");
                    kaiben1 = Regex.Replace(kaiben1, "</li>", "");
                    Response.Write(kaiben1.Trim() + "<br>");
                }





                Regex yinci = new Regex(@"<li>印  次:.*?</li>");
                if (yinci.IsMatch(res1))
                {
                    string yinci1 = yinci.Match(res1).Value.ToString();
                    yinci1 = Regex.Replace(yinci1, "<li>印  次:", "");
                    yinci1 = Regex.Replace(yinci1, "</li>", "");
                    Response.Write(yinci1.Trim() + "<br>");
                }


                Regex zhizhang = new Regex(@"<li纸  张:.*?</li>");
                if (zhizhang.IsMatch(res1))
                {
                    string zhizhang1 = zhizhang.Match(res1).Value.ToString();
                    zhizhang1 = Regex.Replace(zhizhang1, "<li>纸  张:", "");
                    zhizhang1 = Regex.Replace(zhizhang1, "</li>", "");
                    Response.Write(zhizhang1.Trim() + "<br>");
                }

                Regex isbnn = new Regex(@"<li>I S B N    :.*?</li>");
                if (isbnn.IsMatch(res1))
                {
                    string isbnn1 = isbnn.Match(res1).Value.ToString();
                    isbnn1 = Regex.Replace(isbnn1, "<li>I S B N    :", "");
                    isbnn1 = Regex.Replace(isbnn1, "</li>", "");
                    Response.Write(isbnn1.Trim() + "<br>");
                }

                Regex baozhuang = new Regex(@"<li>包  装:.*?</li>");
                if (baozhuang.IsMatch(res1))
                {
                    string baozhuang1 = baozhuang.Match(res1).Value.ToString();
                    baozhuang1 = Regex.Replace(baozhuang1, "<li>包  装:", "");
                    baozhuang1 = Regex.Replace(baozhuang1, "</li>", "");
                    Response.Write(baozhuang1.Trim() + "<br>");
                }

                Regex chubanshe = new Regex(@"<div id='publisher_'>出 版 社:.*?</div>");
                if (chubanshe.IsMatch(res1))
                {
                    string chubanshe1 = chubanshe.Match(res1).Value.ToString();
                    chubanshe1 = Regex.Replace(chubanshe1, "<div id='publisher_'>出 版 社:", "");
                    chubanshe1 = Regex.Replace(chubanshe1, "</div>", "");
                    Response.Write(chubanshe1.Trim() + "<br>");
                }

                Regex zuozhe = new Regex(@"<div id='author_' >作  者:.*?</div>");
                if (zuozhe.IsMatch(res1))
                {
                    string zuozhe1 = zuozhe.Match(res1).Value.ToString();
                    zuozhe1 = Regex.Replace(zuozhe1, "<div id='author_' >作  者:", "");
                    zuozhe1 = Regex.Replace(zuozhe1, "</div>", "");
                    Response.Write(zuozhe1.Trim() + "<br>");
                }

                Regex dingjia = new Regex(@"<span class=""gray87"">定价:<span class=""del"">.*?</span></span>");
                if (dingjia.IsMatch(res1))
                {
                    string dingjia1 = dingjia.Match(res1).Value.ToString();
                    dingjia1 = Regex.Replace(dingjia1, @"<span class=""gray87"">定价:<span class=""del"">", "");
                    dingjia1 = Regex.Replace(dingjia1, "</span></span>", "");
                    Response.Write(dingjia1.Trim() + "<br>");
                }

                Regex jiage = new Regex(@"<span class=""redc30"">价格:.*?</b></span>");
                if (jiage.IsMatch(res1))
                {
                    string jiage1 = jiage.Match(res1).Value.ToString();
                    jiage1 = Regex.Replace(jiage1, @"<span class=""redc30"">价格:<b>", "");
                    jiage1 = Regex.Replace(jiage1, "</b></span>", "");
                    Response.Write(jiage1.Trim() + "<br>");
                }


                Regex neirong = new Regex(@"内容简介</h2> <div class=""right_content"">.*?</div><div class=""dashed"">");
                if (neirong.IsMatch(res1))
                {
                    string neirong1 = neirong.Match(res1).Value.ToString();
                    neirong1 = Regex.Replace(neirong1, @"内容简介</h2> <div class=""right_content"">", "");
                    neirong1 = Regex.Replace(neirong1, @"</div><div class=""dashed"">", "");
                    Response.Write(neirong1.Trim() + "<br>");
                }

                Regex mulu = new Regex(@"目录</h2> <div class=""right_content"">.*?</div>");
                if (mulu.IsMatch(res1))
                {
                    string mulu1 = mulu.Match(res1).Value.ToString();
                    mulu1 = Regex.Replace(mulu1, @"目录</h2> <div class=""right_content"">", "");
                    mulu1 = Regex.Replace(mulu1, "</div>", "");
                    Response.Write(mulu1.Trim() + "<br>");
                }

                Regex phs = new Regex(@"<img src="".*?id=""img_show_prd""/>");
                if (phs.IsMatch(res1))
                {
                    string phs1 = phs.Match(res1).Value.ToString();
                    phs1 = Regex.Replace(phs1, @"<img src=""", "");
                    phs1 = Regex.Replace(phs1, @"""  id=""img_show_prd""/>", ""); //小图
                   string phsname = Regex.Replace(phs1,@"http.*?\.com/\d.*/\d.*/",string.Empty,RegexOptions.IgnoreCase|RegexOptions.Singleline);
                    Response.Write("图片名"+phsname+"<br>");
                    string phbb = phs1.Substring(0, phs1.Length - 5) + "o.jpg"; //大图
                    //WebClient WCs = new WebClient();
                    //WebClient WCb = new WebClient();
                    //WCp.DownloadFile(@"http://www.XXX.com/img/XXX_logo.gif", Server.MapPath("XX.gif"));
                    //WCs.DownloadFile(@"""phs1""",Server.MapPath(""));
                    //WCs.DownloadFile(@"""phbb""");
                    Response.Write(phs1 + "<br>");
                    Response.Write(phbb + "<br>");
                }

                //Regex phb = new Regex(@"<a class=""gray878787a"" href=""javascript:ImgBtnChgPrd_Click\(this,'(.*?)'\)"" name=""bigpicture"">点击查看大图</a></div>");
                //if (phb.IsMatch(res1))
                //{
                //    string  phb1 = phs.Match(res1).Value.ToString();
                //        phb1 = Regex.Replace(phb1, @"this,'", "");
                //        phb1 = Regex.Replace(phb1, @"'\)"" name=""bigpicture"">点击查看大图</a></div>", ""); //大图
                //    Response.Write(phb1);
                //}


            }





            WebClient WCp = new WebClient();
            WCp.DownloadFile(@"http://www.XXX.com/img/XXX_logo.gif", Server.MapPath("XXX.gif"));  //这里是用WEBCLIENT保存图片

        }
    }
}

 

此处只列出了.CS文件

1
1
分享到:
评论
1 楼 dcdc723 2010-01-29  
通过后台创建Javascript到前台
建一个方法
StringBuilder createJSScript = new StringBuilder("var intIndex=0;arrList = new Array(); "); ;
createJSScript.Append(" function smanPromptList(arrList,objInputId){ \n");
        createJSScript.Append("\n");
ClientScript.RegisterClientScriptBlock(this.GetType(), "arrList", createJSScript.ToString(), true);
再在page_load事件里调用这个方法

相关推荐

    史上最好传智播客就业班.net培训教程60G 不下会后悔

    这是一个典型的B2C网上商城,使用经典的复杂三层架构(工厂模式)进行开发。涉及图书管理、搜索、订单管理、导航管理等核心模块。在讲解ASP.Net基础后安排这样一个B2C网上商城系统,让学员在实际项目中将学到的知识...

    金煤婚恋 92版本, 去授权,仅供学习,商业使用请支持正版

    金煤婚恋 92版本, 去授权,仅供学习,商业使用请支持正版

    基于springboot框架的小区团购管理系统平台的设计与实现(Java项目编程实战+完整源码+毕设文档+sql文件+学习练手好项目).zip

    传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装小区团购管理软件来发挥其高效地信息处理的作用,可以规范信息管理流程,让管理工作可以系统化和程序化,同时,小区团购管理的有效运用可以帮助管理人员准确快速地处理信息。 小区团购管理在对开发工具的选择上也很慎重,为了便于开发实现,选择的开发工具为Eclipse,选择的数据库工具为Mysql。以此搭建开发环境实现小区团购管理的功能。其中管理员管理用户,新闻公告。 小区团购管理是一款运用软件开发技术设计实现的应用系统,在信息处理上可以达到快速的目的,不管是针对数据添加,数据维护和统计,以及数据查询等处理要求,小区团购管理都可以轻松应对。 关键词:小区团购管理;SSM框架,系统分析,数据库设计

    机器学习(预测模型):初创企业失败(案例/情况等)数据集

    数据集是一个关于初创企业失败案例的详细数据集,由Daglox Kankwanda于2025年2月27日发布在Kaggle上。该数据集包含483家初创企业的失败信息,数据来源于CB Insights的“初创企业失败后分析”汇编。 数据集涵盖了多个行业的初创企业,提供了丰富的字段信息,包括公司名称、行业领域、失败原因、资金筹集情况、运营时长、地理位置等。这些字段为研究者提供了多维度的视角,可以深入分析初创企业失败的共性和差异。 通过该数据集,研究者可以探索不同行业初创企业的失败模式,例如,某些行业可能因市场竞争激烈而失败,而另一些行业可能因技术瓶颈或资金不足而终止。此外,数据集还提供了失败原因的详细分类,如产品市场契合度不足、团队问题、资金链断裂等,为创业者和投资者提供了宝贵的经验教训。 该数据集不仅适用于商业分析和研究,还可以用于机器学习模型的训练,例如预测初创企业的成功概率或识别潜在的失败风险因素。对于希望深入了解创业生态和风险的研究者、创业者以及投资者来说,“Startup Failures”数据集是一个极具价值的资源。

    Swift-Button封装

    Swift-Button封装

    汽车嵌入式系统中AUTOSAR TcpIp模块的技术解析及应用场景

    内容概要:本文档详尽介绍了AUTOSAR TcpIp模块的功能与设计,作为AUTOSAR通信栈的核心部分,它提供了完整的TCP/IP协议栈解决方案,包括TCP和UDP在内的多种协议以及IPv4和IPv6的支持。文档涵盖模块的总体架构设计,详细描绘其状态管理和数据传输机制,并阐述与其它相关模块之间的交互协作。同时,对初始化流程、Socket操作以及数据发送接收的具体过程进行了逐步拆解与解释。还介绍了针对可能出现故障时的错误处理措施。 适合人群:汽车电子工程师、嵌入式系统开发者、研究AUTOSAR规范及其网络协议栈实现的专业人士。 使用场景及目标:本文件主要用于深入了解和支持汽车行业内基于AUTOSAR平台的网络协议部署情况;为设计符合工业标准的车载信息系统打下坚实的基础;对于提升产品性能和安全性具有重要的指导价值。 其他说明:作者提供了一个详细的参考资料链接,感兴趣的读者可以进一步访问获取更多信息。此外,在实际工作中遇到的问题也可以参考文中所提到的各种处理方法来进行有效的排查和解决。

    Thinkpad T480s的BIOS升级软件 【版本n22uj39w】

    Thinkpad T480s的BIOS升级软件 【版本n22uj39w】

    特易通国产对讲机TYT-T3 v1.0中英写频软件

    特易通国产对讲机TYT-T3 v1.0中英写频软件

    Swift-ViewController+SP

    Swift-ViewController+SP

    Swift-PDFImage

    Swift-PDFImage

    VMware-Workstation-Full-17.6.2-24409262.x86-64.rar

    VMware-Workstation-Full-17.6.2-24409262.x86_64.rar Linux版本 Vmware是一款领先的虚拟化软件,为用户提供强大的虚拟机平台。通过使用Vmware,用户可以在一台物理计算机上同时运行多个虚拟操作系统,实现资源的高效利用和隔离。它提供了灵活的配置选项、快速的性能和可靠的安全性,适用于个人用户、企业和数据中心。无论是开发测试、应用部署还是服务器管理,Vmware都是一个强大而可靠的工具,为用户提供了简单且可扩展的虚拟化解决方案。

    电子电气架构下智能座舱与车载基础软件的发展现状与趋势

    内容概要:本文首先介绍了智能座舱的概念及其组成结构,详细解释了硬件、软件及交互三个部分的功能,并阐述了智能座舱从电子座舱到智能移动空间的不同发展阶段,重点讨论了语音交互和AR-HUD两大核心技术的发展路径及未来发展方向。接下来介绍车载基础软件的重要性及其分类,强调其在智能汽车发展中扮演的角色。文中指出,在软件定义汽车的趋势下,车载基础软件成为衔接硬件和应用软件的核心枢纽,特别是在软硬件分层解耦背景下,其作用日益凸显。最后探讨了当前国内车载基础软件行业的竞争情况与发展趋势。文章还分析了行业发展面临的高技术壁垒、高转换成本和高退出壁垒等问题,指出了车载基础软件对未来汽车产业变革的意义。 适用人群:从事汽车电子产品设计的研发人员、相关专业在校学生以及对汽车行业新技术感兴趣的爱好者。 使用场景及目标:该文档适合用作学习资料或研究参考资料,旨在帮助读者深入了解智能座舱的构成要素和技术演进,掌握车载基础软件的架构特点,洞悉该领域的市场动向。 其他说明:文中部分内容带有作者个人感悟和思考,但这并不影响其专业价值,反而增加了人文气息,有助于激发工程师的人文关怀和社会责任感。

    JAVA面试基础篇章-I/O流

    JAVA面试最新最有效的全网顶级资料,免费提供,码字不易,你的关注就是博主最大的动力。

    Swift-String-Extension

    Swift-String-Extension

    基于springboot框架的物流管理系统的设计与实现(Java项目编程实战+完整源码+毕设文档+sql文件+学习练手好项目).zip

    社会发展日新月异,用计算机应用实现数据管理功能已经算是很完善的了,但是随着移动互联网的到来,处理信息不再受制于地理位置的限制,处理信息及时高效,备受人们的喜爱。本次开发一套物流管理系统有管理员和用户两个角色。管理员功能有个人中心,用户管理,车辆信息管理,公告信息管理,司机管理,物流信息管理,运单信息管理,车辆类型管理,车辆状态管理,公告类型管理,物流状态管理,运单状态管理。用户可以注册登录,查看公告信息,查看物流信息,可以添加运单信息。物流管理系统服务端用Java开发,用Spring Boot框架开发的网站后台,数据库用到了MySQL数据库作为数据的存储。这样就让用户用着方便快捷,都通过同一个后台进行业务处理,而后台又可以根据并发量做好部署,用硬件和软件进行协作,满足于数据的交互式处理,让用户的数据存储更安全,得到数据更方便。 关键字:物流管理系统;Spring Boot框架;Java;MySQL

    线性表_单链表_创建不重复字母_学习示例_1741871934.zip

    数据结构学习

    KaihongOS-System-Component 4.1.2.17(RT00E000C000M68A).part2.rar

    KaihongOS_System_Component 4.1.2.17(RT00E000C000M68A).part2.rar 请勿下载,请联系对应销售获取。

    数据结构_算法_硬核递归_学习资源包_1741867700.zip

    数据结构学习

    最长上升子序列(Longest Increasing Subsequence,LIS)动态规划解法的 java 源码

    最长上升子序列(Longest Increasing Subsequence,LIS)问题是指在一个给定的无序序列中,找到一个最长的单调递增子序列的长度。

    编程_Python_学习资源_教程分享_1741870237.zip

    数据结构学习

Global site tag (gtag.js) - Google Analytics