`
maybe723
  • 浏览: 45988 次
  • 来自: ...
最近访客 更多访客>>
社区版块
存档分类
最新评论

抓取网站信息

    博客分类:
  • .net
阅读更多

接触正则表达式的时间不长,感觉挺有意思,所以试着抓取了一下某网站数据.

Code:

private String getInformation(String t)
    {

        Regex r;
        Match m;
        r=new Regex("<tr\\s*bgcolor=\"#FFFFFF\">(?<1>(.|\n)*?)</tr>",RegexOptions.Compiled|RegexOptions.IgnoreCase);

        StringBuilder sql = new StringBuilder();
        for (m = r.Match(t); m.Success; m = m.NextMatch())
        {
            string buffer = m.Groups[1].Value.Trim();
            Regex rx;
            rx = new Regex("<td height=\"28\"\\s.*align=\"center\"><a href=\"(?<1>.*)\"\\s.*target=\"_blank\">(?<2>.*)</a></td>\\s*<td height=\"28\"\\s.*align=\"center\">(?<3>.*)</td>\\s*[\\s|\\S]*<td width=\"236\"\\s*align=\"center\">(?<4>.*)</td>", RegexOptions.Compiled | RegexOptions.IgnoreCase);
          

            String companyUrl = rx.Match(buffer).Groups[1].Value.Trim();
            String companyName = rx.Match(buffer).Groups[2].Value.Trim();
            if (companyName.Contains("font"))
            {
                Regex rn;
                rn = new Regex("<font\\s*color=\"#FF0000\">(?<1>.*)</font>", RegexOptions.Compiled | RegexOptions.IgnoreCase);
                companyName = rn.Match(companyName).Groups[1].Value.Trim();
            }
            String companyRegion = rx.Match(buffer).Groups[3].Value.Trim();
            String companyBrand = rx.Match(buffer).Groups[4].Value.Trim();
          
            sql.AppendLine("insert into information values('"+companyName+"','"+companyUrl+"','"+companyRegion+"','"+companyBrand+"');");
        }
      
        return sql.ToString();

 
    }

 

分享到:
评论

相关推荐

    特定网站信息的抓取工具

    在IT领域,网站信息的抓取是数据挖掘和分析中的重要环节。这通常涉及到网络爬虫(Web Crawler)的开发,它能够自动化地浏览互联网并下载特定网站的数据。本工具旨在提供一种方法来高效、定向地获取特定网站的信息,...

    C#使用正则表达式抓取网站信息示例

    本文实例讲述了C#使用正则表达式抓取网站信息的方法。分享给大家供大家参考,具体如下: 这里以抓取京东商城商品详情为例。 1、创建JdRobber.cs程序类 public class JdRobber { /// /// 判断是否京东链接 /// ...

    抓取网站神器工具

    网站抓取,也被称为网页爬虫或数据抓取,是一种技术手段,用于自动化地从互联网上获取大量信息。 Teleport Pro 是一款强大的网站抓取工具,它允许用户全面下载远程服务器上的网页、图像、视频、文件等,为参考、学习...

    java抓取网站数据

    在开始抓取之前,需要对目标网站进行一定的分析,了解其结构和请求方式等信息。 ##### 2.1 目标网站分析 1. **请求URL**:抓取数据的第一步是确定目标URL。例如,在51job网站上搜索Java职位时,请求的URL为`...

    java web网站常用抓取其他网站内容

    Java Web网站抓取其他网站内容是一项常见的技术需求,主要用于数据挖掘、信息聚合或者自动化测试等场景。本篇文章将深入探讨如何使用Java在Web环境中抓取其他网站的数据。 首先,我们需要了解的是网页抓取的基本...

    基于C# 网页信息抓取

    本程序编写了一个从网页中抓取信息(如最新的头条新闻,新闻的来源,标题,内容等)的类,而且本程序文件夹中含有word文件,文件将介绍如何使用这个类来抓取网页中需要的信息。文件将以抓取博客园首页的博客标题和...

    抓取网站内容

    网站内容抓取,也称为网页抓取或网络爬虫,是一种自动提取网页数据的技术。它在互联网上广泛应用于搜索引擎优化、数据分析、市场研究、新闻监控等领域。本篇将深入探讨这个主题,帮助你理解如何抓取网站内容以及相关...

    抓取网上信息,抓取人人网院校

    总的来说,这个主题涵盖了网络爬虫的基本概念、技术应用以及实际操作的案例,对于想要学习网络爬虫技术,特别是从特定网站抓取信息的初学者来说,是一个很好的学习资源。通过阅读相关博文、理解源代码、分析抓取的...

    用于抓取网站的工具,网站开发

    它不仅适用于单个网站的下载,还能根据不同网站的类型和用户的不同需求,提供定制化的抓取模板,从而提升抓取的准确性和效率。 “Getleft”这个压缩包文件名,或许就是我们下载和安装该工具的执行程序。用户只需...

    网站抓取精灵V3.0正式版

    网站抓取精灵V3.0正式版是一款专为数据抓取和网站克隆设计的工具,旨在帮助用户高效地从互联网上抓取所需信息,包括网站的图片、CSS样式表和JavaScript文件。这款软件的最新版本V3.0在性能上有了显著提升,使得网站...

    百度地图抓取 抓取地址信息

    本项目聚焦于“百度地图抓取 抓取地址信息”,这涉及到使用特定的技术手段来从百度地图API中获取地理位置和相关地址数据。 首先,关键词“百度地图”表明我们将讨论的是百度公司提供的地图服务。百度地图是领先的...

    网站抓取小工具

    网站抓取小工具是一种...在实际使用中,用户需要了解.NET Framework的基本知识,并掌握如何配置和操作抓取工具,以便高效地从互联网获取所需信息。同时,也要注意合理合法地使用这些工具,以免引起不必要的法律纠纷。

    自动抓取二手房网站信息

    内部资料,MATLAB 版本的抓取各大网站的二手房信息,包括房源大小,是否靠近地铁站等,只用于大家交流学习。

    网页爬虫工具能够抓取网页信息的软件

    有了它,即使是初学者也能快速上手,了解如何操作和运用PClawer进行网页信息的抓取。 在大数据和信息时代的背景下,网页爬虫工具的作用愈发凸显。通过这样的工具,我们可以从无数网页中提取出有用的数据,进行深入...

    网站抓取工具免费版Teleport Ultra

    Teleport Ultra是一款强大的网站抓取工具,专为用户免费提供,用于创建网站的完整镜像。这个工具在IT行业中有着广泛的应用,特别是在网页保存、数据分析、网站备份和研究等领域。以下将详细介绍Teleport Ultra的功能...

    网站抓取工具

    网站抓取工具是一种用于自动化收集互联网上公开信息的软件,它们可以遍历网页,提取所需数据并存储为结构化的格式。这些工具在数据分析、市场研究、新闻监测、搜索引擎优化(SEO)等领域广泛应用。本篇文章将深入...

Global site tag (gtag.js) - Google Analytics