抓取网站信息 - maybe723 - ITeye博客

`

maybe723

浏览: 46294 次
来自: ...

最近访客更多访客>>

wmswu

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

nashwill：测试了下，好像用不了，什么原因？
利用spring拦截struts(1.x)中的action
hdf336： java加密后。net解密都不一样别来误导人
java和.net中的des加密和解密
cwmwss：你好，java和.NET加密的结果为什么不一样呢？能不能做到 ...
java和.net中的des加密和解密

抓取网站信息

博客分类：

.net

正则表达式 SQL

阅读更多

接触正则表达式的时间不长,感觉挺有意思,所以试着抓取了一下某网站数据.

Code:

private String getInformation(String t)
    {

        Regex r;
        Match m;
        r=new Regex("<tr\\s*bgcolor=\"#FFFFFF\">(?<1>(.|\n)*?)</tr>",RegexOptions.Compiled|RegexOptions.IgnoreCase);

        StringBuilder sql = new StringBuilder();
        for (m = r.Match(t); m.Success; m = m.NextMatch())
        {
            string buffer = m.Groups[1].Value.Trim();
            Regex rx;
            rx = new Regex("<td height=\"28\"\\s.*align=\"center\"><a href=\"(?<1>.*)\"\\s.*target=\"_blank\">(?<2>.*)</a></td>\\s*<td height=\"28\"\\s.*align=\"center\">(?<3>.*)</td>\\s*[\\s|\\S]*<td width=\"236\"\\s*align=\"center\">(?<4>.*)</td>", RegexOptions.Compiled | RegexOptions.IgnoreCase);
          

            String companyUrl = rx.Match(buffer).Groups[1].Value.Trim();
            String companyName = rx.Match(buffer).Groups[2].Value.Trim();
            if (companyName.Contains("font"))
            {
                Regex rn;
                rn = new Regex("<font\\s*color=\"#FF0000\">(?<1>.*)</font>", RegexOptions.Compiled | RegexOptions.IgnoreCase);
                companyName = rn.Match(companyName).Groups[1].Value.Trim();
            }
            String companyRegion = rx.Match(buffer).Groups[3].Value.Trim();
            String companyBrand = rx.Match(buffer).Groups[4].Value.Trim();
          
            sql.AppendLine("insert into information values('"+companyName+"','"+companyUrl+"','"+companyRegion+"','"+companyBrand+"');");
        }
      
        return sql.ToString();

 
    }

分享到：

解决.net中使用prototype产生乱码 | 类的加载过程

2008-07-19 11:31
浏览 972
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

特定网站信息的抓取工具: 在IT领域，网站信息的抓取是数据挖掘和分析中的重要环节。这通常涉及到网络爬虫（Web Crawler）的开发，它能够自动化地浏览互联网并下载特定网站的数据。本工具旨在提供一种方法来高效、定向地获取特定网站的信息，...

C#使用正则表达式抓取网站信息示例: 本文实例讲述了C#使用正则表达式抓取网站信息的方法。分享给大家供大家参考，具体如下：这里以抓取京东商城商品详情为例。 1、创建JdRobber.cs程序类 public class JdRobber { /// /// 判断是否京东链接 /// ...

抓取网站神器工具: 网站抓取，也被称为网页爬虫或数据抓取，是一种技术手段，用于自动化地从互联网上获取大量信息。 Teleport Pro 是一款强大的网站抓取工具，它允许用户全面下载远程服务器上的网页、图像、视频、文件等，为参考、学习...

java抓取网站数据: 在开始抓取之前，需要对目标网站进行一定的分析，了解其结构和请求方式等信息。 ##### 2.1 目标网站分析 1. **请求URL**：抓取数据的第一步是确定目标URL。例如，在51job网站上搜索Java职位时，请求的URL为`...

java web网站常用抓取其他网站内容: Java Web网站抓取其他网站内容是一项常见的技术需求，主要用于数据挖掘、信息聚合或者自动化测试等场景。本篇文章将深入探讨如何使用Java在Web环境中抓取其他网站的数据。首先，我们需要了解的是网页抓取的基本...

基于C# 网页信息抓取: 本程序编写了一个从网页中抓取信息（如最新的头条新闻，新闻的来源，标题，内容等）的类，而且本程序文件夹中含有word文件，文件将介绍如何使用这个类来抓取网页中需要的信息。文件将以抓取博客园首页的博客标题和...

抓取网站内容: 网站内容抓取，也称为网页抓取或网络爬虫，是一种自动提取网页数据的技术。它在互联网上广泛应用于搜索引擎优化、数据分析、市场研究、新闻监控等领域。本篇将深入探讨这个主题，帮助你理解如何抓取网站内容以及相关...

抓取网上信息，抓取人人网院校: 总的来说，这个主题涵盖了网络爬虫的基本概念、技术应用以及实际操作的案例，对于想要学习网络爬虫技术，特别是从特定网站抓取信息的初学者来说，是一个很好的学习资源。通过阅读相关博文、理解源代码、分析抓取的...

用于抓取网站的工具,网站开发: 它不仅适用于单个网站的下载，还能根据不同网站的类型和用户的不同需求，提供定制化的抓取模板，从而提升抓取的准确性和效率。 “Getleft”这个压缩包文件名，或许就是我们下载和安装该工具的执行程序。用户只需...

网站抓取精灵V3.0正式版: 网站抓取精灵V3.0正式版是一款专为数据抓取和网站克隆设计的工具，旨在帮助用户高效地从互联网上抓取所需信息，包括网站的图片、CSS样式表和JavaScript文件。这款软件的最新版本V3.0在性能上有了显著提升，使得网站...

基于JavaScript的顶易网站信息抓取助手Chrome插件设计源码: 该项目是一款基于JavaScript的顶易网站信息抓取助手Chrome插件设计源码，总计包含63个文件，涵盖32个SVG图像、13个JavaScript脚本、7个PNG图片、4个CSS样式表、2个JSON数据文件、1个HTML页面、以及少量字体资源。...

百度地图抓取抓取地址信息: 本项目聚焦于“百度地图抓取抓取地址信息”，这涉及到使用特定的技术手段来从百度地图API中获取地理位置和相关地址数据。首先，关键词“百度地图”表明我们将讨论的是百度公司提供的地图服务。百度地图是领先的...

网站抓取小工具: 网站抓取小工具是一种...在实际使用中，用户需要了解.NET Framework的基本知识，并掌握如何配置和操作抓取工具，以便高效地从互联网获取所需信息。同时，也要注意合理合法地使用这些工具，以免引起不必要的法律纠纷。

自动抓取二手房网站信息: 内部资料，MATLAB 版本的抓取各大网站的二手房信息，包括房源大小，是否靠近地铁站等，只用于大家交流学习。

网页爬虫工具能够抓取网页信息的软件: 有了它，即使是初学者也能快速上手，了解如何操作和运用PClawer进行网页信息的抓取。在大数据和信息时代的背景下，网页爬虫工具的作用愈发凸显。通过这样的工具，我们可以从无数网页中提取出有用的数据，进行深入...

网站抓取工具免费版Teleport Ultra: Teleport Ultra是一款强大的网站抓取工具，专为用户免费提供，用于创建网站的完整镜像。这个工具在IT行业中有着广泛的应用，特别是在网页保存、数据分析、网站备份和研究等领域。以下将详细介绍Teleport Ultra的功能...

Global site tag (gtag.js) - Google Analytics