接触正则表达式的时间不长,感觉挺有意思,所以试着抓取了一下某网站数据.
Code:
private String getInformation(String t)
{
Regex r;
Match m;
r=new Regex("<tr\\s*bgcolor=\"#FFFFFF\">(?<1>(.|\n)*?)</tr>",RegexOptions.Compiled|RegexOptions.IgnoreCase);
StringBuilder sql = new StringBuilder();
for (m = r.Match(t); m.Success; m = m.NextMatch())
{
string buffer = m.Groups[1].Value.Trim();
Regex rx;
rx = new Regex("<td height=\"28\"\\s.*align=\"center\"><a href=\"(?<1>.*)\"\\s.*target=\"_blank\">(?<2>.*)</a></td>\\s*<td height=\"28\"\\s.*align=\"center\">(?<3>.*)</td>\\s*[\\s|\\S]*<td width=\"236\"\\s*align=\"center\">(?<4>.*)</td>", RegexOptions.Compiled | RegexOptions.IgnoreCase);
String companyUrl = rx.Match(buffer).Groups[1].Value.Trim();
String companyName = rx.Match(buffer).Groups[2].Value.Trim();
if (companyName.Contains("font"))
{
Regex rn;
rn = new Regex("<font\\s*color=\"#FF0000\">(?<1>.*)</font>", RegexOptions.Compiled | RegexOptions.IgnoreCase);
companyName = rn.Match(companyName).Groups[1].Value.Trim();
}
String companyRegion = rx.Match(buffer).Groups[3].Value.Trim();
String companyBrand = rx.Match(buffer).Groups[4].Value.Trim();
sql.AppendLine("insert into information values('"+companyName+"','"+companyUrl+"','"+companyRegion+"','"+companyBrand+"');");
}
return sql.ToString();
}
分享到:
相关推荐
在IT领域,网站信息的抓取是数据挖掘和分析中的重要环节。这通常涉及到网络爬虫(Web Crawler)的开发,它能够自动化地浏览互联网并下载特定网站的数据。本工具旨在提供一种方法来高效、定向地获取特定网站的信息,...
本文实例讲述了C#使用正则表达式抓取网站信息的方法。分享给大家供大家参考,具体如下: 这里以抓取京东商城商品详情为例。 1、创建JdRobber.cs程序类 public class JdRobber { /// /// 判断是否京东链接 /// ...
网站抓取,也被称为网页爬虫或数据抓取,是一种技术手段,用于自动化地从互联网上获取大量信息。 Teleport Pro 是一款强大的网站抓取工具,它允许用户全面下载远程服务器上的网页、图像、视频、文件等,为参考、学习...
在开始抓取之前,需要对目标网站进行一定的分析,了解其结构和请求方式等信息。 ##### 2.1 目标网站分析 1. **请求URL**:抓取数据的第一步是确定目标URL。例如,在51job网站上搜索Java职位时,请求的URL为`...
标题中的“用于抓取网站的工具,网站开发”揭示了我们正在讨论的是一款能够抓取并打包整个网站内容的软件工具。这款工具可能是为了帮助用户方便地保存、备份或者离线阅读网络上的信息,尤其适合那些希望收集网络资料...
Java Web网站抓取其他网站内容是一项常见的技术需求,主要用于数据挖掘、信息聚合或者自动化测试等场景。本篇文章将深入探讨如何使用Java在Web环境中抓取其他网站的数据。 首先,我们需要了解的是网页抓取的基本...
本程序编写了一个从网页中抓取信息(如最新的头条新闻,新闻的来源,标题,内容等)的类,而且本程序文件夹中含有word文件,文件将介绍如何使用这个类来抓取网页中需要的信息。文件将以抓取博客园首页的博客标题和...
网站内容抓取,也称为网页抓取或网络爬虫,是一种自动提取网页数据的技术。它在互联网上广泛应用于搜索引擎优化、数据分析、市场研究、新闻监控等领域。本篇将深入探讨这个主题,帮助你理解如何抓取网站内容以及相关...
总的来说,这个主题涵盖了网络爬虫的基本概念、技术应用以及实际操作的案例,对于想要学习网络爬虫技术,特别是从特定网站抓取信息的初学者来说,是一个很好的学习资源。通过阅读相关博文、理解源代码、分析抓取的...
网站抓取精灵V3.0正式版是一款专为数据抓取和网站克隆设计的工具,旨在帮助用户高效地从互联网上抓取所需信息,包括网站的图片、CSS样式表和JavaScript文件。这款软件的最新版本V3.0在性能上有了显著提升,使得网站...
本项目聚焦于“百度地图抓取 抓取地址信息”,这涉及到使用特定的技术手段来从百度地图API中获取地理位置和相关地址数据。 首先,关键词“百度地图”表明我们将讨论的是百度公司提供的地图服务。百度地图是领先的...
网站抓取小工具是一种...在实际使用中,用户需要了解.NET Framework的基本知识,并掌握如何配置和操作抓取工具,以便高效地从互联网获取所需信息。同时,也要注意合理合法地使用这些工具,以免引起不必要的法律纠纷。
内部资料,MATLAB 版本的抓取各大网站的二手房信息,包括房源大小,是否靠近地铁站等,只用于大家交流学习。
Teleport Ultra是一款强大的网站抓取工具,专为用户免费提供,用于创建网站的完整镜像。这个工具在IT行业中有着广泛的应用,特别是在网页保存、数据分析、网站备份和研究等领域。以下将详细介绍Teleport Ultra的功能...
网站抓取工具是一种用于自动化收集互联网上公开信息的软件,它们可以遍历网页,提取所需数据并存储为结构化的格式。这些工具在数据分析、市场研究、新闻监测、搜索引擎优化(SEO)等领域广泛应用。本篇文章将深入...