`
leonardleonard
  • 浏览: 801730 次
社区版块
存档分类
最新评论

.NET2.0抓取网页全部链接【月儿原创】

阅读更多

.NET2.0抓取网页全部链接

作者:清清月儿

主页:http://blog.csdn.net/21aspnet/           时间:2007.4.18 

该方法经过对各大门户网站测试结果是抓取率100%!

效果图

后台代码:

using System;
using System.Data;
using System.Configuration;
using System.Web;
using System.Web.Security;
using System.Web.UI;
using System.Web.UI.WebControls;
using System.Web.UI.WebControls.WebParts;
using System.Web.UI.HtmlControls;
using System.Text.RegularExpressions;
using System.Net;
using System.IO;
using System.Collections;

public partial class _Default : System.Web.UI.Page
{
    protected void Page_Load(object sender, EventArgs e)
    {
        if (!IsPostBack)
        {
           
        }
       
    }


    protected void Button1_Click(object sender, EventArgs e)
    {
        TextBox2.Text = "";
        string web_url = this.TextBox1.Text;//"http://blog.csdn.net/21aspnet/"
        string all_code = "";
        HttpWebRequest all_codeRequest = (HttpWebRequest)WebRequest.Create(web_url);
        WebResponse all_codeResponse = all_codeRequest.GetResponse();
        StreamReader the_Reader = new StreamReader(all_codeResponse.GetResponseStream());
        all_code = the_Reader.ReadToEnd();
        the_Reader.Close();
        ArrayList my_list = new ArrayList();
        string p = @"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";
        Regex re = new Regex(p, RegexOptions.IgnoreCase);
        MatchCollection mc = re.Matches(all_code);

        for (int i = 0; i <= mc.Count - 1; i++)
        {
            bool _foo = false;
            string name = mc[i].ToString();
            foreach (string list in my_list)
            {
                if (name == list)
                {
                    _foo = true;
                    break;
                }
            }//过滤

            if (!_foo)
            {
                TextBox2.Text += name + "\n";
            }
        }
    }
}

前台
<%@ Page Language="C#" AutoEventWireup="true"  CodeFile="Default.aspx.cs" Inherits="_Default" %>

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml" >
<head runat="server">
    <title>抓取网页所有链接</title>
   
</head>
<body >
    <form id="form1" runat="server">
    <div>
        <asp:TextBox ID="TextBox1" runat="server" Width="481px"></asp:TextBox>
        <asp:Button ID="Button1" runat="server" OnClick="Button1_Click" Text="提取" />
        <br />
        <asp:TextBox ID="TextBox2" runat="server" Height="304px" TextMode="MultiLine" Width="524px"></asp:TextBox></div>
    </form>
</body>
</html>

分享到:
评论

相关推荐

    asp.net 2.0伪静态 包含css和图片

    ASP.NET 2.0是一个微软推出的用于构建Web应用程序的框架,它在开发动态网站时提供了强大的功能和灵活性。在这个特定的项目中,我们关注的是"asp.net 2.0伪静态 包含css和图片",这是一个实现静态URL重写技术的示例,...

    asp.net 2.0 cms

    ASP.NET 2.0 CMS 是一个基于微软的ASP.NET 2.0技术开发的网站内容管理系统(CMS)。这个系统由开发者个人独立完成,并且已经应用于实际项目,现在被分享出来供其他人参考和学习。在ASP.NET 2.0 CMS中,用户可以通过...

    Asp.net2.0应用之RSS在线阅读器源码

    【标题】:“Asp.net2.0应用之RSS在线阅读器源码” 【解析】: ASP.NET 2.0 是微软开发的一种用于构建 Web 应用程序的技术,它基于 .NET Framework,提供了丰富的功能和高效的性能。这个源码示例是关于如何在 ASP...

    ASP.NET源码——bob5百度百科小偷程序 (asp.net2.0).zip

    【ASP.NET源码——bob5百度百科小偷程序 (asp.net2.0).zip】是一个包含ASP.NET开发的源代码项目,主要用于从百度百科抓取并展示数据的程序。这个程序利用了ASP.NET 2.0框架,一个由微软推出的用于构建Web应用程序的...

    ASP.NET-[其他类别]bob5百度知道小偷(asp.net2.0).zip

    【标题】"ASP.NET-[其他类别]bob5百度知道小偷(asp.net2.0).zip" 提供的信息表明,这个压缩包内含一个基于ASP.NET 2.0技术的项目,其主要功能是实现“百度知道”的数据抓取或模拟问答。在ASP.NET框架下,这种类型的...

    完整的源码交易系统采用asp.net2.0+access开发

    《基于ASP.NET 2.0 + Access的源码交易系统详解》 在互联网技术日新月异的今天,源码交易已经成为软件开发领域一个不可或缺的部分。一个完整的源码交易系统,能够有效地促进开发者之间的交流与合作,同时也为虚拟...

    [聊天留言]梦想家园留言板2008(ASP.NET2.0)_dreamhomeguestbook(ASP.NET源码).rar

    总的来说,【聊天留言】梦想家园留言板2008(ASP.NET2.0)_dreamhomeguestbook项目是一个全面展示ASP.NET 2.0开发技能的实例,涵盖了Web开发的多个重要方面,对于学习和实践ASP.NET技术具有很高的参考价值。

    百度百科小偷程序(asp.net2.0)_小偷采集站.rar

    【标题】:“百度百科小偷程序(asp.net2.0)_小偷采集站.rar”指的是一个基于ASP.NET 2.0技术开发的程序,用于自动抓取和收集百度百科上的信息。这种类型的程序通常被称为“小偷”或“采集”程序,其主要功能是批量...

    ASP.NET2.0验证码控件.rar

    ASP.NET 2.0验证码控件是Web开发中用于防止自动化程序(如机器人)非法操作的重要工具,例如在用户注册、登录或提交表单时。这个RAR压缩包包含了一个专门针对ASP.NET 2.0平台设计的验证码组件,能够生成四位数字的...

    ASP.NET-[其他类别]bob5百度百科小偷程序(asp.net2.0).zip

    压缩包中的文件名"ASP.NET-[其他类别]bob5百度百科小偷程序 (asp.net2.0)_bob5_baike.rar"表明,这个程序可能是一个基于ASP.NET 2.0的Web Forms应用,专用于抓取百度百科的数据。"bob5"可能是开发者的用户名或项目...

    淘客api.net2.0版

    淘客api.net2.0版,自动更新,自动抓取淘宝客信息

    bob5百度百科小偷程序 (asp.net2.0)_bob5_baike.zip

    "bob5百度百科小偷程序 (asp.net2.0)_bob5_baike.zip" 这个标题表明我们正在处理一个压缩文件,其中包含一个名为 "bob5百度百科小偷程序" 的应用程序。这个程序是用 ASP.NET 2.0 技术开发的,主要用于抓取和收集百度...

    经典c# asp.net2.0 基本 爬虫程序

    通过学习这个经典C# ASP.NET 2.0爬虫程序,开发者可以掌握网络数据抓取的基本步骤,包括请求发送、HTML解析、数据提取和存储等。同时,也可以了解到如何在实际项目中应用C#和ASP.NET技术,提升Web开发能力。

    [其他类别]bob5百度知道小偷(asp.net2.0)_bob5_zhidao(ASP.NET源码).rar

    【标题】中的“bob5百度知道小偷(asp.net2.0)”是一个基于ASP.NET 2.0技术的网络爬虫程序,它主要用于抓取和处理来自百度知道平台的数据。这个程序可能帮助开发者或者研究人员快速收集和分析百度知道上的问答信息,...

    asp.net 网页抓取技术

    ASP.NET网页抓取技术是一种利用编程手段从互联网上获取数据并进行分析的技能,它能够帮助开发者自动收集、处理和存储网页上的信息。在ASP.NET框架下,网页抓取主要涉及HTTP请求、HTML解析和数据提取等核心概念。本文...

    ASP.NET-[其他类别]UrlRewriter.NETv2.0RC1(For.Net2.0)_.zip

    在本压缩包中,包含的是UrlRewriter.NET v2.0 RC1,这是一个针对.NET 2.0版本的URL重写工具。 URL重写是Web开发中的一个重要概念,主要目的是为了优化搜索引擎优化(SEO)和提高用户体验。它允许开发者将复杂的...

    ASP.NET-[小偷采集]toolxp.cn玩玩小游戏.net2.0版Build090904.zip

    这个压缩包文件"ASP.NET-[小偷采集]toolxp.cn玩玩小游戏.net2.0版Build090904.zip"包含了一个基于ASP.NET技术的项目,名为"玩玩小游戏",版本为Build090904,可能是一个在线小游戏平台,创建于2009年9月。...

    BK信息采集系统(源码版.net2.0改进版)

    " BK信息采集系统(源码版.net2.0改进版) "是一个专为数据采集设计的应用程序,基于.NET Framework 2.0开发。这个系统经过了优化和改进,相较于之前的1.1版本,更适合使用Visual Studio 2005进行编辑和运行。此系统...

    [其他类别]bob5百度百科小偷程序 (asp.net2.0)_bob5_baike(ASP.NET源码).rar

    【标题】:“bob5百度百科小偷程序 (asp.net2.0)”是一个基于ASP.NET 2.0技术的网络爬虫程序,它主要用于抓取和处理百度百科上的数据。这个程序可能由开发者“bob5”创建,其目标是提供一个快速获取百科信息的工具。...

Global site tag (gtag.js) - Google Analytics