抓取需要登录的页面的内容,原理主要是:先模拟登录,获取到COOKIE,然后接下来的访问,都使用这个COOKIE,就可以访问到需要登录的页面。
理论上,浏览器可以做到的事情,程序应该也可以。
不过,模拟登录,说起来容易,但不同站点有不同的处理方式,复杂程度不同。
1、最简单的,是POST适当的数据,不用验证码
2、象Discuz!系列的,要先访问某一个页面,获得随机码,然后置于POST数据中,才可以登录
3、需要验证码。验证码识别是另外一个课题。
无论如何,POST数据必须的。那么,模拟登录,需要POST哪些数据呢?
其实,需要POST哪些数据,每个站点都有所不同,所以要有一个合适的工具来进行分析。我装的是firefox的扩展控件:HttpFox。利用它,可以很方便的获取登录指定站点时,所需要提交的数据串。
模拟登录的代码是这样的:
获得这个CookieContainer后,保存下来,以后每访问该网站,都带上它。CookieContainer相当于浏览器的COOKIE容器,里面存放访问各个网站的COOKIE。
带COOKIE访问代码如下:
其中参数
CookieContainer cc 就是保存的CookieContainer。
分享到:
相关推荐
在本文中,我们将深入探讨如何使用C#语言来抓取网页数据,特别是在彩票数据查询方面的应用。C#是一种广泛用于开发Windows应用程序、Web服务以及游戏的面向对象的编程语言,其丰富的类库和强大的功能使其成为数据抓取...
总结一下,通过C#实现京东价格抓取和JSON解析,你需要: 1. 使用HttpClient发送HTTP请求获取网页内容。 2. 使用HtmlAgilityPack解析HTML,定位到价格元素。 3. 将HTML中提取的价格信息存储或展示。 4. 如果京东提供...
C# 浏览器爬虫页面控制后台抓取技术是一种基于C#语言开发的自动化网页数据抓取工具,它利用Winform创建了一个模拟真实浏览器的环境,使用CefSharp库构建了浏览器框架,从而实现对网页内容的自动化控制和数据抓取。...
标题中的"C#抓取网页股票年报数据程序源代码"指的是一个使用C#编程语言开发的软件应用程序,其主要功能是从互联网上的网页中抓取股票年报的相关数据。在信息技术领域,这种程序通常被称为网络爬虫或者网页抓取工具,...
在这个"抓取页面 C# Demo"中,我们将探讨如何使用C#语言来实现一个基础的网页抓取程序。C#,由微软公司开发,是.NET框架的主要编程语言,提供了丰富的库和功能,适合构建各种类型的软件,包括网络爬虫。 首先,我们...
另外,如果需要抓取的数据是以JSON或XML格式返回,C#提供了丰富的序列化和反序列化工具。例如,使用System.Text.Json或Newtonsoft.Json库,可以轻松地将数据转换为C#对象: ```csharp using System.Text.Json; ...
在本文中,我们将深入探讨如何使用C#编程语言和HTMLParser库来抓取并解析百度MP3页面中的音频地址。这个过程涉及到网络请求、HTML解析以及数据提取等关键概念。 首先,我们需要理解C#的基本语法和.NET框架。C#是一...
在本文中,我们将深入探讨如何优化C# WinForm应用程序,以高效地从中国银行网站抓取实时的汇率信息。这个过程涉及到网页数据抓取、网络请求处理、HTML解析以及WinForm界面的更新等多个方面。 首先,我们需要理解...
这可能需要对雅虎财经网站的页面结构有所了解。通常,股票历史信息会被展示在HTML表格中。使用C#编写的程序需要能够定位到这些表格,并从中提取股票的历史数据,比如日期、开盘价、收盘价、最高价和最低价等。 使用...
总结来说,C#模拟登录的实现需要对HTTP通信、Winform编程和页面跳转机制有深入理解。通过结合HttpClient、Winform控件和适当的逻辑处理,我们可以创建一个能够自动登录的应用程序,简化重复的人工操作。在实际开发...
用c#提供方法给js, js便可实现采集数据的功能 先 show 下 js代码: function get_contents(){ try{ var url=$("#url").val(); // '{"a":"11","b":"22"}' 这个是传递过去的参数,回来的时候的 标识 window....
本项目涉及的关键技术包括AngleSharp、Selenium PhantomJS以及C#编程语言,主要目的是从京东搜索页面抓取商品的价格和名称。下面将详细阐述这些知识点。 首先,**AngleSharp** 是一个强大的.NET库,它提供了对HTML5...
这份文件内容讲述了如何使用C#编写一个小程序来抓取网页上的信息。该过程涉及到多个关键知识点,包括HTTP协议的基本操作、网页内容的解析以及字符串处理等。下面我将详细解释这些知识点。 1. **使用HttpWebRequest...
在进行网络爬虫开发时,有时我们需要处理那些依赖JavaScript动态渲染的网页,这时C#结合Selenium与PhantomJS就成为一个有效的解决方案。本文将详细介绍如何在C#环境中利用Selenium WebDriver和PhantomJS来抓取此类...
C#使用WebClient登录网站并抓取登录后的网页信息实现方法是一个非常有用的技术,可以帮助我们模拟浏览器的行为来登录网站和抓取页面内容。但是,我们需要注意相关的法律和道德规范,避免引起不良后果。 更多关于C#...
8. **Cookie管理**:有些网站需要登录才能访问特定数据,这时需要处理Cookie。C#.NET提供了CookieContainer类来管理Cookie,确保请求带有正确的身份信息。 9. **爬虫框架**:除了基础工具,还有一些成熟的C#.NET...
标题中的“c#做的按特别关键字抓取google信息的软件”揭示了这是一个使用C#编程语言开发的应用程序,其主要功能是针对特定关键词从Google搜索引擎中抓取信息。这个程序可能是一个网络爬虫,用于自动化地搜索网页并...
首先,我们需要理解C# WebBrowser控件的基本用法。在C#项目中,可以通过以下步骤添加WebBrowser控件: 1. 打开Visual Studio,创建一个新的Windows Forms应用程序。 2. 在设计视图中,从工具箱中拖拽一个WebBrowser...
本篇将深入探讨如何使用C#.NET进行Web信息抓取和读取Web页面信息。 首先,我们需要了解Web信息抓取的基本原理。信息抓取通常涉及到发送HTTP请求到目标网页,接收服务器返回的HTML响应,然后解析这些HTML内容来提取...
本篇文章将详细解析如何使用C#进行页面抓取。 首先,我们要了解C#实现网页抓取的基本步骤。这通常包括以下部分: 1. **发起HTTP请求**:C#中的`HttpClient`类是发起HTTP请求的首选工具。通过创建`HttpClient`实例...