`
wangrusheng5200
  • 浏览: 302505 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

httpclient 抓取网页(.net)

    博客分类:
  • java
阅读更多

问题描述:本文设计java网页抓取,其中涉及到.net网站抓取,涉及到__VIEWSTATE等参数。

参考文章:

httpclient入门:http://www.ibm.com/developerworks/cn/opensource/os-httpclient/

httpclient怎样自动登陆__VIEWSTATE验证的系统:http://wangrusheng5200.iteye.com/admin/blogs/new

核心代码:

 

String url = "http://www.2552.net/Book/LC/1.aspx";
		// 构造HttpClient的实例
		HttpClient httpClient = new HttpClient();
		PostMethod postMethod = new PostMethod(url);
		postMethod
				.addParameter(
						"__VIEWSTATE",
						"省略");
		postMethod.addParameter("__EVENTTARGET", "_ctl0:pager");
		postMethod.addParameter("__EVENTARGUMENT", "2");
		httpClient.executeMethod(postMethod);
		String body = postMethod.getResponseBodyAsString();
		System.out.println(body);

 

分享到:
评论
3 楼 wangrusheng5200 2010-05-26  
在需要下载的页面会找到 name="__VIEWSTATE"的控件
省略的就是它的value
2 楼 fable0618 2010-05-21  
postMethod  
                .addParameter(  
                        "__VIEWSTATE",  
                        "省略"); 

看标题进的..居然省略... 赐教!
1 楼 fable0618 2010-05-21  
postMethod  
                .addParameter(  
                        "__VIEWSTATE",  
                        "省略");  

相关推荐

    HttpClient抓取网页Demo

    在本文中,我们将深入探讨HttpClient的基本用法,以及如何使用它来抓取网页内容。 首先,你需要在项目中引入HttpClient的依赖。如果你使用的是Maven,可以在pom.xml文件中添加以下依赖: ```xml <groupId>org....

    VB.NET网页源码爬取.zip

    在"VB.NET网页源码爬取.zip"这个压缩包中,包含的是一套使用VB.NET实现的网页源码爬取示例。这套示例旨在帮助开发者解决在爬取网页源码时可能遇到的问题,并提供了四级爬取的结构,每级都会展示提取结果,以直观地...

    评论抓取 asp.net编写 内含详细示例 数据抓取 .net C#

    在这里,我们将深入探讨如何使用C#,.NET的主编程语言,来构建一个评论抓取系统。 首先,了解HTML解析是至关重要的。评论通常存在于网页的HTML源代码中,因此我们需要一个库来解析这些代码并提取我们需要的信息。...

    asp.net 抓取网页 网页爬虫

    总结起来,构建一个ASP.NET网页爬虫涉及了HTTP请求、HTML解析、定时任务、异常处理等多个方面。通过合理地运用.NET提供的工具和库,我们可以创建高效且功能强大的爬虫程序,满足数据抓取的需求。然而,务必注意遵循...

    asp.net 网页抓取技术

    ASP.NET网页抓取技术是一种利用编程手段从互联网上获取数据并进行分析的技能,它能够帮助开发者自动收集、处理和存储网页上的信息。在ASP.NET框架下,网页抓取主要涉及HTTP请求、HTML解析和数据提取等核心概念。本文...

    抓取工具asp.net

    在"网页抓取信息ASP.NET"这个主题中,我们将探讨如何利用ASP.NET技术来实现网络数据的抓取。网页抓取,也称为网络爬虫或数据挖掘,是通过自动化程序从互联网上获取大量信息的过程。在ASP.NET中,我们通常会使用...

    蜘蛛抓取网页数据

    .NET框架提供了一个强大的环境来构建这样的应用程序,而C#作为.NET平台的主要开发语言,拥有丰富的库和工具支持网页抓取。 首先,要进行网页抓取,我们需要了解HTTP协议。HTTP(超文本传输协议)是互联网上应用最...

    将网页抓取成图片格式的VB.NET程序.rar

    在VB.NET编程环境中,开发一个将网页抓取并保存为图片的程序是一项常见的需求,尤其在网站截图、页面存档或者生成预览图时。这个名为"将网页抓取成图片格式的VB.NET程序.rar"的压缩包提供了一个实现这一功能的源代码...

    asp.net 远程抓取数据生成静态页面Demo

    本教程将重点关注如何利用Asp.NET进行数据抓取并生成静态页面,这在提升网站性能、减轻服务器负担以及搜索引擎优化(SEO)等方面具有显著优势。 首先,我们来理解“数据抓取”这一概念。数据抓取是指从互联网上的...

    ASP.NET Core 抓取数据

    本项目是关于使用ASP.NET Core进行网页数据抓取的实践示例,通过HtmlAgilityPack库实现。 HtmlAgilityPack(HAP)是一个流行的.NET库,专门用于处理HTML文档。它允许开发者以DOM(文档对象模型)的方式解析、修改和...

    Java抓取网页内容三种方式

    本文将介绍使用 Java 语言抓取网页内容的三种方式:使用 URL 连接、使用 HttpURLConnection 和使用 Apache HttpClient。 第一种方式:使用 URL 连接 使用 URL 连接是最简单的抓取网页内容的方式。它使用 java.net....

    C#正则抓取网页数据

    本项目“C#正则抓取网页数据”是一个示例,它演示了如何利用C#语言和正则表达式来从网页中提取有用的信息。通过这个demo,初学者和有经验的开发者都能增进对C#编程以及正则表达式应用的理解。 正则表达式(Regular ...

    Asp.net数据抓取

    Asp.NET 数据抓取是一种利用ASP.NET框架进行网络数据提取的技术。在Web开发中,数据抓取(也称为网络爬虫或网页抓取)是一种自动化的过程,用于从互联网上收集和处理大量信息。通过Asp.NET,开发者可以构建强大的...

    httpclient-4.5.6.rar

    2. **爬虫程序**:抓取网页内容,进行数据分析。 3. **自动化测试**:模拟用户行为,进行接口测试或系统集成测试。 4. **数据同步**:在分布式系统中,实现节点间的数据同步。 总结,HttpClient 4.5.6 是一个强大且...

    .NET 网页抓取例子(天气)

    在.NET框架中,网页抓取是一项常见的任务,用于从互联网上获取数据,例如获取实时的天气信息。这个例子将向我们展示如何利用.NET技术来抓取并解析网页上的天气数据。我们将探讨以下知识点: 1. **HTTP请求**:首先...

    c#,asp.net网站数据抓取程序

    【描述】中的关键点在于"抓取各大网站信息",这暗示了我们需要使用HTTP请求库,如HttpClient或WebClient,去模拟用户访问网页的行为。"HTML源码"是指程序通过HTTP请求获取到的网页原始内容,这部分内容需要进一步...

    详解Java两种方式简单实现:爬取网页并且保存

    这两种方法都可以实现网页的爬取和保存,`URLConnection`适用于简单的爬取需求,而`HttpClient`则提供了更多功能和更好的灵活性,适合处理复杂的情况。选择哪种方法取决于具体项目的需求和性能考虑。在实际开发中,...

    .net 将网页存储为mhT格式的源代码

    在这个特定的场景中,我们关注的是一个基于.NET的源代码示例,它能够实现一个网页爬虫功能,并将抓取到的网页保存为MHT(MHTML,即单个文件网页)格式。 网页爬虫,又称为网络抓取或数据抓取,是一种自动化程序,它...

    c# 网页抓取分析 表格图形生成

    本主题聚焦于利用C#进行网页抓取、数据分析以及表格和图形生成,这些都是现代数据驱动应用的重要组成部分。 首先,我们要理解网页抓取的概念。网页抓取,也称为网络爬虫或数据抓取,是指通过自动化程序从互联网上...

    新闻自动抓取类【asp.net】

    在ASP.NET中,可以使用`HttpClient`类来发起HTTP请求,获取网页内容。以下是一个简单的示例: ```csharp using System.Net.Http; public async Task<string> GetRemoteContent(string url) { using var client = ...

Global site tag (gtag.js) - Google Analytics