在实现之前,需要注意一个问题。关于Cookie,如果能很好跟踪上到Cookie,基本上,实现都是小事一碟。
在网络上,有提到过验证码老是提示有错。貌似思路流程都是正确的。兄弟,如果你在半个小时还没搞清楚,先休息一下,听听歌,打打游戏。再想过。
推断为什么会出现这种问题。问题是你登录验证码页面(jsp,aspx),实际上就是一个会话或者Cookie记录。此时,你有去连接登录页面,有可能已经重新生成一个新的验证码啦。你用了之前的验证码,指定会提示验证码错误。
在这里,我只能说一下我遇到的这种问题的解决办法。如果还有其他情况,可以私下M我,我们继续过。
一、抓取一个农业网站思路步骤如下:
1、首先需要获取验证码页面,把它以图片的格式保证下来。(图片格式需要通过抓包的工具查看。如:httpWatch)并跟踪到的cookie保存下来。cookie必须要跟抓包工具看到的cookie一致。
2、提交登录页面所需要的字段和验证码,字段尽可能全部提交上去。
二、代码实现。
import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import org.apache.commons.httpclient.Cookie;
import org.apache.commons.httpclient.Header;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpException;
import org.apache.commons.httpclient.NameValuePair;
import org.apache.commons.httpclient.cookie.CookiePolicy;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.methods.PostMethod;
import org.apache.commons.httpclient.params.DefaultHttpParams;
public class __10086 {
public void test() throws HttpException, IOException{
String url = "http://12582.10086.cn/user/login/verifycode.aspx";
HttpClient httpClient = new HttpClient();
DefaultHttpParams.getDefaultParams().setParameter("http.protocol.cookie-policy", CookiePolicy.BROWSER_COMPATIBILITY);
GetMethod getMethod = new GetMethod("http://12582.10086.cn/user/login/verifycode.aspx");
getMethod.setRequestHeader("Host", "12582.10086.cn");
getMethod.setRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.2; rv:5.0.1) Gecko/20100101 Firefox/5.0.1");
getMethod.setRequestHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
getMethod.setRequestHeader("Accept-Language", "zh-cn,zh;q=0.5");
getMethod.setRequestHeader("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7");
getMethod.setRequestHeader("Connection", "keep-alive");
// getMethod.setRequestHeader("Cookie", "Hm_lvt_6e06bb5a029d6c5473951d1079638828=1328777184942; Hm_lvt_e64244e1e591d0337e17a12b714c0996=1328777186856; WT_FPC=id=183.16.35.230-1530895312.30204303:lv=1328174810886:ss=1328174810886; ASP.NET_SessionId=gj25p555exiqjd45kdcqoq55; BIGipServernxt-wz=369797312.20480.0000; Hm_lpvt_6e06bb5a029d6c5473951d1079638828=1328777184942; Hm_lpvt_e64244e1e591d0337e17a12b714c0996=1328777186856; .12582portals=4CF97704261E34DBE12913CBA18211005E960282A771D94FF3709BAFC99610A7397BE8293ADB2E876A0A7380AC4A158016419745F27511D6E79F82A408D009519D6DDFE18A578E5CFC5F48025C75B33B6EBD43953A7DB05AEBAAB856E0AA29112818B4910350AADACD2012F5DE56297B1F6622ED7F4959D31E19C474E48F7773D7966437");
getMethod.setRequestHeader("Cache-Control", "max-age=0");
int code = httpClient.executeMethod(getMethod);
Header header = getMethod.getResponseHeader("Set-cookie");
System.out.println(header.getValue());
String headerCookie = header.getValue();
String SessionId = headerCookie.substring(headerCookie.indexOf("NET_SessionId=") + "NET_SessionId=".length(), headerCookie.indexOf(";"));
System.out.println(SessionId);
String BIGipServernxt = headerCookie.substring(headerCookie.indexOf("BIGipServernxt-wz=") + "BIGipServernxt-wz=".length(), headerCookie.length());
BIGipServernxt = BIGipServernxt.substring(0, BIGipServernxt.indexOf(";"));
StringBuffer sb = new StringBuffer();
sb.append("Hm_lvt_6e06bb5a029d6c5473951d1079638828=1328778307106; ");
sb.append("Hm_lvt_e64244e1e591d0337e17a12b714c0996=1328778308090; ");
sb.append("WT_FPC=id=183.16.35.230-1530895312.30204303:lv=1328174810886:ss=1328174810886; ");
sb.append("ASP.NET_SessionId=").append(SessionId).append("; ");
sb.append("BIGipServernxt-wz=").append(BIGipServernxt).append("; ");
sb.append("Hm_lpvt_6e06bb5a029d6c5473951d1079638828=1328778307106; ");
sb.append("Hm_lpvt_e64244e1e591d0337e17a12b714c0996=1328778308090");
System.out.println(sb.toString());
String ValidCode = savegif(getMethod);
getMethod.releaseConnection();
// 第二次链接
httpClient.getHostConfiguration().setHost("12582.10086.cn", 80, "http");
PostMethod method = getPostMethod(ValidCode);
method.setRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.2; rv:5.0.1) Gecko/20100101 Firefox/5.0.1");
method.setRequestHeader("Host", "12582.10086.cn");
method.setRequestHeader("Accept", "application/json, text/javascript, */*");
method.setRequestHeader("Accept-Language", "zh-cn,zh;q=0.5");
// method.setRequestHeader("Accept-Encoding", "gzip, deflate");
method.setRequestHeader("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7");
method.setRequestHeader("Connection", "keep-alive");
method.setRequestHeader("Content-Type", "application/x-www-form-urlencoded; charset=UTF-8");
method.setRequestHeader("X-Requested-With", "XMLHttpRequest");
method.setRequestHeader("Referer", "http://12582.10086.cn/user/login/");
method.setRequestHeader("Cookie", sb.toString());
httpClient.executeMethod(method);
System.out.println(method.getStatusCode());
System.out.println(method.getResponseBodyAsString());
// 第三次链接
Header header1 = method.getResponseHeader("Set-cookie");
System.out.println("dd=" + header1.getValue());
sb.append("; " + header1.getValue());
Cookie[] cookies = httpClient.getState().getCookies();
method.releaseConnection();
String my = "http://12582.10086.cn/my";
System.out.println(sb.toString());
getMethod = new GetMethod(my);
getMethod.setRequestHeader("Host", "12582.10086.cn");
getMethod.setRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.2; rv:5.0.1) Gecko/20100101 Firefox/5.0.1");
getMethod.setRequestHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
getMethod.setRequestHeader("Accept-Language", "zh-cn,zh;q=0.5");
getMethod.setRequestHeader("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7");
getMethod.setRequestHeader("Connection", "keep-alive");
getMethod.setRequestHeader("Referer", "http://12582.10086.cn/user/login");
getMethod.setRequestHeader("Cookie", sb.toString());
code = httpClient.executeMethod(getMethod);
System.out.println(getMethod.getStatusCode());
System.out.println(getMethod.getResponseBodyAsString());
File storeFile = new File("c:/2008sohu.html");
FileOutputStream output = new FileOutputStream(storeFile);
//得到网络资源的字节数组,并写入文件
output.write(getMethod.getResponseBody());
output.close();
}
public String savegif(GetMethod getMethod) throws IOException {
File storeFile = new File("c:/2008sohu.gif");
FileOutputStream output = new FileOutputStream(storeFile);
//得到网络资源的字节数组,并写入文件
output.write(getMethod.getResponseBody());
output.close();
InputStreamReader is = new InputStreamReader(System.in);
BufferedReader br = new BufferedReader(is);
String ValidCode = "";
try {
ValidCode = br.readLine();
br.close();
is.close();
} catch(Exception e) {
e.printStackTrace();
}
return ValidCode;
}
private PostMethod getPostMethod(String ValidCode) {
PostMethod post = new PostMethod("/ajax/postlogin");
NameValuePair[] simcard = {
new NameValuePair("email", "XXX"),
new NameValuePair("password", "XXX"),
new NameValuePair("ValidCode", ValidCode),
new NameValuePair("rme", "0"),
};
post.setRequestBody(simcard);
return post;
}
public static void main(String args[]) {
__10086 _10086 = new __10086();
try {
_10086.test();
} catch (HttpException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
来源于:
http://www.agrilink.cn/
分享到:
相关推荐
使用 HttpClient 绕过登录验证码可以实现免登录访问,但是需要注意 Cookie 的路径、域名和过期时间等信息,并选择合适的 Cookie 策略。同时,我们也需要注意.blackhat 的攻击,以保护用户的登录信息。
在本实例中,我们将探讨如何使用HttpClient库来模拟登录网站,获取用户信息,以及处理带有验证码的登录场景。 首先,我们需要理解HttpClient的基本使用。HttpClient的核心类包括HttpClient本身,HttpGet、HttpPost...
4. **验证码处理**:项目中提到的“带验证码模拟登录”意味着程序需要识别并输入验证码。验证码识别可能涉及到OCR(光学字符识别)技术,如Tesseract OCR库,它能将图像中的文字转换为可编辑文本。另外,如果验证码...
在本场景中,我们将探讨如何使用Java编程语言来实现手机验证码的发送,以及涉及的相关知识点。 首先,我们需要理解手机验证码的基本原理。验证码通常是一串随机生成的数字或字母组合,通过短信的方式发送到用户的...
本示例将详细介绍如何使用HttpClient实现网易相册的登录。 首先,我们需要了解HttpClient的基本使用。HttpClient主要包括以下几个核心组件: 1. `CloseableHttpClient`:这是HttpClient的主要接口,负责创建和管理...
在本例中,我们将探讨如何使用HttpClient登录163邮箱。 1. **HttpClient基本概念** HttpClient库提供了对HTTP协议的全面支持,包括各种HTTP方法(GET、POST、PUT等)、重定向处理、身份验证、cookie管理等。它的...
这篇最新的文章“HttpClient4模拟登录腾讯微博”探讨了如何利用HttpClient4实现对腾讯微博的模拟登录,这在自动化测试、数据抓取等场景中非常实用。 HttpClient4库提供了丰富的API,可以定制化地构造HTTP请求,包括...
在实际应用中,模拟登录可能涉及到更复杂的情况,如验证码处理、保持登录状态(通过Cookie或Session)、处理重定向等。HttpClient提供了丰富的接口和策略类,使得这些操作变得相对简单。 通过阅读和理解HttpClient...
本文将详细讲解如何使用C#编程语言实现登录一个带有验证码的网站。验证码是为了防止恶意自动登录而设置的一种安全机制,它通常需要用户手动输入图片上显示的字符或数字。 首先,了解验证码的类型至关重要。常见的...
6. **发送登录请求**:使用`HttpClient`发送POST请求到登录接口,带上所有必要的参数。 7. **处理响应**:接收服务器返回的响应,检查是否登录成功。如果登录失败,可能是用户名、密码或验证码错误,根据错误信息...
在这个场景中,我们将深入探讨如何使用HttpClient 4来实现登录到一个名为"blog.com"的网站。 首先,我们需要了解HttpClient的基本概念。HttpClient 4 提供了一套完整的API,用于构建HTTP请求,处理响应,并管理持久...
在模拟登录淘宝的场景中,主要利用了HTTPClient发送POST请求,携带用户名和密码信息到淘宝的登录接口,实现模拟登录。 二、模拟登录原理 模拟登录的核心在于正确构造HTTP请求,并处理登录过程中可能涉及的验证码、...
本项目"**C#模拟登录(含验证码)**"正是针对这一需求而设计的,它不仅实现了基本的登录逻辑,还考虑到了验证码的处理,这对于很多需要验证用户身份的网站或应用来说至关重要。 首先,我们需要了解模拟登录的基本流程...
【JSP + Servlet 实现发送短信验证码:构建安全的手机登录系统】 在现代Web开发中,短信验证码已经成为一种常见的安全措施,用于验证用户的身份,防止恶意登录和其他欺诈行为。本项目利用Java Web技术栈,包括JSP...
使用JSP创建注册和登录页面,添加表单供用户输入手机号或邮箱、图形验证码(防止机器人自动提交)以及接收验证码的输入框。表单提交后,通过AJAX异步请求发送验证码,避免页面刷新。 5. **验证过程**: 用户输入...
在Java中使用HttpClient模拟POST请求或者GET请求,使用的是信易通的短信平台接口,一般的情况下都是POST请求(post请求安全,可靠,信息不会在地址栏显示出来),然后(看短信平台要求,),调用短信平台提供的接口...
在这个场景中,我们将探讨如何使用HttpClient实现模拟登录操作。 首先,了解HttpClient的基本使用。HttpClient库提供了HttpClient实例,用于发送HTTP请求。创建HttpClient实例可以通过`HttpClientBuilder`类: ```...
《HttpClient:网络爬虫的核心工具》 HttpClient,作为Java领域中的一个强大库,是网络爬虫开发中的核心组件。...在实际项目中,应结合具体需求,灵活运用HttpClient的各种特性,以实现最佳效果。
验证码通常表现为一张包含随机字符的图片,用户需要正确输入这些字符才能完成登录或其他验证过程。本项目“C#获取登录验证码”旨在探讨如何在C#环境下处理验证码图片,以便进行识别或自动化测试。 首先,我们要明白...
标题中的“httpclient3 自动登陆淘宝, 开心网”指的是使用Apache HttpClient 3.x库来实现自动化登录淘宝和开心网的功能。HttpClient是一个强大的HTTP客户端API,它允许开发者模拟浏览器行为,发送HTTP请求并接收...