`
kiikoo
  • 浏览: 7937 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论
阅读更多

转载:
关键字: httpclient 认证

山 崺颋 (shanyit@cn.ibm.com), 软件工程师, IBM 中国软件开发中心
孙 元涛 (sunyuant@cn.ibm.com), 软件工程师, IBM 中国软件开发中心

2008 年 6 月 13 日

商业性 Web 站点大都提供站点认证功能以保护某些受限资源,HTTP 协议和 J2EE 规范对 Web 站点的认证过程都已有了详尽的定义,常见浏览器都能根据相应协议提供对应的界面形式帮助用户完成站点的认证过程。但在某些情况下,我们需要编写程序直接获取站点的受保护资源,在这类情况下,就不能利用浏览器给定的界面去完成认证,而需要我们根据不同的协议人工地发送相应请求以完成整个认证过程。本文根据这种需求给出一个基于 Apache HttpClient 应用包的解决方案。
<!--START RESERVED FOR FUTURE USE INCLUDE FILES--><!-- include java script once we verify teams wants to use this and it will work on dbcs and cyrillic characters --><!--END RESERVED FOR FUTURE USE INCLUDE FILES-->

J2EE 站点认证简介

出于安全性的需要和用户授权管理的考虑,常见的 J2EE 站点对特定资源都会加入认证/授权机制。例如一个公网上的论坛,一个只对特定用户开放的 RSS 或 Atom Feed,这些资源都必须在确信访问者为被授权用户时才能向访问者开放。为了实现这样的功能,J2EE 站点通常会采用某种站点认证机制,其中常见的有 HTTP Basic 认证和 J2EE Form-Based 认证。

HTTP Basic 认证

HTTP Basic 认证是 HTTP 认证协议(rfc2617)所定义的标准认证方式。要求 HTTP Basic 认证的服务器会在客户端访问受保护资源时向客户端发出请求,要求客户端上传用户名和密码对。服务器在收到用户名/密码并验证通过后,才将保护资源的内容返回给客户端。它的工作机制如下图:


图 1. HTTP Basic 认证原理
图 1. HTTP Basic 认证原理 

由于是 HTTP 规范,因而常见的浏览器,如 Internet Explorer,Mozilla Firefox,在 步骤 2 中收到服务器对用户名和密码的请求时会弹出认证对话框,供用户输入用户名/密码。


图 2. Firefox 在收到步骤 2 中请求时弹出的用户名/密码输入框
图 2. Firefox 在收到步骤 2 中请求时弹出的用户名/密码输入框 

HTTP Basic 认证方式使用 base64 编码方式传送用户名和密码,而 base64 仅仅是一种公开的编码格式而非加密措施,因而如果信道本身不使用 SSL 等安全协议,用户密码较容易被截获。

J2EE Form-Based 认证

Form-Based 认证不同于 HTTP Basic 认证,它是 J2EE 对于认证方式的一种扩展。它使用自定义的 HTML 表单(通常为 login.jsp)作为输入用户名和密码的用户界面,最终将用户在表单上填入的用户名/密码提交至服务器。它的工作机制如下:


图 3. Form-Based 认证原理
图 3. Form-Based 认证原理 

Form-Based 认证方式在 J2EE 站点中更为常见。这一方面是由于它提供了自定义的用户名密码输入界面;另一方面它的传输也更为安全,通常情况下 login.jsp 会被配置为需要使用 SSL 信道访问,这样在步骤 2、3 中对用户名和密码的传送就被安全信道所保护,而较难被非法截取。





Apache HttpClient 认证功能简介

Apache HttpClient 是 Apache 开源组织提供的纯 Java 实现的 HTTP 开源包。它能模拟各类 HTTP 客户端所需功能,例如 HTTP/HTTPS 连接,GET/PUT 请求,甚至提供了超时重试的功能。

HttpClient 也提供了对标准 HTTP 认证的接口,在最新的 HttpClient 3.1 中,支持的认证方式有:

  • Basic 认证:即前面提到的 rfc2716 规范中定义的 HTTP Basic 认证方式。
  • Digest 认证:一种基于摘要的更为安全的认证协议,虽然它的应用没有 Basic 认证方式广泛。
  • NTLM 认证:微软制定的认证协议规范,然而此项标准的细节却并不公开。

我们可以注意到 Form-Based 认证并不在其中,这是因为 Form-Based 认证方式并非 HTTP 协议标准,而是 J2EE 提供的一种特殊的认证方式,因而开发者需要在 HttpClient 基础上另行开发适合 Form-Based 认证的方案。





使用 Apache HttpClient 通过 HTTP Basic 认证

由于 HttpClient 内置支持 HTTP Basic 认证方式,因而使用 HttpClient 通过 HTTP Basic 认证的步骤显得较为简单。

  1. 为 HttpClient 的状态对象添加用户名/密码对。可以注意到在 setCredentials 方法中的另一个参数为 AuthScope 对象。事实上我们添加的每个用户名/密码对都与一个 AuthScope 对象相关联。AuthScope 对象确定了此用户名/密码对的适用站点,在示例中所给出的用户名/密码对将只适用于 www.sample.com 位于 80 端口上的资源。HttpClient 在与其他站点交互时将不会使用此用户名/密码对,这样有效地防止了机密数据被传送至不必要的站点。
  2. 开启 HttpClient 提供的占先式(Preemptive)认证功能。开启了这个功能后,HttpClient 对于那些处在之前请求过的URI空间范围内的资源,会主动地随请求一起向服务器发送 Basic 认证数据,而不是等待服务器返回是否需要认证的响应后再提交认证。在多数情况下,能够减少请求-响应传递的次数,从而间接提高了服务器的响应能力。值得注意的是在这种情况下必须在 AuthScope 对象中明确指定适用站点,以避免向不相关的站点泄漏敏感数据。
  3. 创建 GetMethod 对象,此对象将使用 GET 方式对保护资源发出 HTTP 请求。
  4. setDoAuthentication(true) 语句将告知 HttpClient 在服务器端发回需要认证的请求后,自动将我们在步骤 1 中设置的用户名/密码对发送至服务器,以完成认证过程。
  5. 执行 GET 请求,获取和处理受保护资源的内容。

清单 1. Basic 认证示例
HttpClient client = new HttpClient();
	
// 1
client.getState().setCredentials(
    new AuthScope("www.sample.com", 80, AuthScope.ANY_REALM),
    new UsernamePasswordCredentials("username", "password")
);
         
// 2
client.getParams().setAuthenticationPreemptive(true);

// 3
GetMethod get = new GetMethod("http://www.sample.com/protected.html");

// 4
get.setDoAuthentication( true );

try {
    // 5
    int status = client.executeMethod( get );

    // process the content from the response
    …

} finally {
    get.releaseConnection();
}

由于 Basic 认证方式直接向服务器发送未经加密的用户名/密码对,导致这些敏感数据很容易在网络传输过程中被截取,因此安全性很低。所幸 HttpClient 对基于安全套接字层(SSL)的 HTTP 协议(HTTPS)提供了足够的支持,而且使用起来也很简单。不过之前需确保本地机器已经安装好 JSSE(Sun 提供的 JDK 1.4 及之后的版本已集成 JSSE)。

使用 HttpClient 进行标准的 SSL 连接对用户来说是透明的。参照清单 1,用户只需用符合 HTTPS 协议的 URL 作为参数生成 GetMethod 对象即可。除此之外,HttpClient 还允许用户定制 SSL 使得客户端程序能够自动接受不同类型的证书。

利用 HttpClient 实现一个自定义的 SSL 协议包括以下 3 个关键步骤:

  1. 定制一个实现了 org.apache.commons.httpclient.protocol.SecureProtocolSocketFactory 接口的工厂类。这个工厂类的作用是开启一个与服务器通讯的 Socket 并进行必需的初始化动作。关于实现该接口的具体细节,HttpClient 项目的主页上有详细的代码实例和注释说明。
  2. 利用之前创建的工厂类对象、HTTPS 协议名称和默认端口号实例化一个新的 org.apache.commons.httpclient.protocol.Protocol 对象。
  3. 注册这个自定义的 Protocol 对象使其与某个协议名绑定,当 HttpClient 处理此类协议时,将默认调用这个自定义 Protocol 对象。

清单 2. 在 HttpClient 中自定义 SSL 示例
// 1
SecureProtocolSocketFactory sampleSSLSocketFactory = new SampleSSLSocketFactory();
	
// 2
Protocol httpsProtocol = new Protocol("https", sampleSSLSocketFactory, 443);

// 3
Protocol.registerProtocol("https", httpsProtocol);

HttpClient client = new HttpClient();

client.getState().setCredentials(
    new AuthScope("www.sample.com", 80, AuthScope.ANY_REALM),
    new UsernamePasswordCredentials("username", "password")
);
         
// Request the protected resource via SSL
GetMethod get = new GetMethod("https://www.sample.com/protected.html");

get.setDoAuthentication( true );

try {
    int status = client.executeMethod( get );

    // process the content from the response
    …
} finally {
    get.releaseConnection();
}





使用 Apache HttpClient 通过 Form-Based 认证

Form-Based 认证相对 HTTP Basic 认证而言过程较为复杂,需要开发者记录下相关的 cookie 信息和部分 header 字段并多次向站点发出请求。它的大致原理如下:

注意:不同的应用可能有不同的配置方式,开发者可以先在浏览器中手动访问受保护资源,获取 login.jsp。进行分析后即可获知对应的认证服务资源 j_security_check 的位置以及对应的用户名与密码在表单中的字段。

假定我们需要访问的受保护资源为 http://www.sample.com/sampleApp/sample.rss。首先我们需要向此保护资源发出请求。而由 Form-Based 认证原理一节中可知,J2EE 服务器会将此请求重定向至 login.jsp。如果仔细分析 login.jsp 我们能发现它仅仅是一个 HTML 表单,其中有两个字段 j_username 和 j_password 分别记录用户名和密码,而提交的目标则是 j_security_check。通常情况下,J2EE 构架会在每个站点应用的根节点定义一个 j_security_check 的资源。而我们的站点的应用程序根(Application Root)为 sampleApp。因而,通过将用户名,密码以及相关 cookie 和 header 字段以 POST 方式发送至 http://www.sample.com/sampleApp/j_security_check 即可通过站点认证。在通过站点认证后,服务器端将给出一个新的重定向,通常它将指向了用户最初试图访问的受保护资源(本例中也就是 http://www.sample.com/sampleApp/sample.rss)。我们只需要再次创建访问对象向此资源发出请求即可获得其内容。

以下给出一个示例:


清单 3. Form-Based 认证示例
HttpClient client = new HttpClient();
client.getState().setCookiePolicy(CookiePolicy.COMPATIBILITY);

// 1
GetMethod authget = new GetMethod("httpwww.sample.comsampleAppsample.rss");
try {
    client.executeMethod(authget);
}
catch (HttpException httpe) {
    httpe.printStackTrace();
}
catch (IOException ioe) {
    ioe.printStackTrace();
}

// 2
NameValuePair[] data = new NameValuePair[2];
data[0] = new NameValuePair("j_username", username);
data[1] = new NameValuePair("j_password", password);

PostMethod authpost = new PostMethod("http://www.sample.com/sampleApp/j_security_check");
authpost.setRequestBody(data);

// 3
Header hCookie = authget.getRequestHeader("Cookie");
Header hHost = authget.getRequestHeader("Host");
Header hUserAgent = authget.getRequestHeader("User-Agent");
if (hCookie == null || hHost == null || hUserAgent == null) {
    return null;
}

authpost.setRequestHeader(hCookie);
authpost.setRequestHeader(hHost);
authpost.setRequestHeader(hUserAgent);

authget.releaseConnection();

try {
    client.executeMethod(authpost);

    // 4
    Header header = authpost.getResponseHeader("location");
    if (header != null) {
        String newuri = header.getValue(); 
        GetMethod redirect = new GetMethod(newuri);

        client.executeMethod(redirect); 
        // process the content from the response
        redirect.releaseConnection();            
    }
} catch (HttpException httpe) {
    httpe.printStackTrace();
    return null;
} catch (IOException ioe) {
    ioe.printStackTrace();
    return null;
}
authpost.releaseConnection();

其中各个步骤解释如下:

  1. 使用 GET 方式请求 sample.rss。服务器收到连接后将在响应中给出连接信息,HttpClient 在接收到响应后会将其保存至 cookie 中。
  2. 准备第二次对 j_security_check 的连接,将用户名和密码填入新的 POST 请求的正文。
  3. 将 cookie 和部分 header 字段拷贝至新请求的报头中,并发送请求。
  4. 从认证成功的响应中获取重定向,并对重定向指向的资源发出请求,获取并处理内容。




小结

随着 Web 2.0 时代的到来,Web 站点的数据和内容显得愈加重要。而为了收集这些数据,人们需要利用计算机本身的搜集能力,通过后台请求,而不是浏览器交互的方式去获取站点的数据。而商业站点中普遍存在的认证/授权机制显然成为了开发此类数据收集程序的一道屏障。Apache HttpClient 根据这些需求,提供了多种 HTTP 认证机制的实现方案。开发人员也可以利用 HttpClient 强大的底层功能,设计特定方案以通过 J2EE 站点的认证体系。

分享到:
评论

相关推荐

    httpclient4.5 绕过ssl认证文件访问

    本篇文章将详细讲解如何在HTTPClient 4.5版本中绕过SSL(Secure Sockets Layer)认证,实现对HTTPS网站的访问。 首先,了解SSL/TLS(Transport Layer Security)协议的重要性。SSL/TLS是网络安全传输的标准,它通过...

    httpclient.jar包下载

    3. **身份验证和安全**:HttpClient支持多种身份验证机制,包括基本认证、摘要认证、NTLM等,并且可以与SSL/TLS协议结合,确保数据传输的安全性。 4. **重试和恢复策略**:HttpClient内置了重试和恢复策略,当网络...

    httpClient实例httpClient调用 http/https实例 忽略SSL验证

    这个实例主要涉及如何配置HttpClient来忽略SSL(Secure Socket Layer)验证,这对于在开发和测试环境中处理自签名证书或未认证的服务器非常有用。以下将详细介绍HttpClient的使用以及如何进行SSL验证的忽略。 首先...

    httpclient访问需要客户端认证数字证书的https接口的处理方法

    总结来说,处理需要客户端认证的HTTPS接口需要理解SSL/TLS协议、HttpClient的内部工作原理以及如何自定义安全配置。通过`InstallCert.java`和`HTTPSSecureProtocolSocketFactory.java`这两个文件,我们可以实现这个...

    httpClient需要的jar包

    6. **认证和安全**:HttpClient支持多种认证机制,包括基本认证、摘要认证、NTLM等。同时,它也可以处理HTTPS连接,配置SSL上下文以实现安全通信。 7. **异步编程**:HttpClient 4.5及以上版本引入了...

    httpclient-4.5.3中文版文档,很实用

    4. **认证和授权**:HttpClient支持多种认证机制,包括基本认证、摘要认证、NTLM和Kerberos,以及自定义认证策略。对于授权,它可以处理质询-响应认证流程。 5. **重试策略**:通过`HttpRequestRetryHandler`接口,...

    HttpClient 3.x to HttpComponents HttpClient 4.x

    在HttpClient 3.x中,可以设置代理认证、状态管理和连接管理等操作,这些操作在4.x版本中有新的实现方式。程序员需要掌握如何使用`Credentials`和`AuthScope`来处理认证,以及如何配置代理服务器。 此外,迁移指南...

    java,HttpClient模拟上传,绕过SSL认证

    接下来,我们需要创建一个HttpClient实例,同时配置它跳过SSL认证。这可以通过自定义`SSLContext`和`TrustStrategy`实现: ```java import javax.net.ssl.SSLContext; import javax.net.ssl.TrustManager; import ...

    commons-httpclient-3.0.jar JAVA中使用HttpClient可以用到

    2. **认证和安全**:HttpClient支持多种认证机制,包括基本认证、摘要认证等。同时,它也支持HTTPS,提供了SSL/TLS的安全传输。 3. **重定向处理**:HttpClient可以自动处理HTTP状态码3xx的重定向,也可以手动控制...

    httpclient-4.5.3 api 中文版

    6. **认证**:HttpClient 支持多种认证机制,包括基本认证、摘要认证、NTLM等。通过`CredentialsProvider`和`Authenticator`接口,可以方便地配置和处理认证过程。 7. **HTTP/1.1与HTTP/2**:HttpClient 4.5.x开始...

    Httpclient依赖包

    3. **身份验证**:HttpClient支持多种身份验证机制,包括基本认证、摘要认证、NTLM、Kerberos等,能够处理跨域和多层代理的认证问题。 4. **Cookie管理**:HttpClient内置了Cookie管理器,可以处理服务器返回的...

    httpclient4.5 jar包

    《HttpClient 4.5:构建高效网络请求的利器》 HttpClient是Apache软件基金会下的一个开源项目,主要用于提供高效的、最新的、功能丰富的HTTP协议客户端编程工具包。HttpClient 4.5作为其重要的版本,针对Java开发者...

    httpclient4.1.2.zip

    在身份验证方面,HttpClient 4.1.2支持多种认证机制,如Basic认证、Digest认证、NTLM认证等。开发者只需提供相应的认证信息,HttpClient就能自动处理认证过程。 HttpClient 4.1.2也提供了对HTTPS的支持,包括证书...

    httpclient4.3工具类

    7. **认证和安全**:HttpClient支持基本认证、NTLM、Kerberos等多种认证机制,并且可以处理HTTPS连接,确保数据传输的安全。 8. **多部分表单提交(Multipart Form Data)**:对于POST请求,特别是上传文件时,...

    httpclient

    在标题"HTTPClient"和描述"HTTPclient实现HTTPS双向认证"中,涉及到的关键知识点是HTTPClient库在处理HTTPS安全连接时的双向认证机制。这里我们将深入探讨这个主题。 首先,了解HTTPS协议的基本概念是必要的。HTTPS...

    commons-httpclient.rar

    6. **身份验证**:HttpClient支持多种身份验证机制,如基本认证、NTLM认证、digest认证等,可用于与需要身份验证的服务器通信。 7. **SSL/TLS支持**:HttpClient能够处理HTTPS连接,支持SSL和TLS安全协议,确保数据...

    Apache httpclient源码4.5.12

    HttpClient还提供了多种认证机制。例如,`CredentialsProvider`用于存储身份验证信息,`Authenticator`负责处理服务器的认证挑战。此外,`BasicCredentialsProvider`和` preemptive-auth`策略可以实现预认证,提高...

    HttpClient包及例子

    它还支持多种认证机制,包括基本认证、摘要认证以及NTLM等。 压缩包中的`httpclient-4.0-alpha2.jar`文件包含了HttpClient库的所有类和方法,而`examples`文件可能包含了一些使用HttpClient的示例代码,帮助开发者...

    HttpClient4.5 实现https忽略SSL证书验证

    使用HttpClient4.5实现https请求忽略SSL证书验证工具类

Global site tag (gtag.js) - Google Analytics