`
zhanghan
  • 浏览: 192604 次
  • 性别: Icon_minigender_1
  • 来自: 郑州
社区版块
存档分类
最新评论

Apache HttpClient 连接池的使用

    博客分类:
  • Java
 
阅读更多

 

为什么要使用HttpClient池?

都知道如果单纯使用HttpClient去抓取一个网站的内容时,会消耗在请求连接上大部分时间。(P:其实大家都明白数据库连接池的重要性,这个吗,也一样,在服务端需要大批量抓取或大并发抓取其他网站数据时,尤其重要)。

不废话了,说一下怎么用吧。

 

需要下的包:





下面一个代码测试代码,仅供参考。
从测试结果来看,平均每次请求响应都在200毫秒以内。

import java.io.IOException;
import java.util.Random;

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.HttpStatus;
import org.apache.http.HttpVersion;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.conn.scheme.PlainSocketFactory;
import org.apache.http.conn.scheme.Scheme;
import org.apache.http.conn.scheme.SchemeRegistry;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.impl.conn.tsccm.ThreadSafeClientConnManager;
import org.apache.http.params.BasicHttpParams;
import org.apache.http.params.CoreConnectionPNames;
import org.apache.http.params.CoreProtocolPNames;
import org.apache.http.params.HttpParams;

public class HttpClientUtils {
	private static final Log log = LogFactory.getLog(HttpClientUtils.class);
	private static ThreadSafeClientConnManager cm = null;
	static {
		SchemeRegistry schemeRegistry = new SchemeRegistry();
		schemeRegistry.register(new Scheme("http", 80, PlainSocketFactory
				.getSocketFactory()));

		cm = new ThreadSafeClientConnManager(schemeRegistry);
		try {
			int maxTotal = 100;
			cm.setMaxTotal(maxTotal);
		} catch (NumberFormatException e) {
			log.error(
					"Key[httpclient.max_total] Not Found in systemConfig.properties",
					e);
		}
		// 每条通道的并发连接数设置(连接池)
		try {
			int defaultMaxConnection = 50;
			cm.setDefaultMaxPerRoute(defaultMaxConnection);
		} catch (NumberFormatException e) {
			log.error(
					"Key[httpclient.default_max_connection] Not Found in systemConfig.properties",
					e);
		}
	}

	public static HttpClient getHttpClient() {
		HttpParams params = new BasicHttpParams();
		params.setParameter(CoreProtocolPNames.PROTOCOL_VERSION,
				HttpVersion.HTTP_1_1);
		params.setParameter(CoreConnectionPNames.CONNECTION_TIMEOUT, 3000); // 3000ms
		return new DefaultHttpClient(cm, params);
	}

	public static void release() {
		if (cm != null) {
			cm.shutdown();
		}
	}

	public static void main(String[] args) throws ClientProtocolException,
			IOException {
		Random r = new Random();
		for (int i = 0; i < 10; i++) {
			long l1 = System.currentTimeMillis();
			HttpClient client = getHttpClient();

			HttpGet get = new HttpGet("http://www.baidu.com/s?wd="
					+ r.nextInt(5000));
			HttpResponse response = client.execute(get);
			if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
				HttpEntity entity = response.getEntity();
				long l = entity.getContentLength();
				System.out.println("回应结果长度:" + l);
			}
			System.out.println("查询耗时" + (System.currentTimeMillis() - l1));
		}
	}

}
 

 

  • 大小: 6.4 KB
分享到:
评论

相关推荐

    apache httpclient jar包

    在HttpClient中,你可以自定义请求头、处理重定向、管理cookies、使用身份验证以及实现连接池等功能。 以下是一些关于HttpClient 4.2.5的关键知识点: 1. **基本概念**: - **HttpClient实例**:创建HttpClient...

    apache HttpClient jar包

    2. **管理连接池**:HttpClient支持连接池管理,通过`PoolingHttpClientConnectionManager`,可以有效地复用HTTP连接,减少建立新连接的开销,提高性能。 3. **处理重定向和重试**:HttpClient能够自动处理服务器...

    Apache httpclient源码4.5.12

    HttpClient的`PoolingHttpClientConnectionManager`实现了连接池,可以有效地复用TCP连接,提高性能。`CloseableHttpClient`接口提供了关闭连接的方法,以释放系统资源。 HttpClient还提供了多种认证机制。例如,`...

    HttpCient连接池Demo

    HttpClient连接池是网络编程中一个重要的优化手段,它允许我们重用已经建立的HTTP连接,减少每次请求时的建立和关闭连接的开销,从而提高应用程序的性能和效率。Apache HttpClient库提供了这样的功能,让我们能够...

    apache httpclient源代码,eclipse查看源码

    - 通过查看源码,可以了解内部的工作原理,比如连接池管理、线程安全、错误处理等。 - 可以学习如何优化网络请求,提高性能和稳定性。 - 对于自定义行为或扩展功能,理解源码可以帮助进行定制化开发。 总之,...

    apache httpclient 源码和 jar包

    3. **性能优化**:HttpClient允许我们自定义连接池大小、超时时间等参数,以优化性能。了解jar包中的配置选项,可以帮助我们根据实际需求调整HttpClient的性能。 总结来说,Apache HttpClient的源码和jar包为我们...

    Apache HttpClient Demo

    HttpClient还支持HTTP连接管理,如连接池,可以通过`PoolingHttpClientConnectionManager`实现。连接池可以复用已建立的TCP连接,减少网络延迟,提高性能。同时,HttpClient提供了超时设置,如连接超时、请求超时和...

    apache-httpclient应用所有jar

    3. **连接池管理**: 高并发环境下,使用连接池可以提高效率并避免过多的TCP连接创建。 4. **认证和安全性**: 对于需要身份验证的网站,HttpClient支持多种认证机制,如Basic Auth、Digest Auth等。 5. **处理...

    网络爬虫 apache HttpClient

    HttpClient 还支持连接池管理,可以预先建立一定数量的连接,从而减少每次请求时建立新连接的时间开销。此外,它还提供了一种称为"Cookie Store"的机制,用于存储和管理服务器返回的Cookies,这对于处理需要登录或...

    org.apache.commons.httpclient相关资源包

    7. **性能优化**:使用连接池,避免频繁创建和关闭连接,提高性能。 8. **日志系统集成**:如何通过Commons-Logging配置和使用不同的日志实现。 掌握这些知识点后,开发者可以高效地使用Apache HttpClient来构建与...

    org.apache.commons.httpclient

    5. **连接管理**:使用`HttpConnectionManager`管理连接池,控制并发连接数,重用连接。 6. **认证与安全**:实现基本认证、摘要认证,配置SSL/TLS连接,处理证书问题。 7. **性能优化**:使用连接池提高性能,控制...

    连接池实现原理及效率测试

    在Java中,常见的连接池实现有Apache的DBCP、C3P0,以及HikariCP等。 连接池的工作流程大致如下: 1. 应用启动时,连接池会预先配置并创建一定数量的数据库连接,放入池中。 2. 当客户端需要与数据库交互时,它向...

    apache_httpclient 高清 pdf

    其中提到了安全套接字层(SSL/TLS)的配置、主机名验证、协议模式、连接池管理以及连接管理的参数设置。 5. HTTP状态管理 状态管理章节主要讲解了HTTP Cookies的版本和规范,以及如何在HTTP中进行状态管理和执行上...

    org.apache.commons.httpclient 远程下载文件

    这个库为开发者提供了高级HTTP客户端功能,比如支持多种HTTP方法(GET、POST等)、处理Cookies、管理连接池以及进行身份验证。在本篇讨论中,我们将深入理解如何使用HttpClient来实现远程文件下载。 首先,我们需要...

    java.net.URLConnection发送HTTP请求与通过Apache HttpClient发送HTTP请求比较

    它还提供了更高级的特性,如Cookie管理、连接池、超时控制等。对于复杂的HTTP交互或性能要求高的应用,HttpClient通常是更好的选择。 然而,HttpClient需要额外引入依赖,且其API相对复杂,对初学者可能不太友好。...

    apache,httpget,httpclient用到的包

    这个库不仅实现了HTTP/1.1协议,还包含了多种高级特性,如多线程、连接池、支持SSL/TLS安全连接等,使得开发者能够轻松地进行网络通信。 2. **HttpGet**:HttpGet是Apache HttpClient库中的一个类,它代表了...

    org.apache.commons.httpclient相关架包

    3. **连接管理**:HttpClient提供了连接池功能,可以有效地管理HTTP连接,避免频繁创建和关闭连接,提高性能和效率。 4. **身份验证和安全性**:HttpClient支持多种身份验证机制,包括基本认证、摘要认证、NTLM等,...

    httpClient官方文档

    Apache HttpClient 是一个提供 HTTP 协议客户端功能的开源库,它是 Apache Jakarta Commons 下的一个项目。HttpClient 的功能包括但不限于 HTTP 请求的执行、响应的处理、连接管理、异常处理、协议拦截器以及重定向...

Global site tag (gtag.js) - Google Analytics