- 浏览: 1600083 次
- 性别:
- 来自: 杭州
文章分类
最新评论
-
jsrgzhangzhiyong:
关于null值的转换还是感觉不太友好,就像 mapstruct ...
我也造了个轮子:BeanMapping(属性拷贝) -
he037:
a417930422 写道引用使用EPHEMERAL会引出一个 ...
基于zookeeper的分布式lock实现 -
seancheer:
qianshangding 写道首先节点启动后,尝试读取本地的 ...
zookeeper学习记录三(session,watcher,persit机制) -
雪夜归人:
您好,我想咨询一下,开源的canal都能支持mysql的哪些版 ...
Canal BinlogChange(mysql5.6) -
zhoudengyun:
copy 一份做记录,后续学习,请知悉
阿里巴巴开源项目: 基于mysql数据库binlog的增量订阅&消费
背景
最近一直在做项目,其中的一个功能点,主要是访问外部网站并获取页面的字符串,具体的网站url完全是由用户输入,所以存在一定的安全隐患。
从测试来看,如果给定的一部电影的url地址,链接会一直不能被关闭,直到数据流被读完,如果来个几十次这样的请求,应用估计也差不多崩溃了
说明: 项目中使用的HttpClient版本是3.0.1
测试
一般的HttpClient使用例子:
MultiThreadedHttpConnectionManager manager = new MultiThreadedHttpConnectionManager(); HttpClient client = new HttpClient(manager); client.setConnectionTimeout(30000); client.setTimeout(30000); GetMethod get = new GetMethod("http://download.jboss.org/jbossas/7.0/jboss-7.0.0.Alpha1/jboss-7.0.0.Alpha1.zip"); try { client.executeMethod(get); //发起请求 String result = get.getResponseBodyAsString(); //获取数据 } catch (Exception e) { } finally { get.releaseConnection(); //释放链接 }
这里我给出的一个url是近20MB的一个下载资源,很快发现线程要等个很久。 咋办,得加个timeout超时机制。
"main" prio=10 tid=0x0899e800 nid=0x4010 runnable [0xb7618000..0xb761a1c8] java.lang.Thread.State: RUNNABLE at java.net.SocketInputStream.socketRead0(Native Method) at java.net.SocketInputStream.read(SocketInputStream.java:129) at java.io.BufferedInputStream.fill(BufferedInputStream.java:218) at java.io.BufferedInputStream.read1(BufferedInputStream.java:258) at java.io.BufferedInputStream.read(BufferedInputStream.java:317) - locked <0xb23a4c30> (a java.io.BufferedInputStream) at org.apache.commons.httpclient.ContentLengthInputStream.read(ContentLengthInputStream.java:156) at org.apache.commons.httpclient.ContentLengthInputStream.read(ContentLengthInputStream.java:170) at org.apache.commons.httpclient.ChunkedInputStream.exhaustInputStream(ChunkedInputStream.java:338) at org.apache.commons.httpclient.ContentLengthInputStream.close(ContentLengthInputStream.java:104) at java.io.FilterInputStream.close(FilterInputStream.java:155) at org.apache.commons.httpclient.AutoCloseInputStream.notifyWatcher(AutoCloseInputStream.java:179) at org.apache.commons.httpclient.AutoCloseInputStream.close(AutoCloseInputStream.java:143) at org.apache.commons.httpclient.HttpMethodBase.releaseConnection(HttpMethodBase.java:1341)
分析
目前httpClient3.1只支持3种timeout的设置:
- connectionTimeout : socket建立链接的超时时间,Httpclient包中通过一个异步线程去创建socket链接,对应的超时控制。
- timeoutInMilliseconds : socket read数据的超时时间, socket.setSoTimeout(timeout);
- httpConnectionTimeout : 如果那个的是MultiThreadedHttpConnectionManager,对应的是从连接池获取链接的超时时间。
分析一下问题,我们需要的是一个HttpClient整个链接读取的一个超时时间,包括请求发起,Http Head解析,response流读取的一系列时间的总和。
目标很明确,对应的修正后的测试代码:
final MultiThreadedHttpConnectionManager manager = new MultiThreadedHttpConnectionManager(); final HttpClient client = new HttpClient(manager); client.setConnectionTimeout(30000); client.setTimeout(30000); final GetMethod get = new GetMethod( "http://download.jboss.org/jbossas/7.0/jboss-7.0.0.Alpha1/jboss-7.0.0.Alpha1.zip"); Thread t = new Thread(new Runnable() { @Override public void run() { try { client.executeMethod(get); String result = get.getResponseBodyAsString(); } catch (Exception e) { // ignore } } }, "Timeout guard"); t.setDaemon(true); t.start(); try { t.join(5000l); //等待5s后结束 } catch (InterruptedException e) { System.out.println("out finally start"); ((MultiThreadedHttpConnectionManager) client.getHttpConnectionManager()).shutdown(); System.out.println("out finally end"); } if (t.isAlive()) { System.out.println("out finally start"); ((MultiThreadedHttpConnectionManager) client.getHttpConnectionManager()).shutdown(); System.out.println("out finally end"); t.interrupt(); // throw new TimeoutException(); } System.out.println("done");
这里通过Thread.join方法,设置了超时时间为5000 ms,这是比较早的用法。 如果熟悉cocurrent包的,可以直接使用Future和ThreadPoolExecutor进行异步处理,缓存对应的Thread。
ExecutorService service = Executors.newCachedThreadPool(); Future future = service.submit(new Callable<String>() { @Override public String call() throws Exception { try { client.executeMethod(get); return get.getResponseBodyAsString(); } catch (Exception e) { e.printStackTrace(); } finally { System.out.println("future finally start"); ((MultiThreadedHttpConnectionManager) client.getHttpConnectionManager()).shutdown(); System.out.println("future finally end"); } return ""; } }); try { future.get(5000, TimeUnit.MILLISECONDS); } catch (Exception e) { System.out.println("out finally"); e.printStackTrace(); ((MultiThreadedHttpConnectionManager) client.getHttpConnectionManager()).shutdown(); System.out.println("out finally end"); } service.shutdown();
说明: 这里为什么释放链接未采用get.releaseConnection()
看下release的实现:
public void releaseConnection() { if (responseStream != null) { try { // FYI - this may indirectly invoke responseBodyConsumed. responseStream.close(); // 会先关闭流 } catch (IOException e) { // the connection may not have been released, let's make sure ensureConnectionRelease(); } } else { // Make sure the connection has been released. If the response // stream has not been set, this is the only way to release the // connection. ensureConnectionRelease(); } }
- 这里会先关闭responseStream流,这就是问题点。
- 对应的responseStream是在方法:readResponseBody(HttpConnection conn)。一般的html页面返回的是一个ContentLengthInputStream对象
-
ContentLengthInputStream在调用close方法时会用ChunkedInputStream.exhaustInputStream读完所有流数据
public void close() throws IOException { if (!closed) { try { ChunkedInputStream.exhaustInputStream(this); } finally { // close after above so that we don't throw an exception trying // to read after closed! closed = true; } } }
-
ChunkedInputStream.exhaustInputStream代码
static void exhaustInputStream(InputStream inStream) throws IOException { // read and discard the remainder of the message byte buffer[] = new byte[1024]; while (inStream.read(buffer) >= 0) { ; } }
说明:
- 因为非sleep和park的方法,不会响应InterruptedException事件,所以普通future超时发起的Thread.interrpt()并没有效果。
- 默认的SimpleHttpConnectionManager不支持这样的操作,所以选择MultiThreadedHttpConnectionManager.shutdown()方法,强制关闭底层HttpConnection的sock的输入输出流。
总结
- 理解一下HttpClient这样设计的理由: socket重用,keepAlive协议的支持等,保证上一次数据不会对新的请求有影响。
- Thread.interrpt()处理,只会在Thread处于sleep或者wait状态才会被唤醒(api的描述)。而且该方法的调用并不自动产生InterruptedException异常,一般是需要自己判断Thread.isInterrupted(),然后throw异常。 我们目前使用的一些jdk cocurrent类比如future.cancel也是类似处理。
评论
7 楼
student007
2012-07-16
你好,我现在遇到问题和你说的 一样,能否请教你几个问题? 我 qq: 490836924,等候你的佳音。 谢谢
6 楼
agapple
2011-08-01
pindai 写道
hi,我想问下,你把整个manager都shut down了。那你下次调用会发生什么或者说怎么处理吧?
因为我这里的需求是请求不固定的外部网站,所以没必要使用connection pool,所以会在timeout下关闭整个manager。 每次调用时都是new一个manager进行链接请求,代价并不高。
如果你对connection pool有需求,可以使用新版本看下,或者使用反射强制关闭下http链接即可
5 楼
pindai
2011-07-31
hi,我想问下,你把整个manager都shut down了。那你下次调用会发生什么或者说怎么处理吧?
4 楼
agapple
2011-04-09
stone2083 写道
今天发现,在3.1版本中。SimpleHttpConnectionManager也有shutdown方法了。不需要使用MultiThreadedHttpConnectionManager.
3.0.1中,还没有此方法。呜呼。
3.0.1中,还没有此方法。呜呼。
不是吧,我们不就是用3.1版本? 现在HttpClient出到4.1.1版本,貌似在新版本里api使用变化比较大。
3 楼
stone2083
2011-04-09
今天发现,在3.1版本中。SimpleHttpConnectionManager也有shutdown方法了。不需要使用MultiThreadedHttpConnectionManager.
3.0.1中,还没有此方法。呜呼。
3.0.1中,还没有此方法。呜呼。
2 楼
agapple
2011-02-23
zywang 写道
也许你可以先发个HEAD请求,获取一下请求头信息,判断返回内容的类型,如果时流类型的,那就没必要再发送GET请求获取资源了
如果你遇到个合格一点的码工,很容易伪造Head信息,包括隐藏具体的content-length,然后读取/dev/null信息给你,很容易就搞死应用
1 楼
zywang
2011-02-23
也许你可以先发个HEAD请求,获取一下请求头信息,判断返回内容的类型,如果时流类型的,那就没必要再发送GET请求获取资源了
发表评论
-
yugong QuickStart
2016-03-05 01:52 0几点说明 a. 数据迁移的方案可参见设计文档,oracl ... -
阿里巴巴开源项目: 阿里巴巴去Oracle数据迁移同步工具
2016-03-05 18:29 6580背景 08年左右,阿里巴巴开始尝试MySQL的相关 ... -
愚公performance
2016-03-02 17:29 0性能测试 全量测试 场景1 (单主键, ... -
yugong AdminGuide
2016-03-02 16:40 0环境要求 操作系统 数据库 迁移方案 部署 ... -
Tddl_hint
2014-01-27 13:52 0背景 工作原理 Hint格式 direct模 ... -
tddl5分库规则
2014-01-26 14:41 0背景 工作原理 构建语法树 元数据 基于 ... -
tddl5优化器
2014-01-22 15:12 0背景 工作原理 构建语法树 元数据 抽象语 ... -
Canal BinlogChange(mariadb5/10)
2014-01-20 17:25 4661背景 先前开源了一个 ... -
asynload quickstart
2013-10-08 22:49 0几点说明: 1. asyncload是做为一个j ... -
网友文档贡献
2013-09-18 15:50 01. Otter源代码解析系列 链接:http://e ... -
Manager配置介绍
2013-09-16 13:00 0通道配置说明 多种同步方式配置 a. 单向同步 ... -
canal&otter FAQ
2013-09-05 17:30 0常见问题 1. canal和 ... -
阿里巴巴开源项目:分布式数据库同步系统otter(解决中美异地机房)
2013-08-22 16:48 40516项目背景 阿里巴巴B2B公司,因为业务的特性 ... -
Otter AdminGuide
2013-08-19 11:06 0几点说明 otter系统自带了manager,所以简化了一 ... -
Otter高可用性
2013-08-17 23:41 0基本需求 网络不可靠,异地机房尤为明显. man ... -
Otter数据一致性
2013-08-17 23:39 0技术选型分析 需要处理一致性的业务场景: 多地修改 ( ... -
Otter扩展性
2013-08-17 22:20 0扩展性定义 按照实现不同,可分为两类: 数据处理自定 ... -
Otter双向回环控制
2013-08-17 21:37 0基本需求 支持mysql/oracle的异构数据库的双 ... -
Otter调度模型
2013-08-17 20:13 0背景 在介绍调度模型之前,首先了解一下otter系统要解 ... -
Otter Manager介绍
2013-08-16 11:16 0背景 otter4.0发布至 ...
相关推荐
在文件下载场景中,HttpClient 可以设置连接超时、读取超时,处理重定向,以及进行身份验证等高级特性,确保文件下载的可靠性。 HtmlUnit2.9 是一个无头浏览器模拟器,主要用于Web自动化测试和网页抓取。它能够模拟...
- 错误处理:处理可能出现的异常,如网络连接失败、超时等。 3. **连接管理**: - 连接池:HttpClient支持连接池,可以复用已建立的TCP连接,提高性能。可以通过`PoolingHttpClientConnectionManager`管理连接池...
9. **错误处理**:处理可能出现的异常,如网络问题、认证失败或证书问题。 通过这些步骤,我们可以使用Apache HttpClient库安全地与443端口上的HTTPS服务进行通信。在实际开发中,还可能需要根据项目需求进行其他...
3. **高性能**:通过高效的连接管理和缓存机制,HttpClient能够处理大量并发请求,提高了应用性能。 4. **易于使用**:提供了一系列简单易用的接口,如HttpMethod接口,允许开发者直接发送GET、POST等HTTP方法。 5. ...
- **1.2.1 HttpClient线程安全性**: `HttpClient`实例本身不是线程安全的,但在正确配置下,可以支持多线程并发访问。 - **1.2.2 HttpClient资源释放**: 使用完`HttpClient`后,应该调用其提供的方法来释放资源,...
HTTPClient提供`PoolingHttpClientConnectionManager`类来管理连接池,控制并发连接数,以及超时和重试策略。 **SSL/TLS支持**:对于HTTPS通信,HTTPClient可以配置`SSLContext`和`X509TrustManager`来处理证书和...
- **login.conf 文件:** 包含了Kerberos认证所需的配置信息。 - **krb5 配置:** krb5.conf 文件是Kerberos认证的核心配置文件。 综上所述,HttpClient4.5.1 手册涵盖了从基础知识到高级特性的一系列内容,不仅...
在处理HTTP请求时,应考虑异常处理,比如网络问题、超时或服务器错误。可以使用try-catch语句捕获异常,并根据情况决定是否重试请求。 9. **性能优化**: 为了提高效率,可以使用多线程并发处理多个请求,或者...
7. **异常处理**:在实际开发中,还需要考虑网络问题、服务器错误等各种异常情况,进行适当的错误处理和重试机制。 在提供的压缩包文件`AspWebService`中,可能包含了示例代码和所需的HTTPClient库,用户可以参考...
2. Commons-codec库文件:commons-codec-1.x.jar,因为HttpClient依赖于它来处理编码解码,可以从Apache Jakarta common的子项目codec下载。 3. Commons-logging日志组件:commons-logging.jar,HttpClient也使用了...
6. **连接管理**:HttpClient 4.3引入了更完善的连接管理机制,如`PoolingHttpClientConnectionManager`,可以控制连接池的大小,提高性能并避免过多的连接创建。 7. **请求与响应**:HttpClient支持自定义请求头、...
4. **重试策略**:内置的重试机制允许在遇到暂时性网络问题时自动重试请求,增加了请求的可靠性。 5. **易于使用**:HttpClient 4.4提供了更清晰的API设计,使得开发者更容易理解和使用,同时Fluent API的引入使得...
4. **身份验证和安全性**:HttpClient支持多种身份验证机制,包括基本认证、摘要认证、NTLM等,同时也可以配置SSL/TLS协议来保证通信的安全性。 5. **Cookie管理**:HttpClient可以自动处理服务器返回的cookies,...
3. **多部分文件上传**:在处理POST或PUT请求时,HttpClient支持多部分文件上传,这对于上传多个文件到Web服务器非常有用。它可以处理文件和表单数据的混合提交。 4. **Cookie管理**:HttpClient提供了一个cookie...
9. **认证和安全**:HttpClient支持多种身份验证机制,如Basic Auth、NTLM等,同时处理SSL/TLS安全连接,确保数据传输的安全性。 10. **多线程和并发**:HttpClient支持多线程和并发请求,可以在一个HttpClient实例...
1. Commons-HTTPClient组件的主库文件:commons-httpclient-3.1.jar 2. 编码解码支持库:commons-codec-1.3.jar,用于处理编码相关的问题。 3. 日志功能组件:可能需要Commons-Logging,以便记录和调试网络通信的...
2. **线程安全**:HttpClient的设计考虑到了多线程环境下的并发访问,确保在高并发情况下也能稳定工作。 3. **流式传输**:支持大文件上传和下载的流式处理,避免一次性加载整个响应体到内存,节省资源并防止内存...
- **需要登录才能访问的服务**:处理登录流程和Cookie管理。 - **HTTPS加密通信**:支持安全的数据传输。 - **文件上传**:实现通过HTTP协议的文件上传功能。 #### 六、总结 通过以上介绍可以看出,HttpClient为...
- **自定义配置**:HttpClient允许用户自定义各种参数,例如超时时间、连接池大小等。 - **扩展性**:通过继承或实现接口的方式,可以轻松扩展HttpClient的功能。 总之,HttpClient是一个非常强大的工具包,为Java...
5. **超时控制**:可以设置连接超时、读取超时和写入超时,防止程序因网络问题长时间阻塞。 6. **重试机制**:在遇到网络临时故障时,HttpClient可以自动重试请求,提高请求成功率。 7. **HTTP响应处理**:...