`
hao861002
  • 浏览: 86443 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

关于HttpClient得到空页面的问题记录

阅读更多

 在做HttpClient获取页面时,对于http://www.oilchem.net/这个网站老是只能拿到空页面,后来在网站上找了好久,找到的一个解决办法,在这里做个记录。代码如下:

//构造HttpClient的实例
  HttpClient httpClient = new HttpClient();
  //创建GET方法的实例
  GetMethod getMethod = new GetMethod("http://www.dianping.com");
  getMethod.setRequestHeader( "User-Agent", "fake");

 

User-Agent的值如下列举:
Mozilla 这是一个基于 Mozilla 的浏览器
4.0 Mozilla 版本
compatible 兼容标志
表明此浏览器和常见浏览器特性兼容
MSIE 6.0 名称:
Internet Explorer
版本: 6.0
Windows NT 5.1 OS或CPU :
Windows XP, SP2 
SV1 为 IE6 增加增强的安全特性
(仅针对 Windows XP SP2 和 Windows Server 2003) 
.NET CLR 2.0.50727 .NET 框架公共语言运行时库已安装
版本: 2.0.50727 

1
0
分享到:
评论
2 楼 hao861002 2009-01-12  
playfish 写道

HttpClient 有些网站会有防采集的措施的,所以如果想完美的突破防采集,最好是将所有的头信息都伪装成IE6..然后设置一下referer,这样的方法几乎是可以做到100%突破普通页面的限制了.

我想问高手playfish,如何将所有的头信息伪装成IE6,是全部getMethod.setRequestHeader("", "");
请高手可以给我一段代码例子。谢谢!
1 楼 playfish 2009-01-10  
HttpClient

有些网站会有防采集的措施的,所以如果想完美的突破防采集,最好是将所有的头信息都伪装成IE6..然后设置一下referer,这样的方法几乎是可以做到100%突破普通页面的限制了.

相关推荐

    彻底解决httpClient乱码问题

    本文将深入探讨如何使用HttpClient来彻底解决乱码问题。 HttpClient是一个功能强大的HTTP客户端,支持多种HTTP协议版本,包括GET、POST等请求方法,以及重试、连接管理等功能。在处理中文字符时,由于编码不一致...

    关于httpClient的相关jar包

    httpclient 所需要的的4个jar包httpclient-4.2.jar, httpcore-4.2.jar,commons-codec-1.3.jar,commons-httpclient-3.1.jar,加2个相关的

    httpclient.jar包下载

    4. **重试和恢复策略**:HttpClient内置了重试和恢复策略,当网络出现问题时,可以自动进行重试,保证请求的可靠性。 5. **异步和同步模式**:HttpClient提供同步和异步两种操作模式,适应不同场景的需求。 提到...

    httpclient httpclient.jar

    在本文中,我们将深入探讨HttpClient的核心概念、使用方法以及如何通过`httpclient.jar`进行实战应用。 首先,HttpClient的主要组件包括: 1. **HttpClient实例**:这是整个HTTP通信的核心,负责管理连接、请求和...

    httpclient-4.5jar

    httpclient-4.5所需jar包,里面包含httpclient-4.5.jar等等10个必须的开发包。 1.commons-codec-1.9.jar 2.commons-logging-1.2.jar 3.fluent-hc-4.5.jar 4.httpclient-4.5.jar 5.httpclient-cache-4.5.jar 6....

    httpclient 静态化网站 project

    【标题】"httpclient 静态化网站 project"是一个基于Apache HttpClient库的项目,旨在实现网站内容的抓取和静态化。HttpClient是一个强大的HTTP客户端编程工具包,它允许开发者在Java环境中执行HTTP请求,获取网页...

    httpClient

    // 发生致命的异常,可能是协议不对或者返回的内容有问题 System.out.println("请检查输入的URL!"); e.printStackTrace(); } catch (IOException e) { // 发生网络异常 System.out.println("发生网络异常!"); ...

    HttpClient重新封装的HttpClient类

    然而,这个基础版本的`HttpClient`存在一些问题,如资源管理不当可能导致泄露,以及缺少重试和超时策略等。因此,对`HttpClient`进行重新封装是非常常见的实践,以解决这些问题并增加额外的功能。 重新封装的`...

    httpclient

    4. **重试策略**:当请求失败时,HttpClient可以根据预设的策略决定是否重试,避免因网络问题导致的错误。 5. **请求与响应处理**:HttpClient允许自定义请求头,处理响应头,以及对请求和响应实体内容的编码和解码...

    Java HttpClient 全部的jar包

    HttpClient使用这个库来记录调试信息和错误日志。 5. `httpclient-4.x.x.jar`: 这是HttpClient的核心库,包含了所有HTTP协议相关的类和方法,如创建HTTP请求、设置请求头、处理响应、管理连接池等。 6. `...

    HttpClientHelper 工具类

    5. **异常处理**:HttpClientHelper 应该包含了适当的错误处理机制,如捕获网络异常、解析异常等,以确保在出现问题时能够给出适当的反馈。 6. **HTTP请求配置**:可能还提供了设置超时、添加HTTP头、携带Cookie等...

    使用httpclient解决跨域问题

    我使用的是httpClient 进行内部转发 我们在A的服务器上,将前台的文件流,通过httpClient传输到B的服务器上(B的服务器通过控制层接受A传输的文件流,让后保存在B的服务器上。返回一个json结果)

    HttpClient 3.x to HttpComponents HttpClient 4.x

    例如,在HttpClient 3.x中,代码可能会使用`***mons.httpclient.HttpClient`类和`***mons.httpclient.methods.GetMethod`等,而在4.x版本中,这些都被新的API所替代。程序员需要熟悉`org.apache....

    HttpClient

    2. **下载 Commons Logging**:HttpClient 需要依赖 Commons Logging 来记录日志信息。可以访问 [http://jakarta.apache.org/site/downloads/downloads_commons-logging.cgi]...

    httpclient jar

    HttpClient使用它来记录执行过程中的一些信息,方便调试和问题定位。 三、使用HttpClient进行POST和GET 1. GET请求:通过HttpClient,我们可以轻松创建GET请求。首先,创建一个`HttpGet`对象,设置请求的URL,然后...

Global site tag (gtag.js) - Google Analytics