-
求教关于 HttpClient 抓取页面返回403的问题10
HttpClient httpClient = new HttpClient();
GetMethod getMethod = new GetMethod(url);
try
{
int result = httpClient.executeMethod(getMethod);
System.out.println(result);
}
catch (HttpException e)
{
e.printStackTrace();
}
catch (IOException e)
{
e.printStackTrace();
}
finally
{
if (getMethod != null)
{
getMethod.releaseConnection();
}
}
在抓取http://www.giveyousomecolortoseesee.com 给你些颜色看看 搜索页面的时候会返回403。
例如url 值为http://www.giveyousomecolortoseesee.com/search_2_dnf.htm 即搜索的关键词是dnf(使用代码抓取前未使用浏览器使用dnf该关键词进行检索),返回的结果为403。如果之前使用浏览器对dnf关键词进行过检索则能够拿到正确的返回值200,由于刚接触这块的内容 比较迷惑 所以发出来求教,不胜感激。2013年7月08日 09:14
2个答案 按时间排序 按投票排序
-
http status code 403是服务器禁止访问.
一般情况下可以伪装HTTP Header
http://greatwqs.iteye.com/blog/1278948
如果是已经把客户端的IP封锁了,只有换你电脑出去的外网IP.
或者使用其他外网代理访问页面,这个就要改动一下HttpClient的封装代理代码了.2013年7月09日 15:51
-
HttpClient httpClient = new HttpClient(); httpClient.getParams().setParameter( HttpMethodParams.USER_AGENT, "Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.1.2) Gecko/20090803"); GetMethod getMethod = new GetMethod(url); try { int result = httpClient.executeMethod(getMethod); System.out.println(result); } catch (IOException e) { e.printStackTrace(); } finally { if (getMethod != null) { getMethod.releaseConnection(); } }
,伪装下头部就可以了,网站做了些防抓取措施2013年7月08日 13:16
相关推荐
在本文中,我们将深入探讨HttpClient的基本用法,以及如何使用它来抓取网页内容。 首先,你需要在项目中引入HttpClient的依赖。如果你使用的是Maven,可以在pom.xml文件中添加以下依赖: ```xml <groupId>org....
在本篇文章中,我们将深入探讨如何使用Java HttpClient来抓取网页数据以及如何打包成jar文件。 **一、Java HttpClient简介** Java HttpClient 是 Apache HttpClient 库的一部分,它提供了丰富的功能,包括连接管理...
在"网易贵金属"的例子中,你可能需要使用HttpClient发送GET请求到网易贵金属的页面,然后使用Jsoup解析返回的HTML,找到包含贵金属价格、新闻等信息的部分,从而实现数据抓取。实际操作时,可能还需要考虑登录、分页...
本教程将详细介绍如何结合使用HttpClient与Jsoup来抓取和处理网页数据。 HttpClient是Apache基金会开发的一个开放源代码库,它允许开发者发送HTTP请求并接收响应,支持多种HTTP协议版本。HttpClient提供了丰富的...
Jsoup+httpclient模拟登陆和抓取页面.pdf
1. **字符编码设置**:HttpClient默认可能不会自动处理服务器返回的字符集,因此需要明确指定编码。在发送请求时,可以使用`EntityUtils.toString(entity, "UTF-8")`来指定解码的字符集,确保与服务器响应的字符集...
- 如果登录成功,服务器可能会返回一个会话cookie,HttpClient需要保存这个cookie以保持登录状态。 3. **HttpClient API使用** - `HttpClient`实例化:创建一个`HttpClient`对象,可以设置连接超时、重试策略等...
本篇文章将详细介绍如何使用HttpClient库抓取网页数据,并讨论与之相关的10个关键jar包。 HttpClient库提供了丰富的API,可以方便地执行GET、POST和其他HTTP方法,设置请求头,管理Cookie,处理重定向,以及进行...
HttpClient是Apache软件基金会的一个开源项目,它提供了一个强大的、高度可定制...通过提供的 httpClient网页抓取工具整合包,你可以快速地搭建起一个基本的网页抓取框架,进一步深入学习和实践HttpClient的各项功能。
Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)
使用HttpClient登录网易邮箱 博文链接:https://bps.iteye.com/blog/136231
本篇将详细介绍如何使用HttpClient解决乱码问题。 一、HttpClient基本使用 HttpClient主要由以下几个核心组件构成: 1. HttpClient:客户端实例,负责管理连接、配置请求等。 2. HttpRequestBase:表示HTTP请求,如...
- 在Java程序中使用Jsoup和HttpClient来模拟登录一个网站并抓取页面内容。 - 案例中包含了登录、页面访问、内容抽取、页面修改和保存到本地等步骤,展示了完整的操作流程。 9. HTTP请求参数设置: - 设置HTTP...
此外,HTTPClient库还支持异步请求,通过使用`Future<HttpResponse>`对象,可以在执行请求后立即继续执行其他代码,而无需等待响应返回。这对于需要处理大量并发请求的场景特别有用。 总之,HTTPClient是一个强大且...
【标题】"httpclient 静态化网站 project"是一个基于Apache HttpClient库的项目,旨在实现网站内容的抓取和静态化。HttpClient是一个强大的HTTP客户端编程工具包,它允许开发者在Java环境中执行HTTP请求,获取网页...
在这个"抓取页面 C# Demo"中,我们将探讨如何使用C#语言来实现一个基础的网页抓取程序。C#,由微软公司开发,是.NET框架的主要编程语言,提供了丰富的库和功能,适合构建各种类型的软件,包括网络爬虫。 首先,我们...
httpclient-4.5所需jar包,里面包含httpclient-4.5.jar等等10个必须的开发包。 1.commons-codec-1.9.jar 2.commons-logging-1.2.jar 3.fluent-hc-4.5.jar 4.httpclient-4.5.jar 5.httpclient-cache-4.5.jar 6....
"HttpClient绕过验证码直接抓取" HttpClient是一种常用的网络请求库,常用于网络爬虫、自动化测试、数据爬取等领域。今天,我们将讨论如何使用HttpClient绕过验证码直接抓取网站数据。 绕过验证码的原理 验证码是...
使用httpclient调用公安部接口 并接受返回的字符串转换为图片