0 0

求教关于 HttpClient 抓取页面返回403的问题10

        HttpClient httpClient = new HttpClient();
        GetMethod getMethod = new GetMethod(url);
        try
        {
            int result = httpClient.executeMethod(getMethod);
            System.out.println(result);
        }
        catch (HttpException e)
        {
            e.printStackTrace();
        }
        catch (IOException e)
        {
            e.printStackTrace();
        }
        finally
        {
            if (getMethod != null)
            {
                getMethod.releaseConnection();
            }
        }
在抓取http://www.giveyousomecolortoseesee.com  给你些颜色看看 搜索页面的时候会返回403。
例如url 值为http://www.giveyousomecolortoseesee.com/search_2_dnf.htm 即搜索的关键词是dnf(使用代码抓取前未使用浏览器使用dnf该关键词进行检索),返回的结果为403。如果之前使用浏览器对dnf关键词进行过检索则能够拿到正确的返回值200,由于刚接触这块的内容 比较迷惑 所以发出来求教,不胜感激。
2013年7月08日 09:14

2个答案 按时间排序 按投票排序

0 0

http status code 403是服务器禁止访问.

一般情况下可以伪装HTTP Header
http://greatwqs.iteye.com/blog/1278948

如果是已经把客户端的IP封锁了,只有换你电脑出去的外网IP.
或者使用其他外网代理访问页面,这个就要改动一下HttpClient的封装代理代码了.

2013年7月09日 15:51
0 0

HttpClient httpClient = new HttpClient(); 
		httpClient.getParams().setParameter( HttpMethodParams.USER_AGENT, "Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.1.2) Gecko/20090803"); 
        GetMethod getMethod = new GetMethod(url);

        try 
        { 
            int result = httpClient.executeMethod(getMethod); 
            System.out.println(result); 
        } 
        catch (IOException e) 
        { 
            e.printStackTrace(); 
        } 
        finally 
        { 
            if (getMethod != null) 
            { 
                getMethod.releaseConnection(); 
            } 
        } 
,伪装下头部就可以了,网站做了些防抓取措施

2013年7月08日 13:16

相关推荐

    HttpClient抓取网页Demo

    在本文中,我们将深入探讨HttpClient的基本用法,以及如何使用它来抓取网页内容。 首先,你需要在项目中引入HttpClient的依赖。如果你使用的是Maven,可以在pom.xml文件中添加以下依赖: ```xml <groupId>org....

    java httpclient 抓取 数据 和jar 包

    在本篇文章中,我们将深入探讨如何使用Java HttpClient来抓取网页数据以及如何打包成jar文件。 **一、Java HttpClient简介** Java HttpClient 是 Apache HttpClient 库的一部分,它提供了丰富的功能,包括连接管理...

    httpClient+jsoup 抓取网页数据

    在"网易贵金属"的例子中,你可能需要使用HttpClient发送GET请求到网易贵金属的页面,然后使用Jsoup解析返回的HTML,找到包含贵金属价格、新闻等信息的部分,从而实现数据抓取。实际操作时,可能还需要考虑登录、分页...

    httpClient+jsoup抓取网页数据实例和jar包

    本教程将详细介绍如何结合使用HttpClient与Jsoup来抓取和处理网页数据。 HttpClient是Apache基金会开发的一个开放源代码库,它允许开发者发送HTTP请求并接收响应,支持多种HTTP协议版本。HttpClient提供了丰富的...

    Jsoup+httpclient模拟登陆和抓取页面.pdf

    Jsoup+httpclient模拟登陆和抓取页面.pdf

    彻底解决httpClient乱码问题

    1. **字符编码设置**:HttpClient默认可能不会自动处理服务器返回的字符集,因此需要明确指定编码。在发送请求时,可以使用`EntityUtils.toString(entity, "UTF-8")`来指定解码的字符集,确保与服务器响应的字符集...

    HttpClient 登录163邮箱

    - 如果登录成功,服务器可能会返回一个会话cookie,HttpClient需要保存这个cookie以保持登录状态。 3. **HttpClient API使用** - `HttpClient`实例化:创建一个`HttpClient`对象,可以设置连接超时、重试策略等...

    httpclient抓取网页数据和所需的10个jar包

    本篇文章将详细介绍如何使用HttpClient库抓取网页数据,并讨论与之相关的10个关键jar包。 HttpClient库提供了丰富的API,可以方便地执行GET、POST和其他HTTP方法,设置请求头,管理Cookie,处理重定向,以及进行...

    HttpClient网页抓取工具包整合

    HttpClient是Apache软件基金会的一个开源项目,它提供了一个强大的、高度可定制...通过提供的 httpClient网页抓取工具整合包,你可以快速地搭建起一个基本的网页抓取框架,进一步深入学习和实践HttpClient的各项功能。

    Java抓取https网页数据

    Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)

    使用HttpClient登录网易邮箱

    使用HttpClient登录网易邮箱 博文链接:https://bps.iteye.com/blog/136231

    HttpClient、乱码解决:实例

    本篇将详细介绍如何使用HttpClient解决乱码问题。 一、HttpClient基本使用 HttpClient主要由以下几个核心组件构成: 1. HttpClient:客户端实例,负责管理连接、配置请求等。 2. HttpRequestBase:表示HTTP请求,如...

    Jsoup+httpclient 模拟登陆和抓取

    - 在Java程序中使用Jsoup和HttpClient来模拟登录一个网站并抓取页面内容。 - 案例中包含了登录、页面访问、内容抽取、页面修改和保存到本地等步骤,展示了完整的操作流程。 9. HTTP请求参数设置: - 设置HTTP...

    httpclient远程网页抓取工具

    此外,HTTPClient库还支持异步请求,通过使用`Future<HttpResponse>`对象,可以在执行请求后立即继续执行其他代码,而无需等待响应返回。这对于需要处理大量并发请求的场景特别有用。 总之,HTTPClient是一个强大且...

    httpclient 静态化网站 project

    【标题】"httpclient 静态化网站 project"是一个基于Apache HttpClient库的项目,旨在实现网站内容的抓取和静态化。HttpClient是一个强大的HTTP客户端编程工具包,它允许开发者在Java环境中执行HTTP请求,获取网页...

    抓取页面 c# demo

    在这个"抓取页面 C# Demo"中,我们将探讨如何使用C#语言来实现一个基础的网页抓取程序。C#,由微软公司开发,是.NET框架的主要编程语言,提供了丰富的库和功能,适合构建各种类型的软件,包括网络爬虫。 首先,我们...

    httpclient-4.5jar

    httpclient-4.5所需jar包,里面包含httpclient-4.5.jar等等10个必须的开发包。 1.commons-codec-1.9.jar 2.commons-logging-1.2.jar 3.fluent-hc-4.5.jar 4.httpclient-4.5.jar 5.httpclient-cache-4.5.jar 6....

    httpclient绕过验证码直接抓取

    "HttpClient绕过验证码直接抓取" HttpClient是一种常用的网络请求库,常用于网络爬虫、自动化测试、数据爬取等领域。今天,我们将讨论如何使用HttpClient绕过验证码直接抓取网站数据。 绕过验证码的原理 验证码是...

    HttpClient调用第三方接口

    使用httpclient调用公安部接口 并接受返回的字符串转换为图片

Global site tag (gtag.js) - Google Analytics