抓取数据设置cookie

lzj0470

浏览: 1272694 次
性别:
来自: 深圳

最近访客更多访客>>

hedgehog12

chen88358323

wyx065747

jklwan

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

ASP Apache Windows Firefox XML

今天，遇到一个问题，顺便把它写下来。今天在抓取一个网站的时候，看起来像一个简单的页面，人工

浏览的话，是完全没问题，一旦有程序开始抓取，问题就来了。老提示我链接错误。一开始，一头冒烟，为啥呢？

细心想了一下，难道是cookie做怪，好，那就找一下我以前用cookie提交访问页面的程序，结果不知道放到哪里去了。

花了差不多两个小时，找到了一份源代码。下面是我修改过的程序

package org.qichao.mode;

import java.io.*;
import org.apache.commons.httpclient.*;
import org.apache.commons.httpclient.cookie.CookiePolicy;
import org.apache.commons.httpclient.methods.*;
import org.apache.commons.httpclient.params.HttpMethodParams;

public class UR {
 

     public static void main(String[] args) {
    	 HttpClient httpClient = new HttpClient();

     httpClient.getParams().setCookiePolicy(CookiePolicy.BROWSER_COMPATIBILITY);

                // 创建GET方法的实例

         GetMethod getMethod = new GetMethod("http://www.51ys.com/See_Url_one.asp?operator=25041782C95478FEE686A09");

      getMethod.setRequestHeader("Host","cards.360114.com");

      getMethod.setRequestHeader("User-Agent","Mozilla/5.0 (Windows; U; Windows NT 5.2; zh-CN; rv:1.8.1.20) Gecko/20081217 Firefox/2.0.0.20");

      getMethod.setRequestHeader("Accept","text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5");

      getMethod.setRequestHeader("Accept-Language","zh-cn,zh;q=0.5");

      getMethod.setRequestHeader("Accept-Encoding","gzip,deflate");

      getMethod.setRequestHeader("Accept-Charset","gb2312,utf-8;q=0.7,*;q=0.7");

      getMethod.setRequestHeader("Keep-Alive","300");

      getMethod.setRequestHeader("Connection","keep-alive");

      getMethod.setRequestHeader("Referer","http://www.360114.com/yellowpage/query.asp?Call=77&h1=GSLANVG&Spara=3&Cpara=&h2=HSIFJTNJHIH&Tpara=&h3=EDJYLUE&h5=@GAXBXFR@R@&scall=");

      getMethod.setRequestHeader("Cookie","__utmz=76121879.1230526182.3.3.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=%E4%BC%81%E4%B8%9A%E9%BB%84%E9%A1%B5%E5%A4%A7%E5%85%A8; __utma=76121879.2444684742963329000.1230517736.1230526182.1230530122.4; __utmc=76121879; ASPSESSIONIDAAATASRQ=IFDOECBAHDBKJFKKMKDOEFCP");

  getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,

                              new DefaultHttpMethodRetryHandler());

                try {

                       // 执行getMethod

                       int statusCode = httpClient.executeMethod(getMethod);

                       if (statusCode != HttpStatus.SC_OK) {

                              System.err.println("Method failed: "

                                            + getMethod.getStatusLine());

                       }

                       // 读取内容                        

                       byte[] responseBody = getMethod.getResponseBody();                

                          String content = new String(responseBody);

                          

                            // 处理内容

                        System.out.println(new String(responseBody));

                } catch (HttpException e) {

                       // 发生致命的异常，可能是协议不对或者返回的内容有问题

                       System.out.println("Please check your provided http address!");

                       e.printStackTrace();

                } catch (IOException e) {

                       // 发生网络异常

                       e.printStackTrace();

                } finally {

                       // 释放连接

                //     getMethod.releaseConnection();
                }
     }
 }

分享到：

Java制作自动访问网站机器人！ | Lucene源代码之构造自己的分词器

2008-12-29 15:52
浏览 3064
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

抓取数据设置cookie

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

抓取数据设置cookie

评论

发表评论

相关推荐

tomcat was unable to start within 45 seconds

Apache Commons Lang

htmlunit form

QQ微博登录步骤

jsoup

java 加密解密

freemarket 对象应用篇（一）

中文数字转阿拉伯数字

标记：伪原创标题思路

用JSmooth制作java jar文件的可执行exe文件教程(图文)

多线程 Java.util.ConcurrentModificationException异常

java 反序列化 抛出EOFException

一键安装双击运行——Java安装程序制作

只针对中英文混合分词的中文分词器

Java开源运行分析工具

cwss 按照指定的字符进行切词

cwss bug 修复

java 怎么读取细胞词库scel

今天遇到一个奇怪的问题

在myeclipse6.5下统一全部JSP编码更改

最近访客更多访客>>

java 反序列化抛出EOFException