`
robertliudeqiang
  • 浏览: 123820 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

HTTPClient模拟登陆人人网

    博客分类:
  • web
阅读更多
目的:
使用HTTPClient4.0.1登录到人人网,并从特定的网页抓取数据。


总结&注意事项:

  • HttpClient(DefaultHttpClient)代表了一个会话,在同一个会话中,HttpClient对cookie自动进行管理(当然,也可以在程序中进行控制)。
  • 在同一个会话中,当使用post或是get发起一个新的请求时,一般需要对调用前一个会话的abort()方法,否则会抛出异常。
  • 有些网站登录成功后会重定向(302, 303),比如这里的人人网。如果发出的是post请求,需要从响应头中取出location,并再次向网站发送请求,以获取最终数据。
  • 抓取程序不要运行地过于频繁,大部分站点都有抵制刷网站机制。人人网访问过于频繁会锁账号。
  • 使用录制工具录制出登录时向网站发出的请求参数。在这里,我使用了badboy,导出成jmeter文件,在jmeter中就可以看到登录时向网站发送的参数列表和相应的值。
  • 人人网属于登陆流程比较简单的网站,后一篇会介绍一家比较难搞的网站。

代码:
public class RenRen {
    // The configuration items
    private static String userName = "YourMailinRenren";
    private static String password = "YourPassword";
    private static String redirectURL = "http://blog.renren.com/blog/304317577/449470467";

    // Don't change the following URL
    private static String renRenLoginURL = "http://www.renren.com/PLogin.do";

    // The HttpClient is used in one session
    private HttpResponse response;
    private DefaultHttpClient httpclient = new DefaultHttpClient();

    private boolean login() {
        HttpPost httpost = new HttpPost(renRenLoginURL);
        // All the parameters post to the web site
        List<NameValuePair> nvps = new ArrayList<NameValuePair>();
        nvps.add(new BasicNameValuePair("origURL", redirectURL));
        nvps.add(new BasicNameValuePair("domain", "renren.com"));
        nvps.add(new BasicNameValuePair("isplogin", "true"));
        nvps.add(new BasicNameValuePair("formName", ""));
        nvps.add(new BasicNameValuePair("method", ""));
        nvps.add(new BasicNameValuePair("submit", "登录"));
        nvps.add(new BasicNameValuePair("email", userName));
        nvps.add(new BasicNameValuePair("password", password));
        try {
            httpost.setEntity(new UrlEncodedFormEntity(nvps, HTTP.UTF_8));
            response = httpclient.execute(httpost);
        } catch (Exception e) {
            e.printStackTrace();
            return false;
        } finally {
            httpost.abort();
        }
        return true;
    }

    private String getRedirectLocation() {
        Header locationHeader = response.getFirstHeader("Location");
        if (locationHeader == null) {
            return null;
        }
        return locationHeader.getValue();
    }

    private String getText(String redirectLocation) {
        HttpGet httpget = new HttpGet(redirectLocation);
        // Create a response handler
        ResponseHandler<String> responseHandler = new BasicResponseHandler();
        String responseBody = "";
        try {
            responseBody = httpclient.execute(httpget, responseHandler);
        } catch (Exception e) {
            e.printStackTrace();
            responseBody = null;
        } finally {
            httpget.abort();
            httpclient.getConnectionManager().shutdown();
        }
        return responseBody;
    }

    public void printText() {
        if (login()) {
            String redirectLocation = getRedirectLocation();
            if (redirectLocation != null) {
                System.out.println(getText(redirectLocation));
            }
        }
    }

    public static void main(String[] args) {
        RenRen renRen = new RenRen();
        renRen.printText();
    }
}
分享到:
评论
25 楼 lzj0470 2010-04-10  
自动管理cookie,有点不太可靠。建议还是要加上。我做过一个娱乐赌球的网站,有验证码,有Cookie,我曾以为httpclient可以帮我搞定cookie,最后还是每跟踪一步都需要set一下cookie。如果不设置一下,到时候会搞死人。都不知道哪里错误。
24 楼 hommy8 2010-04-10  
不好意思,刚才看到了,readme里面有一句:

HttpClient main module requires Java 5.0 compatible runtime and
depends on the following external libraries:

* Apache HttpComponents HttpCore
* Apache Commons Logging
* Apache Commons Codec
23 楼 hommy8 2010-04-10  
请问一下,把LZ的代码copy下来,程序报缺少包。然后我去找。下了一个httpcomponents-client-4.0.1-bin.zip。
但还是缺少包。

另外想说个事情,不知道是否自己不会用,我解压httpcomponents-client-4.0.1-bin.zip包,然后跑里面的example,居然也报缺少包(当然,我把httpcomponents-client-4.0.1-bin.zip包里面的lib加进去了)。example里面的例子居然跑不了?apache怎么搞的?
22 楼 Anddy 2010-04-09  
robertliudeqiang 写道
Anddy 写道
引用
flex没有接触过,准备找机会看看JavaFX。


请问JavaFx开发有前途(或钱途)么?或者流行趋势?我想不到有什么钱途就没去琢磨这个JavaFx。



这个问题我也想问,我只是感兴趣,和工作无关。 

想来想去

还是去搞手机开发吧,未来是移动行业的天下!
21 楼 chan.d 2010-04-09  
支持作者继续更新。
20 楼 robertliudeqiang 2010-04-09  
Anddy 写道
引用
flex没有接触过,准备找机会看看JavaFX。


请问JavaFx开发有前途(或钱途)么?或者流行趋势?我想不到有什么钱途就没去琢磨这个JavaFx。



这个问题我也想问,我只是感兴趣,和工作无关。 
19 楼 jiangzixiang 2010-04-09  
我也觉得,如果有难证码怎么登陆。
18 楼 Anddy 2010-04-09  
引用
flex没有接触过,准备找机会看看JavaFX。


请问JavaFx开发有前途(或钱途)么?或者流行趋势?我想不到有什么钱途就没去琢磨这个JavaFx。
17 楼 robertliudeqiang 2010-04-09  
passionke 写道
呵呵 java下 flex下 我都写乐
我写的是自动偷菜

cookie自动管理。~~
通过分析返回的Http协议头维护自己的cookie


flex没有接触过,准备找机会看看JavaFX。
16 楼 robertliudeqiang 2010-04-09  
jxsgy 写道
就可以用httpclient模拟任何操作了


我会在后一篇文章介绍如何登录开心001,只使用httpclient就不能完成目的,还需要借助其它工具。
15 楼 jxsgy 2010-04-09  
目前的网站,大部分都是get或者post,只要把post或者get的内容了解下,就可以用httpclient模拟任何操作了
14 楼 passionke 2010-04-09  
呵呵 java下 flex下 我都写乐
我写的是自动偷菜

cookie自动管理。~~
通过分析返回的Http协议头维护自己的cookie
13 楼 robertliudeqiang 2010-04-09  
whaosoft 写道
嗯 确实 要加了 验证这个就不成了 那怎么用介个解决呢



如果验证码是和客户端相关的,就一定可以找到办法通过验证。如果验证码和服务器相关,比如验证码是在服务端通过运行一段代码产生的,那就只能破解图片了。

另外,有些更智能的验证码,比如问一个问题,这种机器是没有办法识别的。

碰到这种极端情况,也许可以考虑在HTTPClient把cookie设置成手动登陆成功后的cookie,在cookie没有过期前,使用客户端无需登录就可以访问相关页面,但是这样做需要人工来配合。
12 楼 whaosoft 2010-04-09  
嗯 确实 要加了 验证这个就不成了 那怎么用介个解决呢
11 楼 robertliudeqiang 2010-04-09  
husai 写道
自己对一个网站试了下,还是不甚理解,响应头中没有location。
接下来应该怎么做?


1 在模拟登陆前,你需要对一个网站的登录流程有一个了解,最好找一个录制工具,在录制工具中手动登录一遍,然后查看在你登陆过程中向服务器发送了什么参数,用这个参数使用HTTPClient进行登录。我用的工具是badboy,导出成jmeter文件可以在jemter里看参数。

2 登录成功后,有些网站有要重定向的,响应头中有location,有些是不需要的,取决网站实现。

3 另一种方法是登录成功后你忽略返回,直接用HttpGet去得到你想要访问的页面,因为HTTPClient是自动管理cookie的。
10 楼 husai 2010-04-09  
自己对一个网站试了下,还是不甚理解,响应头中没有location。
接下来应该怎么做?
9 楼 robertliudeqiang 2010-04-09  
qiren83 写道
有意思 前排X入

用过httppaser抓TAOBAO的数据 没用过HTTPclient 周末了 正好学习下

先顶 回去看


恩,httppaser没有用过,个人感觉httppaser侧重于分析网页本身,HTTPclient则侧重协议相关的工作。
8 楼 robertliudeqiang 2010-04-09  
kjj 写道
人人网没有开启验证码机制,开了你这个就不行了!!!


人人网的确没有开验证码。不过现在大部分网站的为了提高用户体验,在用户第一次登陆网站时,是不要用户输入验证码的,只有在密码输入错误的情况下,才会要求用户输入验证码,目的是为了防止暴力破解。比如gmail,支付宝,开心001等等,省去了不少麻烦。
7 楼 kjj 2010-04-09  
人人网没有开启验证码机制,开了你这个就不行了!!!
6 楼 qiren83 2010-04-09  
有意思 前排X入

用过httppaser抓TAOBAO的数据 没用过HTTPclient 周末了 正好学习下

先顶 回去看

相关推荐

    httpclient4.3登陆人人

    标题中的“httpclient4.3登陆人人”指的是使用Apache HttpClient 4.3版本实现对人人网的自动登录功能。HttpClient是一个流行的开源Java库,它允许开发者执行HTTP请求并处理响应,广泛应用于网络爬虫、自动化测试和...

    java实现模拟登录网站最全的资料

    7. **论坛资源**:`ITeye论坛.mht`文件可能包含了关于HttpClient的使用讨论,如`HTTPClient模拟登陆人人网`,这通常提供了实际项目中的示例和遇到的问题解决方案。 8. **MHT文件**:MHT是一种单一文件的网页存档...

    java 模拟登陆人人网

    在本文中,我们将深入探讨如何使用Java进行网页模拟登录,以人人网为例。模拟登录是一项常见的网络编程任务,常用于自动化测试、数据抓取或数据分析等场景。在Java中,我们可以利用HTTP客户端库如HttpURLConnection...

    《基于YOLOv8的增强现实识别系统》(包含源码、完整数据集、可视化界面、部署教程)简单部署即可运行。功能完善、操作简单,适合毕设或课程设计.zip

    资源内项目源码是来自个人的毕业设计,代码都测试ok,包含源码、数据集、可视化页面和部署说明,可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源,毕设答辩评审绝对信服的保底85分以上,放心下载使用,拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务,拿来就能用的绝对好资源!!! 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.txt文件,仅供学习参考, 切勿用于商业用途。

    Android毕设实战项目Android系统NFC手机读身份证(二代证).zip

    【项目资源】: 适用于从基础到高级的各种项目,特别是在性能要求较高的场景中,比如操作系统开发、嵌入式编程和底层系统编程。如果您是初学者,可以从简单的控制台程序开始练习;如果是进阶开发者,可以尝试涉及硬件或网络的项目。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】: 适用于希望学习不同技术领域的小白或进阶学习者。 可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】: 项目具有较高的学习借鉴价值,也可直接拿来修改复刻。 对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】: 有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 鼓励下载和使用,并欢迎大家互相学习,共同进步。 # 注意 1. 本资源仅用于开源学习和技术交流。不可商用等,一切后果由使用者承担。 2. 部分字体以及插图等来自网络,若是侵权请联系删除。

    基于开源数据集与YOLO11x训练的安全帽识别模型权重文件

    模型权重文件介绍 1. 基于开源数据集训练,训练集包含15000+图片,训练100 epochs 2. 基于YOLO11x模型进行的训练 3. 模型识别类别有2类:helmet、no-helmet

    ARM仿真器快速使用资料+绿色版软件 附视频-20210701.zip

    ARM仿真器快速使用资料+绿色版软件 附视频-20210701.zip

    毕业设计汽车式起重机液压系统的设计(论文设计说明书18000字,CAD图纸13张)

    内容概要:本文详细介绍了QY20B型汽车起重机液压系统的设计过程,涵盖其背景、发展史、主要运动机构及其液压回路设计。文章首先概述了汽车起重机的分类和发展历程,强调了液压技术在现代起重机中的重要性。接着,文章深入分析了QY20B型汽车起重机的五大主要运动机构(支腿、回转、伸缩、变幅、起升)的工作原理及相应的液压回路设计。每个回路的设计均考虑了性能要求、功能实现及工作原理,确保系统稳定可靠。此外,文章还详细计算了支腿油缸的受力、液压元件的选择及液压系统的性能验算,确保设计的可行性和安全性。 适合人群:从事工程机械设计、液压系统设计及相关领域的工程师和技术人员,以及对起重机技术感兴趣的高等院校学生和研究人员。 使用场景及目标:①为从事汽车起重机液压系统设计的工程师提供详细的参考案例;②帮助技术人员理解和掌握液压系统设计的关键技术和计算方法;③为高等院校学生提供学习和研究起重机液压系统设计的实用资料。 其他说明:本文不仅提供了详细的液压系统设计过程,还结合了实际工程应用,确保设计的实用性和可靠性。文中引用了大量参考文献,确保设计依据的科学性和权威性。阅读本文有助于读者深入了解汽车起重机液压系统的设计原理和实现方法,为实际工程应用提供有力支持。

    Unity Beautify 3 - Advanced Post Processing 23.0版本

    Unity Beautify 3 - Advanced Post Processing 23.0版本

    基于数据包络分析的中国旅游业发展效率特征

    基于数据包络分析的中国旅游业发展效率特征

    毕业设计物联网实战项目基于物联网技术的智能拐杖及与服务平台.zip

    【项目资源】: 物联网项目适用于从基础到高级的各种项目,特别是在性能要求较高的场景中,比如操作系统开发、嵌入式编程和底层系统编程。如果您是初学者,可以从简单的控制台程序开始练习;如果是进阶开发者,可以尝试涉及硬件或网络的项目。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】: 适用于希望学习不同技术领域的小白或进阶学习者。 可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】: 项目具有较高的学习借鉴价值,也可直接拿来修改复刻。 对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】: 有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 鼓励下载和使用,并欢迎大家互相学习,共同进步。 # 注意 1. 本资源仅用于开源学习和技术交流。不可商用等,一切后果由使用者承担。 2. 部分字体以及插图等来自网络,若是侵权请联系删除。

    (源码)基于蓝牙技术的多通道键盘.zip

    # 基于蓝牙技术的多通道键盘 ## 项目简介 在多设备工作环境中,用户常常需要在家庭电脑、工作笔记本或平板电脑之间频繁切换键盘输入,这不仅占用了大量桌面空间,而且操作不便。本项目旨在通过蓝牙技术,设计一款能够同时连接多个设备并实现一键切换的多通道键盘,从而简化用户的操作流程,提高工作效率。 ## 项目的主要特性和功能 1. 多设备连接键盘可以同时连接多达三个不同的设备。 2. 一键切换通过按键即可快速切换输入目标设备。 3. 高性能微控制器采用ATMega32u4微控制器,提供足够的GPIO引脚,支持Arduino编程环境,便于固件开发和升级。 4. 蓝牙模块使用RN42蓝牙模块,确保稳定的设备连接和数据传输。 5. 电压调节器使用MIC4680电压调节器,确保系统稳定供电。 ## 安装使用步骤 1. 硬件准备 获取ATMega32u4微控制器、RN42蓝牙模块、MIC4680电压调节器等硬件组件。 2. 电路设计

    毕设单片机实战项目基于 ESP8266 的智能家居解决方案.zip

    【项目资源】: 单片机项目适用于从基础到高级的各种项目,特别是在性能要求较高的场景中,比如操作系统开发、嵌入式编程和底层系统编程。如果您是初学者,可以从简单的控制台程序开始练习;如果是进阶开发者,可以尝试涉及硬件或网络的项目。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】: 适用于希望学习不同技术领域的小白或进阶学习者。 可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】: 项目具有较高的学习借鉴价值,也可直接拿来修改复刻。 对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】: 有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 鼓励下载和使用,并欢迎大家互相学习,共同进步。 # 注意 1. 本资源仅用于开源学习和技术交流。不可商用等,一切后果由使用者承担。 2. 部分字体以及插图等来自网络,若是侵权请联系删除。

    基于Vue.js和SpringBoot的研究生调研管理系统.zip

    基于Vue.js和SpringBoot的研究生调研管理系统.zip

    地理信息文件,许昌市各县区政区图,shp格式,可编辑

    地理信息文件,许昌市各县区政区图,shp格式,可编辑

    《基于YOLOv8的运动协会监测系统》(包含源码、完整数据集、可视化界面、部署教程)简单部署即可运行。功能完善、操作简单,适合毕设或课程设计.zip

    资源内项目源码是来自个人的毕业设计,代码都测试ok,包含源码、数据集、可视化页面和部署说明,可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源,毕设答辩评审绝对信服的保底85分以上,放心下载使用,拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务,拿来就能用的绝对好资源!!! 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.txt文件,仅供学习参考, 切勿用于商业用途。

    Scratch放飞气球 2024年9月电子学会scratch三级考试真题源代码

    Scratch放飞气球 2024年9月电子学会scratch三级考试真题源代码 综合考查角色添加、背景添加、初始位置、移动步数、方向旋转、造型切换、左右翻转、碰到边缘反弹、无限循环、条件判断、鼠标控制、碰撞检测等积木的使用;难点在于: 如何实现蝙蝠不断移动 如何实现蝙蝠边移动边挥翅膀 如何实现Ripley跟随鼠标移动 如何实现蝙蝠碰到Ripley移到随机位置 充分掌握重复执行和碰撞检测积木的使用 详细解题思路和步骤可以查看博客: https://scratch.blog.csdn.net/article/details/142934767 小兔子编程给小朋友们分享各种少儿编程(Scratch编程、python编程、C++编程等)学习、考级和比赛相关资料;更多少儿编程相关的学习资料,可以访问博主博客 https://blog.csdn.net/frank2102 期待小朋友们相互交流学习,有什么问题,建议或者意见可以直接给博主留言,或者私下,博主看到后会第一时间给到您相应的回复

    毕业设计物联网实战项目基于STM32L0低功耗微控制器的物联网智能垃圾桶(HAL).zip

    【项目资源】: 物联网项目适用于从基础到高级的各种项目,特别是在性能要求较高的场景中,比如操作系统开发、嵌入式编程和底层系统编程。如果您是初学者,可以从简单的控制台程序开始练习;如果是进阶开发者,可以尝试涉及硬件或网络的项目。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】: 适用于希望学习不同技术领域的小白或进阶学习者。 可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】: 项目具有较高的学习借鉴价值,也可直接拿来修改复刻。 对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】: 有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 鼓励下载和使用,并欢迎大家互相学习,共同进步。 # 注意 1. 本资源仅用于开源学习和技术交流。不可商用等,一切后果由使用者承担。 2. 部分字体以及插图等来自网络,若是侵权请联系删除。

    前端分析-2023071100789s102102

    前端分析-2023071100789s102102

    毕业设计物联网实战项目基于VUE+element开发的物联网后台管理系统,金大万翔特供.zip

    【项目资源】: 物联网项目适用于从基础到高级的各种项目,特别是在性能要求较高的场景中,比如操作系统开发、嵌入式编程和底层系统编程。如果您是初学者,可以从简单的控制台程序开始练习;如果是进阶开发者,可以尝试涉及硬件或网络的项目。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】: 适用于希望学习不同技术领域的小白或进阶学习者。 可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】: 项目具有较高的学习借鉴价值,也可直接拿来修改复刻。 对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】: 有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 鼓励下载和使用,并欢迎大家互相学习,共同进步。 # 注意 1. 本资源仅用于开源学习和技术交流。不可商用等,一切后果由使用者承担。 2. 部分字体以及插图等来自网络,若是侵权请联系删除。

Global site tag (gtag.js) - Google Analytics