`
robertliudeqiang
  • 浏览: 123775 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

HTTPClient模拟登陆人人网

    博客分类:
  • web
阅读更多
目的:
使用HTTPClient4.0.1登录到人人网,并从特定的网页抓取数据。


总结&注意事项:

  • HttpClient(DefaultHttpClient)代表了一个会话,在同一个会话中,HttpClient对cookie自动进行管理(当然,也可以在程序中进行控制)。
  • 在同一个会话中,当使用post或是get发起一个新的请求时,一般需要对调用前一个会话的abort()方法,否则会抛出异常。
  • 有些网站登录成功后会重定向(302, 303),比如这里的人人网。如果发出的是post请求,需要从响应头中取出location,并再次向网站发送请求,以获取最终数据。
  • 抓取程序不要运行地过于频繁,大部分站点都有抵制刷网站机制。人人网访问过于频繁会锁账号。
  • 使用录制工具录制出登录时向网站发出的请求参数。在这里,我使用了badboy,导出成jmeter文件,在jmeter中就可以看到登录时向网站发送的参数列表和相应的值。
  • 人人网属于登陆流程比较简单的网站,后一篇会介绍一家比较难搞的网站。

代码:
public class RenRen {
    // The configuration items
    private static String userName = "YourMailinRenren";
    private static String password = "YourPassword";
    private static String redirectURL = "http://blog.renren.com/blog/304317577/449470467";

    // Don't change the following URL
    private static String renRenLoginURL = "http://www.renren.com/PLogin.do";

    // The HttpClient is used in one session
    private HttpResponse response;
    private DefaultHttpClient httpclient = new DefaultHttpClient();

    private boolean login() {
        HttpPost httpost = new HttpPost(renRenLoginURL);
        // All the parameters post to the web site
        List<NameValuePair> nvps = new ArrayList<NameValuePair>();
        nvps.add(new BasicNameValuePair("origURL", redirectURL));
        nvps.add(new BasicNameValuePair("domain", "renren.com"));
        nvps.add(new BasicNameValuePair("isplogin", "true"));
        nvps.add(new BasicNameValuePair("formName", ""));
        nvps.add(new BasicNameValuePair("method", ""));
        nvps.add(new BasicNameValuePair("submit", "登录"));
        nvps.add(new BasicNameValuePair("email", userName));
        nvps.add(new BasicNameValuePair("password", password));
        try {
            httpost.setEntity(new UrlEncodedFormEntity(nvps, HTTP.UTF_8));
            response = httpclient.execute(httpost);
        } catch (Exception e) {
            e.printStackTrace();
            return false;
        } finally {
            httpost.abort();
        }
        return true;
    }

    private String getRedirectLocation() {
        Header locationHeader = response.getFirstHeader("Location");
        if (locationHeader == null) {
            return null;
        }
        return locationHeader.getValue();
    }

    private String getText(String redirectLocation) {
        HttpGet httpget = new HttpGet(redirectLocation);
        // Create a response handler
        ResponseHandler<String> responseHandler = new BasicResponseHandler();
        String responseBody = "";
        try {
            responseBody = httpclient.execute(httpget, responseHandler);
        } catch (Exception e) {
            e.printStackTrace();
            responseBody = null;
        } finally {
            httpget.abort();
            httpclient.getConnectionManager().shutdown();
        }
        return responseBody;
    }

    public void printText() {
        if (login()) {
            String redirectLocation = getRedirectLocation();
            if (redirectLocation != null) {
                System.out.println(getText(redirectLocation));
            }
        }
    }

    public static void main(String[] args) {
        RenRen renRen = new RenRen();
        renRen.printText();
    }
}
分享到:
评论
65 楼 cfczdws 2015-05-06  
不得不再回次。。
64 楼 cfczdws 2015-05-06  
非常感谢,终于成功了,也算小有入门了。。
63 楼 2272006 2014-10-14  
请问楼主,  是用什么组件能实现“在jmeter中就可以看到登录时向网站发送的参数列表和相应的值。”?
62 楼 lt26w 2014-07-21  
为啥我复制粘贴楼主的代码用了4.0.1还是报一堆的错误?求解


晕死,原来还要导入5个包
61 楼 lt26w 2014-07-21  
为啥我复制粘贴楼主的代码用了4.0.1还是报一堆的错误?求解
60 楼 fancyzc 2012-08-22  
楼主你好,非常感谢你的发帖。不过我在引用的时候eclipse提示HttpResponse不存在需要重新创建,我入门较浅,楼主能帮忙解决一下么。
谢谢
59 楼 greatwqs 2011-09-29  
•HttpClient(DefaultHttpClient)代表了一个会话,在同一个会话中,HttpClient对cookie自动进行管理(当然,也可以在程序中进行控制)。

前面的HttpClient为一个登陆的,后面HttpClient保存了登陆的信息.
如果我要在代码52行当中重新定义一个,例如
DefaultHttpClient httpclient2 = new DefaultHttpClient();
用httpclient2 去执行httpget 得到登陆之后的HTML等信息.
这个时候httpclient2 应该设置些什么东西呢? 管理cookie什么的解决?
由于原来是两次new不同的httpclient. 不是一个httpclient.
谢谢!

    
58 楼 2110901055 2011-02-23  
56楼的,抓到现在QQ邮箱的联系人会不?
57 楼 iminto 2011-02-12  
php的curl比这个好用100倍
56 楼 iminto 2011-02-12  
抓取QQ邮箱联系人 这个是最难的。
55 楼 Alvizel 2011-02-12  
登陆进入谁不会啊 -。-

关键是发些分享啊什么的
54 楼 to_zoe_yang 2011-01-24  
感谢楼主啊~
呵呵~
自己尝试得到全部好友和通讯录
没有问题~
谢谢啦~
关注楼主
53 楼 yang02301 2010-12-05  
jordan_micle 写道
能用httpclient登录QQ或QQ空间吗。。。



已经搞定“httpclient登录QQ”自动登陆。
52 楼 yang02301 2010-12-05  
robertliudeqiang 写道
ithero 写道
比较感兴趣的是把人人网的大中学校抓取下来。


HTTPClient是自动管理cookie的,你登陆后,再到含有学校的页面get这些页面,分析一下就可以得到学校列表了。不过不要抓的太频繁,人人会锁账号 


这里有已经抓到的中国大学数据,

还有大学所带的院系。

51 楼 KimShen 2010-10-13  
HttpClient4我有专门整理过,配合HttpParse或者HttpUnit效果比较好,
一般的登陆URLConnection更方便.
资料地址:
http://kimshen.iteye.com/admin/blogs/783480
50 楼 dominic6988 2010-10-13  
<p>看着楼主的全家福感觉你们好幸福,祝福你们</p>
49 楼 philexm 2010-10-13  
怎么解决抓取回来的页面信息中文乱码问题。
48 楼 鸟哥哥 2010-07-08  
想当年拿httpclient恶意注册人民网邮箱,注爆了,也注册bigfoot,gmail等等。用httpclient问题是一旦html代码或者关键参数有变,这程序就得改。
可以拿它去点点广告,暴力尝试密码啊等,有些行,有些不行。
有些web不行,wap行。
47 楼 jordan_micle 2010-07-08  
能用httpclient登录QQ或QQ空间吗。。。
46 楼 link_biao 2010-07-08  
大哥,你这文章帮我大忙 了。

相关推荐

    httpclient4.3登陆人人

    标题中的“httpclient4.3登陆人人”指的是使用Apache HttpClient 4.3版本实现对人人网的自动登录功能。HttpClient是一个流行的开源Java库,它允许开发者执行HTTP请求并处理响应,广泛应用于网络爬虫、自动化测试和...

    java实现模拟登录网站最全的资料

    7. **论坛资源**:`ITeye论坛.mht`文件可能包含了关于HttpClient的使用讨论,如`HTTPClient模拟登陆人人网`,这通常提供了实际项目中的示例和遇到的问题解决方案。 8. **MHT文件**:MHT是一种单一文件的网页存档...

    java 模拟登陆人人网

    在本文中,我们将深入探讨如何使用Java进行网页模拟登录,以人人网为例。模拟登录是一项常见的网络编程任务,常用于自动化测试、数据抓取或数据分析等场景。在Java中,我们可以利用HTTP客户端库如HttpURLConnection...

    松下AFPX-C38AT PLC控制双切刀三边封制袋机系统的伺服电机与温控程序解析

    内容概要:本文详细介绍了基于松下AFPX-C38AT PLC平台的双切刀三边封制袋机控制系统。该系统通过PLC控制四台伺服电机进行切刀和移刀动作以及二轴送袋定位,同时管理两台变频器实现主机和放料电机的同步调速,并利用WK8H模块进行16路温控输出。文中展示了具体的PLC编程实例,如伺服电机的DRVI指令、变频器的同步控制、温控模块的PID调节等。此外,还讨论了硬件配置、触摸屏界面设计、通信协议设置等方面的内容,强调了系统的灵活性和稳定性。 适合人群:从事工业自动化控制领域的工程师和技术人员,尤其是对PLC编程和伺服电机控制感兴趣的读者。 使用场景及目标:适用于需要深入了解PLC控制系统的开发人员,帮助他们掌握伺服电机控制、变频器同步调速和温控模块编程的具体方法,提高实际项目中的应用能力。 其他说明:文章不仅提供了详细的编程示例,还分享了许多实际调试的经验和技巧,有助于读者更好地理解和应用相关技术。

    计算机审计软件的特点与应用.pdf

    计算机审计软件的特点与应用.pdf

    离散傅里叶变换(DFT)分析-Discrete Fourier Transform (DFT) Analysis-matlab

    离散傅里叶变换(DFT)分析 函数[F,FT,Phase]=DFT(T,Signal,Fi,FF,Res,P,Cursor)计算离散傅里叶变换(DFT) 功能概述:离散傅立叶变换(DFT)分析 函数[F,FT,Phase]=DFT(T,Signal,Fi,FF,Res,P,Cursor)是频率域信号分析的通用工具。它在指定的频率范围内计算信号的离散傅立叶变换(DFT),提供可定制的可视化选项。 输入 T(采样时间向量,秒):表示与正在分析的信号样本相对应的时间点。 信号:您希望在频域中检查的数据集或信号。 FI(以赫兹为单位的初始频率):频率分析的起点。 FF(最终频率(Hz):频率分析范围的上限。 Res(分辨率以赫兹为单位):确定傅立叶变换的精度。较小的值会增加分辨率。 P(打印选项): 0:没有生成图。 1: 仅显示震级图。 2: 显示大小和相位图。 光标(在绘图上启用光标)(可选): 1: 当P不

    Matlab实现电转气协同与碳捕集的虚拟电厂优化调度系统

    内容概要:本文详细介绍了如何在Matlab中构建一个综合了垃圾焚烧、碳捕集和电转气(P2G)技术的虚拟电厂优化调度系统。该系统旨在通过合理的设备参数设置、多能流耦合约束以及分段碳价机制的目标函数设计,实现环保与经济效益的最大化。文中展示了具体的数学模型建立方法,如设备参数初始化、能量平衡约束、碳捕集与P2G物料平衡、分时碳成本计算等,并讨论了求解技巧,包括变量定义、求解器选择和约束条件处理等方面的内容。此外,还探讨了垃圾焚烧发电占比变化对P2G设备启停策略的影响,以及不同时间段内的最优调度策略。 适合人群:从事能源系统优化研究的专业人士,特别是那些熟悉Matlab编程并希望深入了解虚拟电厂调度机制的人群。 使用场景及目标:适用于希望提高虚拟电厂运行效率的研究机构或企业。通过本项目的实施,能够更好地理解如何整合多种能源技术,在满足电力供应需求的同时减少碳排放,降低成本。具体应用场景包括但不限于:制定更加科学合理的发电计划;评估新技术引入后的潜在效益;探索不同政策环境下的最佳运营模式。 其他说明:文中提到的一些关键技术点,如碳捕集与P2G的协同工作、垃圾焚烧发电的灵活应用等,对于推动清洁能源的发展具有重要意义。同时,作者也在实践中遇到了一些挑战,如约束条件之间的冲突等问题,并分享了解决这些问题的经验。

    栈的入栈和出栈.pdf

    入栈和出栈的基本操作

    V型永磁同步电机永磁体参数调整与优化技术解析及Maxwell仿真应用

    内容概要:本文详细探讨了V型永磁同步电机中永磁体参数调整的方法和技术,特别是在Maxwell软件中的应用。首先介绍了V型永磁体的关键参数(如V型夹角、磁钢厚度、极弧系数等)及其对电机性能的影响。接着讨论了利用Maxwell进行参数化建模、参数扫描、优化方法(如响应面法、多目标遗传算法)的具体步骤和注意事项。文中还提供了多个实用脚本,涵盖从几何建模、材料属性设置到求解器配置、后处理分析等多个方面。此外,强调了优化过程中应注意的问题,如退磁校验、磁密饱和、涡流损耗等,并给出了一些实战技巧。 适合人群:从事电机设计与仿真的工程师、研究人员,尤其是熟悉Maxwell软件的用户。 使用场景及目标:帮助用户掌握V型永磁同步电机永磁体参数调整的技术要点,提高电机性能指标(如降低齿槽转矩、减少谐波失真、优化转矩波动等)。通过实例和脚本指导,使用户能够在Maxwell中高效地完成仿真和优化任务。 其他说明:文章不仅提供了详细的理论解释,还包括大量实践经验分享和常见问题解决方案,有助于读者更好地理解和应用相关技术。

    光伏发电系统仿真:基于扰动观察法的最大功率点跟踪与储能控制策略

    内容概要:本文详细介绍了光伏发电系统的仿真建模及其控制策略。主要内容分为四个部分:首先是光伏发电系统仿真模型的搭建,通过数学公式和Python代码实现了太阳电池特性的模拟;其次,探讨了扰动观察法(PO)作为最大功率点跟踪(MPPT)的方法,展示了其实现逻辑和代码示例;第三部分讨论了带储能控制策略的设计,利用状态机管理储能系统的充放电过程,确保电力供应平稳;最后进行了负载突变验证实验,评估了系统在极端条件下的稳定性和可靠性。通过这些步骤,作者不仅解释了理论背景,还提供了具体的实现细节和技术挑战。 适合人群:对光伏发电系统感兴趣的研究人员、工程师以及相关领域的学生。 使用场景及目标:适用于希望深入了解光伏发电系统工作原理的人群,尤其是关注最大功率点跟踪技术和储能控制系统设计的应用开发者。目标是帮助读者掌握光伏系统仿真的关键技术,为实际项目提供理论支持和技术指导。 其他说明:文中提供的代码片段可以直接用于实验环境,便于读者动手实践。此外,针对可能出现的问题如耦合振荡等,给出了相应的解决方案。

    电机设计中8极48槽辐条型转子桥参数化建模与优化(基于Maxwell)

    内容概要:本文详细介绍了8极48槽辐条型电机转子桥的参数化建模方法及其优化过程。通过将桥的厚度、过渡圆弧半径和倒角角度作为变量进行参数化处理,利用Maxwell软件实现了自动化仿真和优化。文中展示了具体的Python和VBScript代码示例,用于动态调整桥部尺寸并监控磁密分布,最终通过参数扫描找到最佳设计参数组合,显著降低了磁密峰值和扭矩波动,提高了电机的整体性能。 适合人群:从事电机设计与仿真的工程师和技术人员,尤其是熟悉Maxwell软件的用户。 使用场景及目标:适用于需要优化电机转子桥结构的设计项目,旨在提高电机性能,降低磁密峰值和扭矩波动,确保机械强度的同时提升电磁性能。 其他说明:文章提供了详细的代码示例和操作步骤,帮助读者快速掌握参数化建模技巧,并强调了网格设置和多参数联动优化的重要性。

    风电调频并网系统中高效仿真的4机2区模型及其PSS模式应用

    内容概要:本文详细介绍了用于风电调频并网系统的4机2区模型,该模型能够在短时间内完成长时间跨度的仿真,极大提高了科研和工程分析的效率。文中具体阐述了模型的结构特点,包括两个区域内的发电机组分布、连接方式以及风电场的虚拟惯量控制机制。此外,文章深入解析了四种PSS(电力系统稳定器)模式的工作原理及其在不同工况下的表现,特别是针对风电接入带来的低频振荡问题进行了讨论。通过实例展示了PSS模式对系统稳定性的显著提升效果,并分享了一些实用的调参技巧。 适合人群:从事电力系统仿真、风电并网研究的专业技术人员及高校相关专业师生。 使用场景及目标:适用于需要进行大规模风电调频并网系统仿真的场合,旨在帮助研究人员更好地理解和解决风电接入对电网稳定性的影响,优化风电并网友好度。 其他说明:文章不仅提供了理论分析,还包括具体的Python和Matlab代码示例,便于读者理解和实践。同时强调了在高风电渗透率条件下选择合适PSS模式的重要性。

    LabVIEW Excel工具包:高效自动化生成带格式测试报告的方法与技巧

    内容概要:本文详细介绍了如何使用LabVIEW的Excel工具包来高效生成带有特定格式的测试报告。首先,准备一个Excel模板文件,设置好表头样式、公司LOGO和合并单元格,并用特殊标记占位。然后,通过LabVIEW代码进行Excel操作,如初始化Excel应用、打开和复制模板文件、写入测试数据、设置条件格式、调整列宽以及保存和关闭文件。文中强调了使用二维数组批量写入数据、条件格式设置超标数据标红、精确控制列宽、避免文件覆盖等问题。此外,还提到了一些常见问题及其解决方案,如Excel进程卡死、数据错位等。最终,通过这些方法可以将原本复杂的报告生成过程大幅简化,提高工作效率。 适合人群:熟悉LabVIEW编程的工程师和技术人员,尤其是从事自动化测试和数据分析工作的人员。 使用场景及目标:适用于需要频繁生成格式一致的测试报告的场景,如汽车电子测试、环境监测等领域。目标是通过LabVIEW的Excel工具包实现自动化、高效的报告生成,节省时间和精力。 阅读建议:读者可以通过本文学习如何利用LabVIEW的Excel工具包快速生成带格式的测试报告,掌握关键技术和最佳实践,从而提升工作效率。同时,在实践中应注意模板的设计和代码的优化,以应对各种复杂的需求变化。

    main (4).ipynb

    main (4).ipynb

    计算机数学基础(下).pdf

    计算机数学基础(下).pdf

    基于MATLAB的多智能体系统一致性算法在电力系统分布式经济调度中的应用

    内容概要:本文详细介绍了如何利用MATLAB实现基于多智能体系统一致性算法的电力系统分布式经济调度策略。首先,通过构建邻接矩阵生成函数,处理电网拓扑结构,确保每个节点能够正确获取邻居信息。接着,定义发电机成本函数和负荷效用函数,将两者统一为二次函数形式,以便更好地兼顾发电侧和用电侧的经济性。然后,重点展示了核心的一致性迭代算法,通过拉普拉斯矩阵实现信息扩散,使发电机和负荷之间的增量成本和效益逐步趋于一致。此外,文中还提供了具体的测试案例,包括10台发电机和19个柔性负荷组成的系统,展示了算法的高效性和鲁棒性。最后,强调了通信拓扑设计对收敛速度的影响,并分享了一些调试经验和潜在的应用前景。 适合人群:电力系统研究人员、自动化控制工程师、MATLAB开发者以及对分布式优化算法感兴趣的学者。 使用场景及目标:适用于电力系统经济调度的研究与开发,旨在提高调度效率、降低成本的同时保障系统的稳定性。通过分布式算法替代传统的集中式调度方式,增强系统的隐私保护能力和计算效率。 其他说明:文中提供的MATLAB代码不仅可用于学术研究,还可以进一步应用于实际工程项目中,特别是在含有大量新能源接入的现代电力系统中,展现出更大的优势。

    计算机数控装置课件.pdf

    计算机数控装置课件.pdf

    机器人路径规划中RRT算法的优化与改进方案

    内容概要:本文详细介绍了RRT(快速扩展随机树)路径规划算法的多个优化方法及其具体实现。首先指出原始RRT存在的缺陷,如路径质量差、计算时间长等问题。然后提出了一系列改进措施,包括目标偏向采样、自适应步长控制、路径平滑处理以及椭圆约束采样等。每个改进都附有具体的Python代码片段,并解释了其实现思路和技术细节。此外,文中还讨论了不同改进方案之间的协同使用效果,强调了实际应用中的注意事项。 适合人群:从事机器人路径规划研究的技术人员,尤其是有一定编程基础并希望深入了解RRT算法优化的人群。 使用场景及目标:适用于各种需要高效路径规划的应用场合,如仓储机器人、无人机避障、机械臂运动规划等。主要目标是提高路径规划的速度和质量,同时减少计算资源消耗。 其他说明:尽管这些改进显著提升了RRT的表现,但在实际部署时仍需考虑传感器噪声和系统延迟等因素的影响。作者分享了许多个人实践经验,为读者提供了宝贵的参考。

    计算机试题实例分析.pdf

    计算机试题实例分析.pdf

    基于PLC的自动门禁系统设计与实现:三菱FX3U系列的应用实例

    内容概要:本文详细介绍了利用三菱FX3U系列PLC构建自动门禁系统的全过程。首先阐述了硬件配置方案,包括选用三菱FX3U-32MT作为主控制器,配备多种传感器如红外对射、地磁以及防夹传感器等,并采用适当的执行机构进行门的开闭控制。接着深入解析了梯形图逻辑的设计,涵盖基本开闭逻辑、安全回路设计、滤波处理等方面的内容。文中特别强调了几个关键技术点,如通过定时器控制门的开启时间和防夹保护措施,解决了红外传感器误触发的问题,并引入了GX Works2模拟器用于程序调试。此外,还讨论了如何通过RS485通信接口实现身份验证模块的联网功能及其故障转移机制。最后,作者分享了一些实用的经验教训,例如避免信号干扰的方法和确保系统稳定性的冗余设计。 适合人群:从事自动化控制领域的工程师和技术人员,尤其是对PLC编程有一定基础的人群。 使用场景及目标:适用于需要构建高效可靠的自动门禁系统的场合,旨在提高门禁系统的安全性、可靠性和智能化水平。 其他说明:文中提到的具体案例和解决方案可以为类似项目的实施提供宝贵的参考价值。同时,作者还提供了许多调试技巧和注意事项,有助于读者更好地理解和应用所学知识。

Global site tag (gtag.js) - Google Analytics