有强大的cURL,忘掉httpclient的吧!
这段时间想做一个网页采集的程序,由于一网站采用了防采集的办法,我的httpclient总是在登录后无法获取到我想要过去的链接。在无数次的跟踪过后发现原来人家给返回的是javascript拼成的页面,而且其中包含了frameset,期间嵌套好多frame。由于httpclient的 getResonseBody仅仅只能得到服务器端而不能将它进一步做解析和执行。期间到时尝试想进一步将返回的js代码模拟浏览器执行,但是,突然想起 php的cURL 模块很是强大,它就可以直接拿回来。所以就想是否尝试cURL是否会很简单哪?
安装cURL
Java代码
1. yum install curl curl-devle
yum install curl curl-devle
下载libcurl的java绑定
http://curl.haxx.se/libcurl/java/
配置和编译java-libcurl
Java代码
1. gunzip curl-java-0.2.2.tar.gz
2. tar xvf curl-java-0.2.2.tar
3. cd curl-java-0.2.2
4. make
gunzip curl-java-0.2.2.tar.gz
tar xvf curl-java-0.2.2.tar
cd curl-java-0.2.2
make
注意,在linux下会生成相应的javacurl库文件以及一些需要用到的java类源文件。不过注意在编译的时候把MakeFile中的路径都配置到你安装的目录中哦。
windows下要编译成dll文件。在eclipse环境中要将dll文件放在WINDOWS/system32或者按照你的目录标准重写头文件,然后执行编译。否则会给出java.lang.UnsatisfiedLinkError的错误。
有关该错误,可见偶们强大的JEr的讨论,帖子在:
http://www.iteye.com/topic/58461?page=2
因为,在libcurl-java中的源文件中有
Java代码
1. try {
2. // Loading up the shared JNI
3. System.loadLibrary("javacurl");
4. } catch (Exception e) {
5. e.printStackTrace();
6. }
try {
// Loading up the shared JNI
System.loadLibrary("javacurl");
} catch (Exception e) {
e.printStackTrace();
}
相关windows环境下已经编译好的包下载地址在:
http://www.gknw.de/mirror/curl/curl_java/
然后,执行curl-java-0.2.2包中的test.java文件(可以将里面的url,改成你想登入的顽固网站)
你是否看见你它贴心的给你返回你想要的东西了呢?
如果用ruby,python或者perl的话,也是只需安装他们的libcurl绑定模块即可,然后在你的世界畅游吧。
2
顶
3
踩
分享到:
相关推荐
预览链接(http://wfhuang.coding.me/LoveJuan/)提供了对这个表白神器的实际效果演示,可以看到一个充满爱意且互动性强的界面。 【知识点详解】 1. **HTML**:HTML (HyperText Markup Language) 是构建网页的基础...
C2000,28335Matlab Simulink代码生成技术,处理器在环,里面有电力电子常用的GPIO,PWM,ADC,DMA,定时器中断等各种电力电子工程师常用的模块儿,只需要有想法剩下的全部自动代码生成, 电源建模仿真与控制原理 (1)数字电源的功率模块建模 (2)数字电源的环路补偿器建模 (3)数字电源的仿真和分析 (4)如何把数学控制方程变成硬件C代码; (重点你的想法如何实现)这是重点数字电源硬件资源、软件设计、上机实验调试 (1) DSP硬件资源; (2)DSP的CMD文件与数据的Q格式: (3) DSP的C程序设计; (4)数字电源的软件设计流程 (5)数字电源上机实验和调试(代码采用全中文注释)还有这个,下面来看看都有啥,有视频和对应资料(S代码,对应课件详细讲述传递函数推倒过程。
OpenArk64-1.3.8beta版-20250104,beta版解决Windows 11 23H2及以上进入内核模式,查看系统热键一片空白的情况
java面向对象程序设计实验报告
基于springboot的校园台球厅人员与设备管理系统--论文.zip
【创新无忧】基于matlab蜣螂算法DBO优化极限学习机KELM故障诊断【含Matlab源码 10720期】.zip
基于springboot的数码论坛系统设计与实现--论文.zip
基于springboot的生鲜超市管理的设计与实现.zip
内容概要:本文针对污水再生全流程中首端处理单元——AO除磷工艺展开了详尽研究。首先介绍了当前国内水资源现状以及传统污水处理面临的挑战。基于这些挑战,研究人员提出了将A/O除磷与厌氧氨氧化相结合的新思路,并详细讨论了如何通过调控运行参数(如好氧段DO浓度、污泥负荷率等)来提升TP和COD的去除效果。文章强调在不牺牲氨氮浓度的前提下实现了高效低成本的除磷及有机物去除。同时利用DGGE技术探究了系统内的微生物群落结构,验证氨氧化细菌和亚硝化细菌在短泥龄条件下被淘汰的情况。 适合人群:从事污水处理技术研究的专业人士或对生物处理工艺感兴趣的环保工程师、科研人员。 使用场景及目标:①为改善传统污水处理工艺中存在的同步脱氮除磷难题提供解决方案;②探讨A/O除磷单元与其他处理单元组合时的设计考量和性能评估方法。 其他说明:本研究不仅有助于深入了解AO工艺背后的科学原理和技术难点,也为后续自养脱氮环节准备了合适的进水条件,促进了整个城市污水处理链条的技术进步和发展方向探索。
返岗证明模板.docx
arcgis矢量shp格式白城市地图
航天新征程航天发展历程介绍弘扬载人航天精神ppt
Yufeng-lidar
资源描述: HTML5实现好看的律师法律服务网站模板,好看的律师法律服务网站模板源码,律师法律服务网站模板,HTML律师法律服务网站模板源码,内置酷炫的动画,界面干净整洁,页面主题,全方位介绍内容,可以拆分多个想要的页面,可以扩展自己想要的,注释完整,代码规范,各种风格都有,代码上手简单,代码独立,可以直接运行使用。也可直接预览效果。 资源使用: 点击 index.html 直接查看效果
【创新无忧】基于matlab哈里斯鹰算法HHO优化极限学习机KELM故障诊断【含Matlab源码 10697期】.zip
【C#】基于C#的消息队列服务产品中间件
【创新无忧】基于matlab布谷鸟算法CS优化极限学习机KELM故障诊断【含Matlab源码 10691期】.zip
直连设备(单片机)端token自动计算(micropython)
基于springboot的书籍学习平台--论文.zip
档案材料归档移交目录表.docx