`

HttpClient抓不到数据问题

阅读更多

昨天用HttpClient抓取页面,在我本地可以抓取,但是到了上线后有时候可以抓到,有时候抓不到,抓不到提示信息:“淘宝网--对不起,您访问的页面不存在”。而且状态码返回200(注意:状态码不是跳转)。
最后确定是线上访问量太多,被当成爬虫过滤了,加上user-agent就OK了。

 

HttpClient client = new HttpClient(new MultiThreadedHttpConnectionManager());
client.getParams().setParameter(HttpMethodParams.USER_AGENT,"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13");
 
分享到:
评论

相关推荐

    HttpClient工具类

    - HttpClient的请求和响应可以通过抓包工具(如Wireshark、Fiddler)进行捕获和分析,帮助开发者调试网络问题。 6. **百度LBS云集成** - 如果项目中使用了百度LBS云服务,HttpClient可以帮助发送请求到百度的API...

    网络抓包java源码,可实现抓包、分析和还原

    抓到的数据包通常包含原始的二进制数据,我们需要解析这些数据来理解其内容。这涉及到对各种网络协议(如TCP、UDP、HTTP等)的理解。对于常见的应用层协议,可以使用已有的解析库,如`httpclient`库解析HTTP包,`...

    java抓包程序jsoup实例

    Java抓包程序是一个用于捕获和分析网络数据流的工具,通常用于开发、调试和测试网络应用程序。在本例中,我们关注的是使用Jsoup库进行网页数据抓取的实践应用。Jsoup是一个非常强大的Java库,它允许开发者解析HTML...

    Charles_N:HTTP请求响应监听工具

    4. **为何抓包后部分数据显示为乱码?** - 在“Raw”模式下查看数据包,该模式显示原始数据,通常不会因编码问题导致乱码。 5. **为何使用某些浏览器(如360、Chrome)时无法抓取数据?** - 确认这些浏览器是否...

    SSD8练习一

    同时,调试和分析网络通信问题的能力也是不可或缺的,可以借助Wireshark等网络抓包工具来查看和分析通信过程。 通过这个练习,学生不仅可以深化对网络编程的理解,还能提升实际操作和问题解决能力,为后续更复杂的...

    用ACCESS数据库保存内容的网页爬虫

    接下来,我们要讨论如何将抓取的数据存储到ACCESS数据库。在C#中,可以使用ADO.NET库来操作数据库。首先,我们需要创建数据库连接字符串,指定数据库的路径和认证信息。然后,通过SqlConnection对象建立与数据库的...

    java抓取新闻 抓新闻 抓网站新闻

    如果遇到批处理文件的问题,可能是因为批处理脚本(通常为.bat文件)中的某些指令与你的系统配置不兼容或者有语法错误。你可以直接运行jar文件,避免依赖批处理。 关于抓取其他网站的新闻,你需要根据目标网站的...

    3.(地图数据篇)高德地图、google、openstreenmap地图瓦片数据爬取--java代码.zip

    4. **图片处理**:接收到的瓦片图片通常为PNG格式,可能需要进一步处理,如合并多张瓦片形成完整的地图视图,或者保存到本地文件系统。`Screenshot-d501f79e-2dff-4c60-b204-ea47bf0b2dd7.png`可能是爬取的示例瓦片...

    W5500例程合集TCP Client.7z

    9. **调试技巧**:学习如何使用示例程序进行调试,如使用网络分析工具抓包、查看日志输出等,以解决实际开发中遇到的问题。 10. **移植性**:虽然示例基于STM32,但其基本的TCP客户端实现思路可适用于其他基于ARM...

    JAVA网络爬虫用到的JAR包,很全的的喔

    11. 异常处理与日志记录:良好的异常处理机制和日志记录是任何复杂系统不可或缺的部分,它们帮助开发者定位和解决问题。 12. 防止重复抓取:通过哈希函数或数据库记录已抓取URL,可以防止爬虫重复抓取同一个网页。 ...

    C#模拟登录蜘蛛抓取.zip

    6. **安全考虑**:模拟登录时要注意遵守网站的robots.txt规范,避免对服务器造成过大压力,同时应尊重网站的隐私政策,不进行非法抓取。此外,对于需要处理敏感信息(如密码)的情况,应当使用安全的方式,如HTTPS...

    抓书狂示例代码

    【抓书狂示例代码】是一个使用C#编程语言在Visual Studio 2005(VS2005)环境中开发的网页爬虫程序。这个项目的目标是展示如何从网络上抓取书籍信息,可能是为了建立一个图书数据库、进行数据分析或是其他相关应用。...

    C#基础爬虫研究-抓学院新闻列表和内容

    1. 将抓取到的数据存储到本地文件或数据库中,便于后续分析和使用。 2. 可以选择在控制台输出,或者使用更复杂的UI展示,如WPF或Windows Forms应用程序。 在整个过程中,需要注意以下几点: - 遵守网站的Robots协议...

    抓网页有关函数

    2. **打开连接并获取输入流**:`ur.openStream()` 打开到该URL的连接,并返回一个输入流,用于读取服务器响应的数据。 3. **创建BufferedReader对象**:`new BufferedReader(new InputStreamReader(instr))` 创建一...

    QQ空间农场分析C#核心源码

    3. **POST摘取不成功.txt**: 这可能是指尝试获取或解析POST请求数据时遇到的问题。POST请求通常用于向服务器发送数据,如登录信息、用户操作等。如果不能成功摘取,可能是由于加密、认证问题或请求格式不正确。 4. ...

    android POST数据遇到的UTF-8编码(乱码)问题解决办法

    首先,问题的根源在于客户端发送的数据未指定正确的字符编码,导致服务器在接收到数据并尝试以UTF-8格式解码时出现错误。在示例中,字符“·”(MIDDLE DOT,Unicode U+00B7)在UTF-8编码下应为"C2 B7",但在ISO-...

    网络爬虫的原理

    前段日子,看到有人利用爬到了腾讯 3000 万 QQ 数据,包含(QQ 号,昵称,空间名称,会员级别,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市,婚姻状况)的详细数据,并绘制...

    安卓QQ相关相关-Android中实现帐号密码登录和进行内存缓存逻辑仿QQ.rar

    4. **头像及其他静态资源**:对于不经常变动的资源,如用户头像,可以先加载到内存,避免每次显示时都重新下载。 实现这些缓存策略,可以使用Android的`WeakReference`或`SoftReference`来存储对象,避免内存泄漏。...

    网页抓取教程.zip

    9. **爬虫伦理与法规**:遵循robots.txt协议,尊重网站的抓取规则,不进行非法或商业敏感数据的抓取,以免触犯法律。 10. **Android应用中的网页抓取**:在Android环境中,可以使用OkHttp等库进行网络请求,结合...

    WinForm实现网络爬虫

    在IT领域,网络爬虫是一种自动化程序,用于从互联网上抓取大量数据,通常用于数据分析、搜索引擎索引或监控特定网站的变化。在这个项目中,我们将探讨如何使用WinForm这一Windows应用程序开发框架来实现一个简单的...

Global site tag (gtag.js) - Google Analytics