HttpClient抓不到数据问题 - 程序人生 - ITeye博客

`

chenfeng0104

浏览: 599339 次
性别:
来自: 上海

最近访客更多访客>>

chen88358323

fantao005x

botao99284

JiefzzLon

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

u012136165： list 方法:纠正：[2,5].add(1,9) ...
Groovy的list和map
bruce.yuan：误人子弟的文章。已经看到N个人转了这个帖子，这要贻害多少新人啊 ...
理解并解决GBK转UTF-8奇数中文乱码
思念-悲伤：特意登录上来，感谢下！
理解String的compareTo()方法返回值
bo_hai：总结的好，有效。
理解String的compareTo()方法返回值
u012678420：
在onCreate方法中获取某个View的宽度和高度

HttpClient抓不到数据问题

博客分类：

问题与解决

Windows Firefox

阅读更多

昨天用HttpClient抓取页面，在我本地可以抓取，但是到了上线后有时候可以抓到，有时候抓不到，抓不到提示信息：“淘宝网--对不起，您访问的页面不存在”。而且状态码返回200（注意：状态码不是跳转）。
最后确定是线上访问量太多，被当成爬虫过滤了，加上user-agent就OK了。

HttpClient client = new HttpClient(new MultiThreadedHttpConnectionManager());
client.getParams().setParameter(HttpMethodParams.USER_AGENT,"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13");

分享到：

JS判断浏览器类型 | 页面显示时间

2011-01-19 19:00
浏览 1709
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

HttpClient工具类: - HttpClient的请求和响应可以通过抓包工具（如Wireshark、Fiddler）进行捕获和分析，帮助开发者调试网络问题。 6. **百度LBS云集成** - 如果项目中使用了百度LBS云服务，HttpClient可以帮助发送请求到百度的API...

网络抓包java源码，可实现抓包、分析和还原: 抓到的数据包通常包含原始的二进制数据，我们需要解析这些数据来理解其内容。这涉及到对各种网络协议（如TCP、UDP、HTTP等）的理解。对于常见的应用层协议，可以使用已有的解析库，如`httpclient`库解析HTTP包，`...

java抓包程序jsoup实例: Java抓包程序是一个用于捕获和分析网络数据流的工具，通常用于开发、调试和测试网络应用程序。在本例中，我们关注的是使用Jsoup库进行网页数据抓取的实践应用。Jsoup是一个非常强大的Java库，它允许开发者解析HTML...

Charles_N：HTTP请求响应监听工具: 4. **为何抓包后部分数据显示为乱码？** - 在“Raw”模式下查看数据包，该模式显示原始数据，通常不会因编码问题导致乱码。 5. **为何使用某些浏览器（如360、Chrome）时无法抓取数据？** - 确认这些浏览器是否...

SSD8练习一: 同时，调试和分析网络通信问题的能力也是不可或缺的，可以借助Wireshark等网络抓包工具来查看和分析通信过程。通过这个练习，学生不仅可以深化对网络编程的理解，还能提升实际操作和问题解决能力，为后续更复杂的...

用ACCESS数据库保存内容的网页爬虫: 接下来，我们要讨论如何将抓取的数据存储到ACCESS数据库。在C#中，可以使用ADO.NET库来操作数据库。首先，我们需要创建数据库连接字符串，指定数据库的路径和认证信息。然后，通过SqlConnection对象建立与数据库的...

java抓取新闻抓新闻抓网站新闻: 如果遇到批处理文件的问题，可能是因为批处理脚本（通常为.bat文件）中的某些指令与你的系统配置不兼容或者有语法错误。你可以直接运行jar文件，避免依赖批处理。关于抓取其他网站的新闻，你需要根据目标网站的...

3.（地图数据篇）高德地图、google、openstreenmap地图瓦片数据爬取--java代码.zip: 4. **图片处理**：接收到的瓦片图片通常为PNG格式，可能需要进一步处理，如合并多张瓦片形成完整的地图视图，或者保存到本地文件系统。`Screenshot-d501f79e-2dff-4c60-b204-ea47bf0b2dd7.png`可能是爬取的示例瓦片...

JAVA网络爬虫用到的JAR包，很全的的喔: 11. 异常处理与日志记录：良好的异常处理机制和日志记录是任何复杂系统不可或缺的部分，它们帮助开发者定位和解决问题。 12. 防止重复抓取：通过哈希函数或数据库记录已抓取URL，可以防止爬虫重复抓取同一个网页。 ...

C#模拟登录蜘蛛抓取.zip: 6. **安全考虑**：模拟登录时要注意遵守网站的robots.txt规范，避免对服务器造成过大压力，同时应尊重网站的隐私政策，不进行非法抓取。此外，对于需要处理敏感信息（如密码）的情况，应当使用安全的方式，如HTTPS...

W5500例程合集TCP Client.7z: 9. **调试技巧**：学习如何使用示例程序进行调试，如使用网络分析工具抓包、查看日志输出等，以解决实际开发中遇到的问题。 10. **移植性**：虽然示例基于STM32，但其基本的TCP客户端实现思路可适用于其他基于ARM...

抓书狂示例代码: 【抓书狂示例代码】是一个使用C#编程语言在Visual Studio 2005（VS2005）环境中开发的网页爬虫程序。这个项目的目标是展示如何从网络上抓取书籍信息，可能是为了建立一个图书数据库、进行数据分析或是其他相关应用。...

C#基础爬虫研究-抓学院新闻列表和内容: 1. 将抓取到的数据存储到本地文件或数据库中，便于后续分析和使用。 2. 可以选择在控制台输出，或者使用更复杂的UI展示，如WPF或Windows Forms应用程序。在整个过程中，需要注意以下几点： - 遵守网站的Robots协议...

无需注入,远程拦截_发送,send和WSASend发包.zip: 在不使用注入的情况下进行远程拦截，可能需要创建一个中间代理服务器，该服务器接收来自客户端的请求，然后转发到目标服务器，同时记录或修改发送的数据。C#中的Socket类或者HttpClient类可以用来创建这样的代理...

抓网页有关函数: 2. **打开连接并获取输入流**：`ur.openStream()` 打开到该URL的连接，并返回一个输入流，用于读取服务器响应的数据。 3. **创建BufferedReader对象**：`new BufferedReader(new InputStreamReader(instr))` 创建一...

QQ空间农场分析C#核心源码: 3. **POST摘取不成功.txt**: 这可能是指尝试获取或解析POST请求数据时遇到的问题。POST请求通常用于向服务器发送数据，如登录信息、用户操作等。如果不能成功摘取，可能是由于加密、认证问题或请求格式不正确。 4. ...

android POST数据遇到的UTF-8编码（乱码）问题解决办法: 首先，问题的根源在于客户端发送的数据未指定正确的字符编码，导致服务器在接收到数据并尝试以UTF-8格式解码时出现错误。在示例中，字符“·”（MIDDLE DOT，Unicode U+00B7）在UTF-8编码下应为"C2 B7"，但在ISO-...

网络爬虫的原理: 前段日子，看到有人利用爬到了腾讯 3000 万 QQ 数据，包含（QQ 号，昵称，空间名称，会员级别，头像，最新一条说说内容，最新说说的发表时间，空间简介，性别，生日，所在省份，城市，婚姻状况）的详细数据，并绘制...

安卓QQ相关相关-Android中实现帐号密码登录和进行内存缓存逻辑仿QQ.rar: 4. **头像及其他静态资源**：对于不经常变动的资源，如用户头像，可以先加载到内存，避免每次显示时都重新下载。实现这些缓存策略，可以使用Android的`WeakReference`或`SoftReference`来存储对象，避免内存泄漏。...

网页抓取教程.zip: 9. **爬虫伦理与法规**：遵循robots.txt协议，尊重网站的抓取规则，不进行非法或商业敏感数据的抓取，以免触犯法律。 10. **Android应用中的网页抓取**：在Android环境中，可以使用OkHttp等库进行网络请求，结合...

Global site tag (gtag.js) - Google Analytics