爬虫抓取UserAgent问题 - ttitfly的笔记 - ITeye博客

`

ttitfly

浏览: 626559 次
性别:
来自: 杭州

最近访客更多访客>>

xubbsun

xuwenyan

u011158808

zws

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xianzi_2008： xianzi_2008 写道楼主请教下，我缓存了一个List& ...
Ehcache
xianzi_2008：楼主请教下，我缓存了一个List<Bean>对象， ...
Ehcache
jsdsh：收藏好.五个字
hibernate之one-to-many详细
Tlife：好！！！！
hibernate------HQL总结
yanqingluo：例子很恰当。
观察者模式

爬虫抓取UserAgent问题

博客分类：

爬虫技术

.net XML Google

阅读更多

爬虫抓取问题：

cpp 代码

wget http://www.bokee.net/alisoubao/rss2.xml

这个地址抓取的内容为以前很老的内容。
同样用java写的爬虫程序抓取的内容和用wget抓取的内容一样。

而用

cpp 代码

curl http://www.bokee.net/alisoubao/rss2.xml

抓取的内容则是最新的。

感觉很奇怪。后来在google搜索了一下 wget的参数，最后用

cpp 代码

wget --user-agent=AGENT http://www.bokee.net/alisoubao/rss2.xml

来抓取，抓取的内容是最新的，和用curl抓取的是一样的。

原因是因为：
--user-agent=AGENT 加了这个参数的意思是设定代理的名称为 AGENT而不是默认的 Wget/VERSION.

可见bokee网对user-agent为AGENT的请求进行了过滤。

同理：
检查java写的爬虫程序里,请求时带的user-agent里含有crawler
所以bokee网也应该对crawler的user-agent进行了过滤。

解决办法：把user-agent的值改写即可。

分享到：

java基本知识备注 | 用PowerDesigner设计数据库

2007-10-16 16:27
浏览 2432
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Java爬虫信息抓取.pdf: - 处理异常和错误：确保爬虫在遇到网络问题或解析错误时能够妥善处理。七、使用Jsoup进行网页信息抓取步骤示例： 1. 引入Jsoup库到项目中。 2. 使用Jsoup.connect()方法建立连接。 3. 配置必要的请求参数，如数据...

fake_useragent.zip: 这个工具的主要作用是帮助开发人员在进行网络爬虫或者自动化测试时，避免被目标网站识别为机器人，从而提高数据抓取的成功率。在给定的压缩包文件"fake_useragent.zip"中，包含了一个名为"fake_useragent.json"的...

Python-fakeuseragent伪装浏览器身份常用于爬虫: `fake-useragent`库是这样一种工具，它能帮助我们生成看似来自各种真实浏览器的User-Agent字符串，使爬虫在抓取网页时更具有隐蔽性。 `fake-useragent`库的核心功能在于其`ua.random`方法，该方法能够返回一个随机...

UserAgent.txt: 爬虫程序通常模仿浏览器进行网络数据抓取。为了更有效地进行抓取，爬虫会设置一个用户代理字符串，使得服务器难以分辨其真伪。在给定文件“UserAgent.txt”中，列出了多个不同的用户代理字符串，这些字符串代表了...

给定公司名称excel列表在天眼查搜索爬取企业工商信息.pdf: 1. 打开浏览器：创建一个`PhantomJS`驱动器实例，设置`useragent`和可能的IP代理（如果有）。然后，我们需要获取网页源代码。`get_content()`函数接收URL和加载等待时间，打开浏览器访问URL，等待JavaScript加载，...

01.爬虫概述1: 4. 存储数据：爬虫抓取的数据通常被存储在本地文件系统、数据库或云存储中，供后续分析或处理。 5. 遵守规则：在爬取过程中，爬虫应尊重网站的Robots协议（robots.txt），这是一个文件，指示爬虫哪些页面可以抓取，...

PyPI 官网下载 | alt_fake_useragent-0.2.1-py3-none-any.whl: 总结来说，alt_fake_useragent是一个实用的Python库，它简化了生成随机用户代理字符串的过程，对于需要进行网络请求的Python项目，特别是涉及Web抓取和自动化测试的场景，alt_fake_useragent是一个不可或缺的工具。...

京东评论爬虫，包含对数据的采集、清理、可视化、分析等过程，作为数据库课程设计项目.zip: 京东评论爬虫，包含对数据的采集、清理、可视化、分析等过程，作为数据库课程设计项目京东爬虫抓取评论的关键字用户ID评论内容级别点赞数響数评价星级购买时间手机型号抓取原理分析京东评论界面数据来源及url规律...

爬虫程序Demo: 在Demo中，可能会讲解如何使用第三方库如fake_useragent来伪装浏览器，或者使用Selenium进行动态内容的抓取。对于需要登录才能访问的网站，可能还会涉及requests库与BeautifulSoup结合实现模拟登录的示例。数据...

HttpWebRequest爬虫: 在IT行业中，网络爬虫是一种自动化程序，用于从互联网上抓取信息，通常是网页内容。在C#编程语言中，我们可以使用.NET Framework提供的HttpWebRequest类来实现基础的爬虫功能。这个类允许我们向服务器发送HTTP请求并...

爬虫系列一次采集.NET WebForm网站的坎坷历程.docx: 【描述分析】：描述简述了作者需要通过爬虫获取人员的工号信息，但由于某些原因无法直接访问数据库，因此选择了编写工具自动登录并抓取数据。ASP.NET WebForm网站的采集难度相对较高，与RESTful风格的网站相比，其...

weibo_spider_爬虫python_关键词爬虫_python_python爬虫_spider_源码.rar: 2. **HTML解析**：爬虫抓取的通常是HTML格式的网页，需要解析这些数据以提取所需信息。BeautifulSoup库可以帮助我们解析HTML文档，找到特定的元素和数据。 3. **正则表达式**：在解析HTML时，正则表达式（regex）常...

爬虫依赖包: 在IT行业中，爬虫是一种广泛使用的工具，用于自动地遍历和抓取互联网上的信息。爬虫依赖包指的是实现爬虫功能所必需的各种Python库和模块。这些包可以帮助开发者高效、便捷地完成网页数据的抓取、解析和存储。下面...

Mojo-UserAgent-角色排队：Mojo :: UserAgent的角色，用于处理限速队列中的非阻塞请求: 在IT领域，网络爬虫和数据抓取是常见的任务，而`Mojo::UserAgent`是Perl语言中一个强大的HTTP客户端库，它为构建高效、非阻塞的Web客户端提供了便利。`Mojo::UserAgent::Role::Queued`正是这样一个扩展，用于处理...

pyhton爬虫+学习资料: 在抓取数据前，应确保遵守网站的robots.txt文件规定，尊重网站的爬虫政策，并遵循数据隐私法律法规。不要滥用爬虫，避免对目标网站造成过大的访问压力。总的来说，Python爬虫涉及到的知识点包括但不限于网络请求、...

Python爬虫部分安装库.zip: 本资源包"Python爬虫部分安装库.zip"针对的是Python爬虫开发中的库安装问题，尤其对于初学者或者在官方源下载速度较慢的地区非常有用。主要包含的库版本为3.8.1，同时也提供了一个快速下载链接，涵盖多种Python版本...

Python爬虫入门必会: Python爬虫技术是数据挖掘和自动化网页信息抓取的重要手段，尤其对于数据分析、市场研究以及网站监控等领域具有广泛的应用。本文将系统地介绍编写Python爬虫所涉及的基础知识，包括爬虫工作原理、反爬机制、...

python爬虫学习经历-PythonSpider.zip: 5. **解析库**：爬虫抓取到的数据通常是HTML或XML格式，因此需要解析工具来提取有用信息。BeautifulSoup和lxml是两个广泛使用的HTML解析库，它们可以帮助我们解析和导航DOM树，查找和提取特定元素。 6. **数据存储*...

c#网页爬虫采集html: 在IT领域，网页爬虫是一种自动化程序，用于从互联网上抓取信息，通常是HTML文档。在C#中，我们可以利用各种库和工具来构建这样的爬虫。本篇将深入探讨如何使用C#进行网页爬虫开发，特别是针对HTML内容的采集。首先...

Global site tag (gtag.js) - Google Analytics