`
ttitfly
  • 浏览: 623863 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

爬虫抓取UserAgent问题

阅读更多

爬虫抓取问题:

cpp 代码
  1. wget http://www.bokee.net/alisoubao/rss2.xml  


这个地址抓取的内容为以前很老的内容。
同样用java写的爬虫程序抓取的内容和用wget抓取的内容一样。

而用

cpp 代码
  1. curl http://www.bokee.net/alisoubao/rss2.xml  

抓取的内容则是最新的。

感觉很奇怪。后来在google搜索了一下 wget的参数,最后用

cpp 代码
  1. wget --user-agent=AGENT http://www.bokee.net/alisoubao/rss2.xml  


来抓取,抓取的内容是最新的,和用curl抓取的是一样的。

原因是因为:
--user-agent=AGENT   加了这个参数 的意思是 设定代理的名称为 AGENT而不是默认的 Wget/VERSION.

可见bokee网对user-agent为AGENT的请求进行了过滤。

同理:
检查java写的爬虫程序里,请求时带的user-agent里含有crawler
所以bokee网也应该对crawler的user-agent进行了过滤。

解决办法:把user-agent的值改写即可。

分享到:
评论

相关推荐

    fake_useragent.zip

    这个工具的主要作用是帮助开发人员在进行网络爬虫或者自动化测试时,避免被目标网站识别为机器人,从而提高数据抓取的成功率。在给定的压缩包文件"fake_useragent.zip"中,包含了一个名为"fake_useragent.json"的...

    Python-fakeuseragent伪装浏览器身份常用于爬虫

    `fake-useragent`库是这样一种工具,它能帮助我们生成看似来自各种真实浏览器的User-Agent字符串,使爬虫在抓取网页时更具有隐蔽性。 `fake-useragent`库的核心功能在于其`ua.random`方法,该方法能够返回一个随机...

    UserAgent.txt

    爬虫程序通常模仿浏览器进行网络数据抓取。为了更有效地进行抓取,爬虫会设置一个用户代理字符串,使得服务器难以分辨其真伪。在给定文件“UserAgent.txt”中,列出了多个不同的用户代理字符串,这些字符串代表了...

    给定公司名称excel列表在天眼查搜索爬取企业工商信息.pdf

    1. 打开浏览器:创建一个`PhantomJS`驱动器实例,设置`useragent`和可能的IP代理(如果有)。 然后,我们需要获取网页源代码。`get_content()`函数接收URL和加载等待时间,打开浏览器访问URL,等待JavaScript加载,...

    01.爬虫概述1

    4. 存储数据:爬虫抓取的数据通常被存储在本地文件系统、数据库或云存储中,供后续分析或处理。 5. 遵守规则:在爬取过程中,爬虫应尊重网站的Robots协议(robots.txt),这是一个文件,指示爬虫哪些页面可以抓取,...

    PyPI 官网下载 | alt_fake_useragent-0.2.1-py3-none-any.whl

    总结来说,alt_fake_useragent是一个实用的Python库,它简化了生成随机用户代理字符串的过程,对于需要进行网络请求的Python项目,特别是涉及Web抓取和自动化测试的场景,alt_fake_useragent是一个不可或缺的工具。...

    爬虫程序Demo

    在Demo中,可能会讲解如何使用第三方库如fake_useragent来伪装浏览器,或者使用Selenium进行动态内容的抓取。对于需要登录才能访问的网站,可能还会涉及requests库与BeautifulSoup结合实现模拟登录的示例。 数据...

    HttpWebRequest爬虫

    在IT行业中,网络爬虫是一种自动化程序,用于从互联网上抓取信息,通常是网页内容。在C#编程语言中,我们可以使用.NET Framework提供的HttpWebRequest类来实现基础的爬虫功能。这个类允许我们向服务器发送HTTP请求并...

    爬虫系列 一次采集.NET WebForm网站的坎坷历程.docx

    【描述分析】:描述简述了作者需要通过爬虫获取人员的工号信息,但由于某些原因无法直接访问数据库,因此选择了编写工具自动登录并抓取数据。ASP.NET WebForm网站的采集难度相对较高,与RESTful风格的网站相比,其...

    weibo_spider_爬虫python_关键词爬虫_python_python爬虫_spider_源码.rar

    2. **HTML解析**:爬虫抓取的通常是HTML格式的网页,需要解析这些数据以提取所需信息。BeautifulSoup库可以帮助我们解析HTML文档,找到特定的元素和数据。 3. **正则表达式**:在解析HTML时,正则表达式(regex)常...

    爬虫依赖包

    在IT行业中,爬虫是一种广泛使用的工具,用于自动地遍历和抓取互联网上的信息。爬虫依赖包指的是实现爬虫功能所必需的各种Python库和模块。这些包可以帮助开发者高效、便捷地完成网页数据的抓取、解析和存储。下面...

    Mojo-UserAgent-角色排队:Mojo :: UserAgent的角色,用于处理限速队列中的非阻塞请求

    在IT领域,网络爬虫和数据抓取是常见的任务,而`Mojo::UserAgent`是Perl语言中一个强大的HTTP客户端库,它为构建高效、非阻塞的Web客户端提供了便利。`Mojo::UserAgent::Role::Queued`正是这样一个扩展,用于处理...

    pyhton爬虫+学习资料

    在抓取数据前,应确保遵守网站的robots.txt文件规定,尊重网站的爬虫政策,并遵循数据隐私法律法规。不要滥用爬虫,避免对目标网站造成过大的访问压力。 总的来说,Python爬虫涉及到的知识点包括但不限于网络请求、...

    Python爬虫部分安装库.zip

    本资源包"Python爬虫部分安装库.zip"针对的是Python爬虫开发中的库安装问题,尤其对于初学者或者在官方源下载速度较慢的地区非常有用。主要包含的库版本为3.8.1,同时也提供了一个快速下载链接,涵盖多种Python版本...

    Python爬虫入门必会

    Python爬虫技术是数据挖掘和自动化网页信息抓取的重要手段,尤其对于数据分析、市场研究以及网站监控等领域具有广泛的应用。本文将系统地介绍编写Python爬虫所涉及的基础知识,包括爬虫工作原理、反爬机制、...

    python爬虫学习经历-PythonSpider.zip

    5. **解析库**:爬虫抓取到的数据通常是HTML或XML格式,因此需要解析工具来提取有用信息。BeautifulSoup和lxml是两个广泛使用的HTML解析库,它们可以帮助我们解析和导航DOM树,查找和提取特定元素。 6. **数据存储*...

    c#网页爬虫采集html

    在IT领域,网页爬虫是一种自动化程序,用于从互联网上抓取信息,通常是HTML文档。在C#中,我们可以利用各种库和工具来构建这样的爬虫。本篇将深入探讨如何使用C#进行网页爬虫开发,特别是针对HTML内容的采集。 首先...

    Python网络爬虫开发通常会用到哪几个库

    11. **UserAgent**:伪装浏览器身份以防止被网站识别出是爬虫,UserAgent库可以帮助生成随机的用户代理字符串。 12. **Requests-HTML**:这个库结合了requests和BeautifulSoup的功能,可以直接解析HTML并执行...

Global site tag (gtag.js) - Google Analytics