`
酷的飞上天空
  • 浏览: 521725 次
  • 性别: Icon_minigender_1
  • 来自: 无锡
社区版块
存档分类
最新评论

Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误

 
阅读更多

Scrapy版本0.14.4

出现问题现象:

ERROR: Error downloading <GET http://xxxxx  CRC check failed

 

解决方法

 

1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0'

 

明确表示不支持任何形式的压缩格式,避免程序的解压缩操作

这个方法不一定有效,具体根据服务器的返回情况。如果服务器忽略此属性则此方法无效。

 

 

2.重新安装scrpay,下载当前版本的一个分支。

 

参考https://github.com/scrapy/scrapy/pull/109

分支地址:https://github.com/redapple/scrapy/tree/http11/scrapy

其实就是扩展了http1.1的DOWNLOAD_HANDLERS

 

注:此扩展需要Twisted-12.1.0的版本 Twisted-12.0.0的版本会提示找不到HTTPConnectionPool

分享到:
评论

相关推荐

    scrapy 抓取多级页面的某子二手车

    Scrapy是一个强大的Python爬虫框架,它为开发者提供了一个高效且结构化的抓取系统,能够方便地抓取网页数据并进行处理。在这个“scrapy抓取多级页面的某子二手车”项目中,我们将深入探讨如何利用Scrapy来实现对二手...

    基于Python和Echarts职位画像系统-用Scrapy抓取招聘数据使用Django+echarts完成数据可视化

    基于Python和Echarts职位画像系统-用Scrapy抓取招聘数据使用Django+echarts完成数据可视化,该项目是个人毕设项目,答辩评审分达到98分,代码都经过调试测试,确保可以运行!欢迎下载使用,可用于小白学习、进阶。该...

    Scrapy抓取美女图片并且保存

    Scrapy是一个强大的Python爬虫框架,它为网络数据抓取提供了高效、易用的解决方案。在本项目中,“Scrapy抓取美女图片并且保存”是一个典型的数据抓取应用,主要涉及以下几个关键知识点: 1. **Scrapy框架**:...

    Python-scrapy抓取糗事百科热门

    【Python-scrapy抓取糗事百科热门】 在Python开发领域,Web爬虫是一个重要的技术分支,用于自动收集网络上的信息。Scrapy是一个强大的、高效的爬虫框架,它为开发者提供了构建爬虫项目的便利。本教程将详细介绍如何...

    Python-Scrapy练习项目利用Scrapy抓取古诗

    在本项目中,我们将深入探讨如何使用Python的Scrapy框架来抓取古诗数据,包括唐诗和宋词,最终将这些数据存储为JSON格式。Scrapy是一个强大的、专为爬取网站并提取结构化数据而设计的工具,非常适合进行大规模的数据...

    Scrapy抓取资源Mysql异步存储

    Scrapy是一个强大的Python爬虫框架,它允许开发者高效地抓取网页内容并处理数据。在本项目中,我们将探讨如何使用Scrapy来抓取在线图书网站的资源,并将抓取到的数据异步存储到MySQL数据库中。这涉及到几个关键的...

    通过Scrapy抓取和讯论坛关键字搜索的结果

    Scrapy是一个强大的Python爬虫框架,它为开发者提供了一套高效、灵活的工具,用于爬取网站并提取结构化数据。在本项目中,我们利用Scrapy来抓取和讯论坛上的特定关键字搜索结果,包括帖子的内容、发帖人以及发帖时间...

    Python-使用pythonscrapy抓取拉钩java招聘信息并制作成词云

    在本文中,我们将深入探讨如何使用Python的Scrapy框架来抓取拉勾网上的Java招聘信息,并将这些数据处理成词云。...记住,进行Web抓取时应遵循网站的robots.txt规则,尊重网站的爬虫政策,确保合法且道德的网络行为。

    Python爬虫技术:使用BeautifulSoup与Scrapy进行网页抓取

    本文详细介绍了网络爬虫的基础知识及其两种主流的技术手段:使用BeautifulSoup与Scrapy进行网页解析的方法。文中包含了基础知识介绍以及逐步指导的实际代码样例,涵盖了安装设置、数据提取以及常见应用场景的演示,...

    scrapy结合selenium解析动态页面的实现

    虽然scrapy能够完美且快速的抓取静态页面,但是在现实中,目前绝大多数网站的页面都是动态页面,动态页面中的部分内容是浏览器运行页面中的JavaScript脚本动态生成的,爬取相对困难; 比如你信心满满的写好了一个...

    使用Scrapy抓取职位招聘数据-爬虫python代码

    基于Python和Echarts职位画像系统,使用Scrapy抓取职位招聘数据,使用Django+echarts完成数据可视化。 环境安装配置 建议直接安装anconda,然后git clone后进入项目目录,执行pip install -r requirements.txt ...

    使用scrapy抓取google app store 信息 写入mysql - 2018.6

    Scrapy是一个强大的Python爬虫框架,它为开发者提供了构建网络爬虫所需的各种工具和组件,使得数据抓取工作变得高效且便捷。在这个项目中,我们将使用Scrapy来抓取Google App Store的应用信息,并将这些数据存储到...

    Python-scrapy抓取链家网二手房成交数据

    Python-scrapy是一个强大的框架,专为网络爬虫设计,用于高效、结构化地抓取大量网页数据。在本项目中,“Python-scrapy抓取链家网二手房成交数据”旨在利用Scrapy来收集链家网上关于二手房成交的具体信息,如房源...

    基于scrapy的百度音乐抓取爬虫

    ### 基于Scrapy的百度音乐抓取爬虫 #### Scrapy框架概述 Scrapy是一个用Python编写的开源和协作的网络爬虫框架。它主要用于大规模地抓取和处理网页内容,支持从网站上抓取所需数据并将其转换成统一格式的文件,如...

    Scrapy 抓取 网易严选、小米有品产品数据.zip

    6. **爬虫策略**:在抓取秒杀产品数据时,可能需要考虑页面动态加载、定时抓取、登录状态维持等问题。动态加载可以通过模拟浏览器行为(如Selenium)解决,定时抓取则可以通过CronJob或者Scrapy的计划任务实现,登录...

    python 基于Scrapy框架抓取图片

    Python中的Scrapy框架是一个强大的网页抓取和数据提取工具,专为快速开发Web爬虫而设计。本教程将深入探讨如何使用Scrapy来抓取并保存指定命名规则的图片。 一、Scrapy简介 Scrapy是用Python编写的,开源且可扩展的...

    scrapy抓取图片

    Scrapy是一个用Python编写的开源和协作的web抓取框架,用于抓取网站数据并从页面中提取结构化的数据,这在爬虫开发中非常常见。Scrapy提供了一个内置的功能模块ImagesPipeline用于下载和存储图片资源。要使用...

    scrapy 循环抓取url实例

    自己亲自测试 保证可以用,需要安装python2.7 还有scrapy,测试是在centos7下完成的

    基于Python和Echarts职位画像系统,用Scrapy抓取招聘数据,使用Django+echarts完成数据可视化.zip

    2. **Scrapy**: Scrapy是一个强大的Python爬虫框架,用于高效地抓取网页数据。它提供了结构化的数据处理管道(Pipeline)和中间件(Middleware)机制,使得开发者可以便捷地构建和管理网络爬虫项目。在这个项目中,...

    基于Python和Echarts职位画像系统,使用Scrapy抓取职位招聘数据,使用Django+echarts完成数据可视化

    基于Python和Echarts职位画像系统,使用Scrapy抓取职位招聘数据,使用Django+echarts完成数据可视化。 环境安装配置 建议直接安装anconda,然后git clone后进入项目目录,执行pip install -r requirements.txt 项目...

Global site tag (gtag.js) - Google Analytics