Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误 - 努力，让生活变得更美好 - ITeye博客

`

酷的飞上天空

浏览: 524797 次
性别:
来自: 无锡

最近访客更多访客>>

yuanliangding

北极光之吻

gggfff39

932835425

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

鬼一天：代码有问题，没有考虑负数的情况。
根据经纬度和半径计算经纬度范围
Tair： ...
通过反射把map中的属性赋值到实体类bean对象中
springmvc_springjpa： spring mvc demo教程源代码下载，地址：http: ...
Spring3.0 MVC的初次尝试
酷的飞上天空： haiyinlong 写道private File value ...
使用HttpUrlConnection进行post请求上传文件
lliiqiang：分析很难,好的规则持久，靠某个方法条件局限不能证明长久
ruby的基本类型

Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误

博客分类：

python

阅读更多

Scrapy版本0.14.4

出现问题现象：

ERROR: Error downloading <GET http://xxxxx CRC check failed

解决方法

1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0'

明确表示不支持任何形式的压缩格式，避免程序的解压缩操作

这个方法不一定有效，具体根据服务器的返回情况。如果服务器忽略此属性则此方法无效。

2.重新安装scrpay,下载当前版本的一个分支。

参考https://github.com/scrapy/scrapy/pull/109

分支地址：https://github.com/redapple/scrapy/tree/http11/scrapy

其实就是扩展了http1.1的DOWNLOAD_HANDLERS

注：此扩展需要Twisted-12.1.0的版本 Twisted-12.0.0的版本会提示找不到HTTPConnectionPool

分享到：

获取Android设备屏幕的相关参数 | linux下为程序创建启动和关闭的的sh文件， ...

2012-06-19 19:40
浏览 5329
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

scrapy 抓取多级页面的某子二手车: Scrapy是一个强大的Python爬虫框架，它为开发者提供了一个高效且结构化的抓取系统，能够方便地抓取网页数据并进行处理。在这个“scrapy抓取多级页面的某子二手车”项目中，我们将深入探讨如何利用Scrapy来实现对二手...

基于Python和Echarts职位画像系统-用Scrapy抓取招聘数据使用Django+echarts完成数据可视化: 基于Python和Echarts职位画像系统-用Scrapy抓取招聘数据使用Django+echarts完成数据可视化，该项目是个人毕设项目，答辩评审分达到98分，代码都经过调试测试，确保可以运行！欢迎下载使用，可用于小白学习、进阶。该...

Scrapy抓取美女图片并且保存: Scrapy是一个强大的Python爬虫框架，它为网络数据抓取提供了高效、易用的解决方案。在本项目中，“Scrapy抓取美女图片并且保存”是一个典型的数据抓取应用，主要涉及以下几个关键知识点： 1. **Scrapy框架**：...

Python-scrapy抓取糗事百科热门: 【Python-scrapy抓取糗事百科热门】在Python开发领域，Web爬虫是一个重要的技术分支，用于自动收集网络上的信息。Scrapy是一个强大的、高效的爬虫框架，它为开发者提供了构建爬虫项目的便利。本教程将详细介绍如何...

Python-Scrapy练习项目利用Scrapy抓取古诗: 在本项目中，我们将深入探讨如何使用Python的Scrapy框架来抓取古诗数据，包括唐诗和宋词，最终将这些数据存储为JSON格式。Scrapy是一个强大的、专为爬取网站并提取结构化数据而设计的工具，非常适合进行大规模的数据...

Scrapy抓取资源Mysql异步存储: Scrapy是一个强大的Python爬虫框架，它允许开发者高效地抓取网页内容并处理数据。在本项目中，我们将探讨如何使用Scrapy来抓取在线图书网站的资源，并将抓取到的数据异步存储到MySQL数据库中。这涉及到几个关键的...

scrapy知网专利爬虫: 使用Scrapy框架开发爬取中国知网专利信息的爬虫,可以提供以下500字的说明: Scrapy是一个功能强大、高效的Python网络爬虫框架,非常适合用于爬取中国知网这样的专业学术资源网站。利用Scrapy可以快速开发一个高质量的...

通过Scrapy抓取和讯论坛关键字搜索的结果: Scrapy是一个强大的Python爬虫框架，它为开发者提供了一套高效、灵活的工具，用于爬取网站并提取结构化数据。在本项目中，我们利用Scrapy来抓取和讯论坛上的特定关键字搜索结果，包括帖子的内容、发帖人以及发帖时间...

Python-使用pythonscrapy抓取拉钩java招聘信息并制作成词云: 在本文中，我们将深入探讨如何使用Python的Scrapy框架来抓取拉勾网上的Java招聘信息，并将这些数据处理成词云。...记住，进行Web抓取时应遵循网站的robots.txt规则，尊重网站的爬虫政策，确保合法且道德的网络行为。

Python爬虫技术：使用BeautifulSoup与Scrapy进行网页抓取: 本文详细介绍了网络爬虫的基础知识及其两种主流的技术手段：使用BeautifulSoup与Scrapy进行网页解析的方法。文中包含了基础知识介绍以及逐步指导的实际代码样例，涵盖了安装设置、数据提取以及常见应用场景的演示，...

scrapy结合selenium解析动态页面的实现: 虽然scrapy能够完美且快速的抓取静态页面，但是在现实中，目前绝大多数网站的页面都是动态页面，动态页面中的部分内容是浏览器运行页面中的JavaScript脚本动态生成的，爬取相对困难；比如你信心满满的写好了一个...

使用Scrapy抓取职位招聘数据-爬虫python代码: 基于Python和Echarts职位画像系统，使用Scrapy抓取职位招聘数据，使用Django+echarts完成数据可视化。环境安装配置建议直接安装anconda，然后git clone后进入项目目录，执行pip install -r requirements.txt ...

使用scrapy抓取google app store 信息写入mysql - 2018.6: Scrapy是一个强大的Python爬虫框架，它为开发者提供了构建网络爬虫所需的各种工具和组件，使得数据抓取工作变得高效且便捷。在这个项目中，我们将使用Scrapy来抓取Google App Store的应用信息，并将这些数据存储到...

Python-scrapy抓取链家网二手房成交数据: Python-scrapy是一个强大的框架，专为网络爬虫设计，用于高效、结构化地抓取大量网页数据。在本项目中，“Python-scrapy抓取链家网二手房成交数据”旨在利用Scrapy来收集链家网上关于二手房成交的具体信息，如房源...

基于scrapy的百度音乐抓取爬虫: ### 基于Scrapy的百度音乐抓取爬虫 #### Scrapy框架概述 Scrapy是一个用Python编写的开源和协作的网络爬虫框架。它主要用于大规模地抓取和处理网页内容，支持从网站上抓取所需数据并将其转换成统一格式的文件，如...

Scrapy 抓取网易严选、小米有品产品数据.zip: 6. **爬虫策略**：在抓取秒杀产品数据时，可能需要考虑页面动态加载、定时抓取、登录状态维持等问题。动态加载可以通过模拟浏览器行为（如Selenium）解决，定时抓取则可以通过CronJob或者Scrapy的计划任务实现，登录...

python 基于Scrapy框架抓取图片: Python中的Scrapy框架是一个强大的网页抓取和数据提取工具，专为快速开发Web爬虫而设计。本教程将深入探讨如何使用Scrapy来抓取并保存指定命名规则的图片。一、Scrapy简介 Scrapy是用Python编写的，开源且可扩展的...

scrapy抓取图片: Scrapy是一个用Python编写的开源和协作的web抓取框架，用于抓取网站数据并从页面中提取结构化的数据，这在爬虫开发中非常常见。Scrapy提供了一个内置的功能模块ImagesPipeline用于下载和存储图片资源。要使用...

scrapy 循环抓取url实例: 自己亲自测试保证可以用，需要安装python2.7 还有scrapy，测试是在centos7下完成的

基于Python和Echarts职位画像系统，用Scrapy抓取招聘数据，使用Django+echarts完成数据可视化.zip: 2. **Scrapy**: Scrapy是一个强大的Python爬虫框架，用于高效地抓取网页数据。它提供了结构化的数据处理管道（Pipeline）和中间件（Middleware）机制，使得开发者可以便捷地构建和管理网络爬虫项目。在这个项目中，...

Global site tag (gtag.js) - Google Analytics