在window环境下安装scrapy
1】进入到python的安装目录下:C:\Python27\Scripts
2】进入到命令行模式,执行如下命令;
pip install wheel
3】下载附件中的文件,将两个可执行的文件点击执行
4】将lxml-3.6.4-cp27-cp27m-win_amd64.whl 文件复制到C:\Python27\Scripts目录下,执行 pip install lxml-3.6.4-cp27-cp27m-win_amd64.whl
5】上述步骤完成后执行 pip install scrapy
6】安装后执行scrapy命令,如果出现如下提示:
[C:\Python27\Scripts]$ scrapy
Traceback (most recent call last):
File "c:\python27\lib\runpy.py", line 174, in _run_module_as_main
"__main__", fname, loader, pkg_name)
File "c:\python27\lib\runpy.py", line 72, in _run_code
exec code in run_globals
File "C:\Python27\Scripts\scrapy.exe\__main__.py", line 5, in <module>
File "c:\python27\lib\site-packages\scrapy\cmdline.py", line 9, in <module>
from scrapy.crawler import CrawlerProcess
File "c:\python27\lib\site-packages\scrapy\crawler.py", line 7, in <module>
from twisted.internet import reactor, defer
File "c:\python27\lib\site-packages\twisted\internet\reactor.py", line 38, in <module>
from twisted.internet import default
File "c:\python27\lib\site-packages\twisted\internet\default.py", line 56, in <module>
install = _getInstallFunction(platform)
File "c:\python27\lib\site-packages\twisted\internet\default.py", line 50, in _getInstallFunction
from twisted.internet.selectreactor import install
File "c:\python27\lib\site-packages\twisted\internet\selectreactor.py", line 18, in <module>
from twisted.internet import posixbase
File "c:\python27\lib\site-packages\twisted\internet\posixbase.py", line 18, in <module>
from twisted.internet import error, udp, tcp
File "c:\python27\lib\site-packages\twisted\internet\tcp.py", line 28, in <module>
from twisted.internet._newtls import (
File "c:\python27\lib\site-packages\twisted\internet\_newtls.py", line 21, in <module>
from twisted.protocols.tls import TLSMemoryBIOFactory, TLSMemoryBIOProtocol
File "c:\python27\lib\site-packages\twisted\protocols\tls.py", line 63, in <module>
from twisted.internet._sslverify import _setAcceptableProtocols
File "c:\python27\lib\site-packages\twisted\internet\_sslverify.py", line 38, in <module>
TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1,
AttributeError: 'module' object has no attribute 'OP_NO_TLSv1_1'
7】请执行pip install Twisted==13.1.0
8】完成后在执行scrapy出现如下提示即安装成功:
[C:\Python27\Scripts]$ scrapy
Scrapy 1.5.0 - no active project
Usage:
scrapy <command> [options] [args]
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
Use "scrapy <command> -h" to see more info about a command
分享到:
相关推荐
Scrapy是一款强大的爬虫框架,广泛应用于数据爬取、信息采集等领域。但是,Scrapy的安装过程中经常出现各种问题,本文将详细介绍在Window 10系统64位Python 3.7环境下安装Scrapy的完整教程。 一、前提条件 * 安装...
Scrapy是一个强大的Python爬虫框架,它为网络数据抓取提供了高效的工具集。在搭建Scrapy环境时,需要确保正确安装一系列依赖包,以便能够顺利运行。以下将详细阐述每个提供的压缩包子文件所对应的软件及其在Scrapy...
爬取网页上的信息 import time from selenium import webdriver path = "C:\\Program Files\\Google\\Chrome\\Application\\chromedriver...driver.executeScript("window.scrollTo(0,document.body.scrollHeight)");
【标题】:“美团爬虫,基于scrapy_redis.zip”是一个使用Python编程语言和Scrapy爬虫框架,并结合scrapy_redis库构建的网络爬虫项目。这个项目的主要目标是抓取美团网站上的数据,例如商品信息、价格、评价等,以...
综上所述,这个项目提供了关于Python Scrapy爬虫框架的实战经验,涵盖了从设计、实现到部署的全过程,对于想了解或深入学习爬虫技术的人来说是一个很好的资源。通过分析和运行这个项目,学习者能够掌握网络爬虫的...
标题中的“百度贴吧爬虫(基于scrapy和mysql)”揭示了这个项目的核心内容,它是一个使用Python Scrapy框架和MySQL数据库构建的网络爬虫,专门针对百度贴吧进行数据抓取和存储。Scrapy是一个强大的开源Python框架,...
【标题】基于规则配置的通用分布式爬虫框架 在当今数据驱动的时代,网络爬虫作为获取互联网信息的重要工具,被广泛应用于数据分析、市场研究、搜索引擎优化等领域。本项目"基于规则配置的通用分布式爬虫框架"提供了...
可以用于毕业设计(项目源码+项目说明)目前在window10/11测试环境一切正常,用于演示的图片和部署教程说明都在压缩包里
在Window环境下搭建Scrapy开发环境是许多初学者和开发者必须经历的步骤,Scrapy是一个强大的Python爬虫框架,用于高效地抓取网页数据。本文将详细介绍如何在Windows操作系统上配置Scrapy开发环境。 首先,确保你...
Scrapy是一个强大的、高效的Python爬虫框架,它提供了结构化的数据处理管道、中间件支持以及多线程爬取等功能,适合于大规模的数据抓取任务。在这个项目中,Scrapy被用来自动化地访问外卖平台的网页,解析HTML,提取...
Scrapy是一个强大的Python爬虫框架,它为开发者提供了一套高效、灵活的工具,使得构建网络数据采集系统变得简单。本项目源码是基于Scrapy实现的一个数据采集爬虫,适用于毕业设计,已经在Window 10/11操作系统环境下...
Scrapy是一个强大的Python爬虫框架,它为开发者提供了一套高效、灵活的工具,使得构建网络爬虫变得简单。在本项目中,"基于scrapy的链家房源爬虫"利用了Scrapy的特性,实现了从链家网站抓取特定小区的所有房源信息。...
pywin32是一个非常强大的python扩展库,是python调用windows系统底层功能的最佳接口,也是爬虫框架scrapy所依赖的重要扩展库之一。 此版本信息:window 64bit / Python 3.7
17 3.04设计多任务爬虫框架.mp4 18 3.05进程_线程实现多任务爬虫.mp4 19 3.06bs4爬虫meinv网.mp4 20 4.01回顾知识点.mp4 21 4.02Flask实现文件上传服务.mp4 22 4.03设计协程的爬虫框架.mp4 23 4.04协程实现的...
2. Scrapy框架:在项目中,可能会使用到Scrapy这一高级爬虫框架。Scrapy提供了一个完整的结构,包括spiders(爬虫)、downloader middlewares(下载中间件)、item pipelines(项目管道)等组件,使爬虫开发更为高效...
Django是一个强大的Python Web框架,而Scrapy是一个用于网络爬虫的框架,它们结合使用可以高效地抓取、处理和存储数据,并通过JSON接口提供给前端。 首先,我们需要创建Django项目和Scrapy项目。使用`django-admin ...
- **主要内容:** 分析如何设计一个多任务爬虫框架以提高数据抓取效率。 #### 18. 进程与线程实现多任务爬虫 - **视频:** 183.05进程_线程实现多任务爬虫.mp4 - **主要内容:** 探讨如何利用Python的`multiprocessing...
它已经在Window 10/11环境下进行了测试并正常工作,说明这个爬虫程序对Windows操作系统有良好的兼容性。"用于演示的图片和部署教程说明都在压缩包里"表明,除了源代码,压缩包还包含了一些辅助材料,如操作截图和...
首先,`Scrapy`是一个强大的Python爬虫框架,而`Splash`是与`Scrapy`集成的一个好伙伴。`Scrapy`本身并不执行JavaScript,但可以通过`Scrapy-Splash`插件与`Splash`服务器通信,从而实现对动态内容的抓取。 要开始...
此外,由于项目已经在Window10/11环境下测试正常,说明它考虑到了跨平台兼容性,这对于提升软件的普适性非常重要。 部署教程通常会详细解释如何配置Hadoop环境,安装Python依赖,以及如何启动和监控爬虫的运行。这...