`

python之scrapy(一)

阅读更多
  • 通过workon进入后创建的虚拟环境article_spider
  • 虚拟环境只是用来关联项目的环境的例如,pip加载的一些插件也会直接放入你的虚拟环境中
  • 在e盘创建一个scrapy 项目:
    pip install scrapy 
    
     window10的环境下可能会报错,因为一个需要安装一个window10的本地环境,需要去
  • http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
  • 下载:Twisted‑17.9.0‑cp36‑cp36m‑win_amd64.whl

根据你的版本来的我的python3.6的 环境下是window10的64位然后安装这个,还在这个虚拟环境里面安装啊可不要跳出来

 

pip install D:\Python\Scripts\Twisted-17.1.0-cp36-cp36m-win_amd64.whl

 

开始安装框架项目

 

scrapy startproject ArticleSpider

 

 

会提示:

New Scrapy project 'ArticleSpider', using template directory 'e:\\evns\\articel_spider\\lib\\site-packages\\scrapy\\templates\\project', created in:

    E:\pythonShare\ArticleSpider

 

然后按照提示添加要爬取的网站 一定要到这个你新建的项目目录下 例如 你创建的项目是:

E:\pythonShare\ArticleSpider 在这个目录下

输入命令

 

scrapy genspider 项目名称 blog.jobbole.com

项目创建完成

 

  

 

  • 通过pycharm启动项目后创建main.py
  • #!/usr/bin/env python
    # -*- coding: utf-8 -*-
    # @File  : main.py
    # @Author: 李明
    # @Date  : 2017/12/10
    # @Desc  :
    
    from scrapy.cmdline import execute
    import sys
    import os
    print(os.path.dirname(os.path.abspath(__file__)))
    sys.path.append(os.path.dirname(os.path.abspath(__file__)))
    execute(["scrapy","crawl","jobbole"])
    
     其实就是在cmd命令行中输入:scrapy crawl jobbole
  • 会爆一个错误No module named 'win32api'
  • 安装这个通过命令
    pip install pypiwin32
     
  • 返回的是个数组extract(),通过strip()去掉空格回城换行等,replace("原来的","替换的")
re_selector.extract()

 

print(re_selector.extract()[0].strip())

 

分享到:
评论

相关推荐

    Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis.zip

    毕业设计+Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis 毕业设计+Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis 毕业设计+Python基于Scrapy+Redis分布式爬虫...

    基于Python 爬虫Scrapy课件源码.zip

    python课程设计基于Python 爬虫Scrapy课件源码基于Python 爬虫Scrapy课件源码基于Python 爬虫Scrapy课件源码基于Python 爬虫Scrapy课件源码基于Python 爬虫Scrapy课件源码基于Python 爬虫Scrapy课件源码基于Python ...

    毕业设计+Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis

    程序采用 python 开发的 Scrapy 框架来开发,使用 Xpath 技术对下载的网页进行提取解析,运用 Redis 数据库做分布式, 设计并实现了针对当当图书网的分布式爬虫程序,scrapy-redis是一个基于redis的scrapy组件,通过...

    python3.7 scrapy简单爬虫入门

    Scrapy 是一个用 Python 编写的高效且强大的网络爬虫框架,适用于自动化抓取、处理、分析网页数据。在 Python 3.7 的环境下,我们可以轻松搭建起一个基本的 Scrapy 爬虫项目,以实现对指定网站 `...

    Python 3.8.2 scrapy 框架 安装依赖包

    Scrapy是一个强大的Python爬虫框架,它为网络爬虫的构建提供了高效且灵活的工具集。在使用Scrapy时,我们需要确保所有必要的依赖项都已安装。针对Python 3.8.2版本,安装Scrapy及其相关依赖可能会遇到一些常见问题,...

    Python-基于Python的scrapy爬虫框架实现爬取招聘网站的信息到数据库

    Python的Scrapy框架是用于构建高效、可复用的网络爬虫项目的强大工具。它是一个专为爬取网站并提取结构化数据而设计的库,特别适合处理大规模的数据抓取任务。在本教程中,我们将深入探讨如何使用Scrapy来爬取招聘...

    Python_Scrapy.zip

    本资源"Python_Scrapy.zip"包含了一个使用Scrapy进行爬虫开发的完整实例,涵盖了从基础到进阶的各种功能,如页面翻页、图片下载以及项目部署。 首先,Scrapy是一个开源的Python框架,它允许开发者通过定义Item(要...

    基于python和scrapy的电影数据爬虫

    总的来说,"基于Python和Scrapy的电影数据爬虫"项目是一个全面的爬虫学习和实践平台,涵盖了Python编程、网络请求、网页解析和数据管理等多个方面,对提升个人在数据获取和处理方面的能力大有裨益。通过这样的实践,...

    python的scrapy框架爬取天气预报

    利用python的scrapy框架爬取天气预报的信息,是python爬虫入门的好程序,如果还有小伙伴不会运行scrapy框架程序的,可以在下方评论区里说明。

    Python+Scrapy获取微博用户基本资料.zip

    本项目“Python+Scrapy获取微博用户基本资料”就是利用Python的Scrapy框架来抓取新浪微博用户的基本信息,包括关注者和粉丝的数据。Scrapy是一个高度模块化、高效且易于使用的爬虫框架,适用于大型网站的数据抓取。 ...

    Python-基于pythonscrapy框架抓取豆瓣影视资料

    在Python的Web爬虫领域,Scrapy是一个强大而高效的框架,用于构建网络爬虫项目。本教程将深入探讨如何使用Scrapy来抓取豆瓣网站上的影视资料,包括电影、电视剧等信息。Scrapy是一个开源的框架,它提供了丰富的功能...

    Python之scrapy爬虫文件

    **Python之Scrapy爬虫文件**是针对Python编程语言中著名的Web爬虫框架Scrapy的深入学习资料。Scrapy是一个高效、强大的爬虫框架,它为开发者提供了完整的爬取、解析网页以及存储数据的解决方案。本文件包包含了多个...

    Python基于Scrapy兼职招聘网站爬虫数据分析设计.zip

    在本项目中,"Python基于Scrapy兼职招聘网站爬虫数据分析设计.zip" 是一个包含使用Python的Scrapy框架实现的兼职招聘网站数据爬取及分析的案例。Scrapy是一个强大的、用于网络爬虫开发的开源框架,适用于快速构建...

    完整版Python网络爬虫之Scrapy爬虫框架使用案例教程含源代码共18页.pdf

    Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都...

    Python基于Scrapy豆瓣电影爬虫及Django电影展示网站设计

    ## 开发环境:Python3.7 + Scrapy框架 + Django网站 + mysql数据库 这个项目有2个爬虫程序和一个网站程序:其中一个爬虫负责分页抓取json格式的数据,分析拿到豆瓣电影的详情页面url地址存入到redis数据库的...

    精通Python爬虫框架Scrapy.pdf

    精通Python爬虫框架Scrapy.pdf

    Python-Scrapy一个快速高级的网站截图和网页采集框架

    Scrapy是一个基于Python的开源框架,专为网络爬虫设计,同时也支持网站的屏幕截图功能。它被设计成高效、灵活且易于扩展,使得开发者能够快速地构建自己的爬虫项目,用于数据采集和分析。Scrapy的核心组件包括引擎、...

Global site tag (gtag.js) - Google Analytics