`

scrapy-1:创建一个项目并采集

 
阅读更多

新建项目

 

[root@localhost pytest]# scrapy startproject iteye886           
New Scrapy project 'iteye886', using template directory '/usr/lib64/python2.7/site-packages/scrapy/templates/project', created in:
    /root/pytest/iteye886

You can start your first spider with:
    cd iteye886
    scrapy genspider example example.com
[root@localhost pytest]# cd iteye886/
[root@localhost iteye886]# scrapy genspider myblog 886.iteye.com
Created spider 'myblog' using template 'basic' in module:
  iteye886.spiders.myblog
[root@localhost iteye886]# tree
.
├── iteye886
│   ├── __init__.py
│   ├── __init__.pyc
│   ├── items.py
│   ├── pipelines.py
│   ├── settings.py
│   ├── settings.pyc
│   └── spiders
│       ├── __init__.py
│       ├── __init__.pyc
│       └── myblog.py
└── scrapy.cfg

2 directories, 10 files

 编写需要采集的字段

 

[root@localhost iteye886]# vim iteye886/items.py 

  1 # -*- coding: utf-8 -*-    
  2         
  3 # Define here the models for your scraped items
  4 #       
  5 # See documentation in:    
  6 # http://doc.scrapy.org/en/latest/topics/items.html
  7         
  8 import scrapy              
  9         
 10         
 11 class Iteye886Item(scrapy.Item):
 12     # define the fields for your item here like:
 13     # name = scrapy.Field()
 14      title = scrapy.Field()#设置要获取的item
 15      link = scrapy.Field()
 16                                 

 编辑代码

 

[root@localhost iteye886]# vim iteye886/spiders/myblog.py 

 

 

 

  1 # -*- coding: utf-8 -*-      
  2 import scrapy                
  3 from iteye886.items import Iteye886Item     #导入item                  
  4 class MyblogSpider(scrapy.Spider):                            
  5     name = "myblog"          
  6     allowed_domains = ["886.iteye.com"]                       
  7     start_urls = (           
  8         'http://886.iteye.com/',     #删除www                     
  9     )                        
 10                              
 11     def parse(self, response):                                
 12         lis = response.xpath('//*[@id="main"]/div/div[1]/h3/a') #增加xpath
 13         item = Iteye886Item()                                                                                                                
 14         for li in lis:       
 15             item['title']=response.xpath('a/text()').extract()
 16             item['link']=response.xpath('a/@href').extract()
 17             yield item 

 

[root@localhost iteye886]# scrapy list
myblog
[root@localhost iteye886]# scrapy crawl myblog -o abc.csv
[root@localhost iteye886]# cat abc.csv 
link,title
/blog/2324590,centos7-python:交互界面tab补齐
/blog/2324577,scrapy-0:centos7安装scrapy
....

 

 

 

分享到:
评论

相关推荐

    基于Scrapy-redis的分布式爬虫Web平台

    Scrapy-Redis是Scrapy的一个扩展,它将Scrapy原本的内存队列替换为Redis数据库,使得多个Scrapy进程或机器可以共享同一个请求队列,从而实现分布式爬虫。Redis是一个高性能的键值存储系统,具有丰富的数据结构支持,...

    PyPI 官网下载 | scrapy-redis-filterhomepage-0.8.4.dev0.tar.gz

    Scrapy-Redis-FilterHomepage 是一个基于 Scrapy 和 Redis 的扩展框架,主要用于网络爬虫项目的开发。这个项目在版本 0.8.4.dev0 中提供了优化的首页过滤功能,适用于大规模、高并发的爬虫任务。PyPI(Python ...

    scrapy-moodle:该项目通过登录表单抓取并提取有关 Moodle 中定制模块的数据

    总之,Scrapy-Moodle 是一个针对 Moodle 平台定制的 Python 爬虫项目,它结合了 Scrapy 的强大功能,实现了自动登录和数据抓取,尤其适合教育领域的数据采集和分析。通过深入理解和应用该项目,开发者可以高效地获取...

    项目需求文档:Python+Scrapy-Redis的分布式网页爬虫框架(大规模数据采集架构)0基础!!易懂!!!.md

    通过上述分析,我们可以看到构建一个基于Python、Scrapy和Redis的分布式网页爬虫框架是一个系统工程,涉及多个方面的技术细节。该教程不仅详细介绍了如何实现这一目标,而且还提供了大量的实践代码和步骤指导,使得...

    PyPI 官网下载 | os-rq-scrapy-0.0.7.tar.gz

    2. **Scrapy**:Scrapy 是一个用 Python 编写的高性能的 Web 爬虫框架,用于抓取网页并提取结构化数据。Scrapy 提供了丰富的中间件、调度器和下载器等功能,允许开发者自定义爬取行为,处理各种复杂的网页结构和反爬...

    爬取作文 scrapy--zuowen.zip

    2. **Scrapy项目结构**:一个典型的Scrapy项目包含多个组件,如`settings.py`配置文件、`spiders`目录下的爬虫代码、`items.py`定义的数据模型、`pipelines.py`处理数据的管道等。 3. **Spider**:Scrapy中的Spider...

    Learning Scrapy-2016

    Scrapy的另一个亮点是其命令行工具,用户可以通过命令行创建项目、运行爬虫和调试,大大提高了开发效率。 此外,Scrapy还支持多种类型的数据存储格式,包括但不限于JSON、CSV、XML等。 由于网络爬虫在抓取数据时...

    scrapy-master

    Scrapy是一个强大的Python爬虫框架,专为数据抓取和数据处理而设计。它使得构建高效、可扩展的网络爬虫变得极其简单。在“scrapy-master”这个压缩包中,很可能包含了完整的Scrapy框架源代码,这为深入学习和自定义...

    Python网络爬虫实战-Scrapy1-4_课件

    1. **创建项目**:首先,你需要通过`scrapy startproject`命令创建一个新的Scrapy项目。 2. **创建Spider**:然后,使用`scrapy genspider`命令生成一个Spider,指定其名称和要爬取的网站域名。 3. **编写Spider**:...

    Python-Scrapy一个快速高级的网站截图和网页采集框架

    Scrapy是一个基于Python的开源框架,专为网络爬虫设计,同时也支持网站的屏幕截图功能。它被设计成高效、灵活且易于扩展,使得开发者能够快速地构建自己的爬虫项目,用于数据采集和分析。Scrapy的核心组件包括引擎、...

    基于scrapy的天气数据采集(项目实战)

    2. **创建项目**:使用`scrapy startproject`命令创建一个新的Scrapy项目。这会生成一个标准的项目结构,包括配置文件`scrapy.cfg`,以及`items.py`、`pipelines.py`、`settings.py`和`spiders/`目录。 **项目文件...

    03.Scrapy框架入门.pptx

    1. **创建Scrapy工程项目**:通过简单的命令即可完成项目的创建,并自动生成标准的企业级文件结构。 - 示例命令:`scrapy startproject myproject` 2. **创建Spider爬虫程序模板**:在项目目录下运行`scrapy ...

    django+scrapy结合

    1. **创建Django项目和应用**:首先,我们需要创建一个新的Django项目,然后在项目中创建一个应用,比如命名为`scrapy_manager`。在这个应用中,我们将编写用于控制Scrapy爬虫的视图函数和模板。 2. **安装Scrapy和...

    scrapy1.5中文文档

    1. 创建一个Scrapy项目。 2. 定义爬虫,包括起始URLs和解析规则。 3. 编写Item,确定需要抓取的数据字段。 4. 编写Item Pipeline,用于数据处理。 5. 配置Spider中间件和下载中间件。 6. 设置下载延迟等爬虫策略。 7...

    Python-Scrapy练习项目利用Scrapy抓取古诗

    Scrapy是一个强大的、专为爬取网站并提取结构化数据而设计的工具,非常适合进行大规模的数据采集任务。 **一、Scrapy框架介绍** Scrapy是一个基于Python的开源Web爬虫框架,它提供了一整套的解决方案,包括网络...

    spider-admin-pro 一个集爬虫Scrapy+Scrapyd爬虫项-spider-admin-pro.zip

    标题"spider-admin-pro 一个集爬虫Scrapy+Scrapyd爬虫项-spider-admin-pro.zip"表明这是一个基于Scrapy和Scrapyd的爬虫项目管理平台,名为"spider-admin-pro"。它已经被打包成.zip文件供用户下载和使用。这个平台...

    Scrapy+MongoDB爬虫实例教程 代码

    为了与MongoDB交互,我们需要安装`pymongo`库,并在Scrapy项目中创建一个新的Item Pipeline。在这个Pipeline中,我们可以实例化MongoDB客户端,连接到我们的数据库,然后在`process_item`方法中,将处理过的Item数据...

    使用python编写的scrapy爬虫项目

    Scrapy是一个强大的Python爬虫框架,它为开发者提供了一套完整的工具集,用于高效地抓取网站内容并处理数据。本项目是基于Scrapy构建的数据挖掘文本分类语料库爬虫,旨在爬取互联网上的相关文本信息,为自然语言处理...

    一个基于Scrapy的数据采集爬虫代码库.zip

    总之,这个基于Scrapy的数据采集爬虫代码库是一个宝贵的教育资源,无论是对初学者还是有一定基础的开发者,都能从中学习到实用的技能,并能实际操作一个完整的项目,提升自己的编程和项目实施能力。

    基于django和scrapy的采集系统.zip

    【标题】"基于django和scrapy的采集系统.zip"揭示了一个使用Python的Django框架和Scrapy库构建的网络数据采集系统。这个项目可能是一个针对计算机科学学生,特别是那些进行课程设计或毕业设计的项目的实例。 ...

Global site tag (gtag.js) - Google Analytics