`

eclipse创建scrapy项目

阅读更多
1.
您必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中(比如否F:/demo),运行下列命令:

scrapy startproject tutorial
2.在eclipse中创建一个python项目 ,在F:/demo目录下 把刚创建的项目 tutorial 和scrapy.cfg配置文件拷入 eclipse下的python项目中

3.在python项目下tutorial/spiders下创建一个py文件(例如:myblog.py)
代码:


# -*- coding: utf-8 -*-
import scrapy                 
from tutorial.items import IteyeItem     #导入item   
from scrapy.selector import HtmlXPathSelector
               
class MyblogSpider(scrapy.Spider):                             
    name = "myblog"           
    allowed_domains = ["886.iteye.com"]   #服务器       post             
    start_urls = (            
        'http://886.iteye.com/',
        'http://st4024589553.iteye.com/'                        
    )                         
                              
    def parse(self, response):
        lis = response.xpath("//div[@class='blog_main']/div[1]/h3") #增加xpath
        item = IteyeItem()                                                                                                                 
        for li in lis:  
          
            title= li.xpath('a/text()').extract()[0]
            print li.xpath('a/text()').extract()[0]
            item['title']=title
            item['link']=li.xpath('a/@href').extract()
            yield item
4.在tutorial下创建 cmdline.py 文件
代码:
# coding=utf-8
'''
Created on 2017年2月5日

@author: chenkai
''' 
import scrapy.cmdline 
 
'''
cmdline.py用于启动scrapy项目,其中argv第三个参数为启动爬虫的名字。如下图
'''
if __name__ == '__main__': 
    scrapy.cmdline.execute(argv=['scrapy','crawl','myblog'])  #myblog myblog.py中name


5.        
代码编辑好后,右键cmdline.py -->Debug As -->Run config....  -->右键Python Run-->new
-->project 选择你创建的python项目 --》Main Module 选择项目下的cmdline.py文件即可
apply一下


6.编辑tutorial/items.py  文件
代码:
# -*- coding: utf-8 -*-

import scrapy

class IteyeItem(scrapy.Item): 
    title = scrapy.Field()
    link = scrapy.Field() 
           

7.
(1)现在可以直接运行cmdline.py文件  run  输出信息
(2)也可以在提示符窗口里运行,cmd -->scrapy crawl myblog 同样可以启动




分享到:
评论

相关推荐

    1.pyppeteer+scrapy开发环境搭建

    创建Scrapy项目 在Eclipse的根目录中创建一个新的Scrapy项目。可以通过命令行来创建项目,例如: ``` scrapy startproject myproject ``` 接着在项目的`settings.py`文件中进行必要的配置,例如: ```python ROBOTS...

    scrapy入门例子-tutorial

    创建Scrapy项目非常简单。打开Eclipse,创建一个新的PyDev项目,然后在项目根目录下运行`scrapy startproject tutorial`。这将生成一个名为“tutorial”的Scrapy项目结构,包含默认的设置文件和模块。 在项目中创建...

    网页抓取DEMO-可以运行的一个java项目

    1. **创建Java项目**:首先在开发环境中(例如Eclipse)创建一个新的Java项目,命名为`crawler`。 2. **目录结构设置**: - 在项目根目录下创建一个名为`web`的文件夹。 - 在`web`文件夹下新建`WEB-INF`文件夹。...

    Python安装教程

    ### Python安装教程及...通过上述步骤,您可以顺利完成 Python 的安装、相关库的配置、Eclipse 的 PyDev 插件安装以及 Scrapy 项目的创建过程。这些基础知识对于初学者来说非常重要,能够帮助快速上手 Python 编程。

    Ubuntu环境下的python环境配置

    Scrapy是一款用于Web爬虫项目的开源框架,适合用于数据抓取和处理。 - 安装Scrapy命令如下: ``` sudo -H pip3 install scrapy ``` #### 九、Eclipse IDE的安装 Eclipse是一款功能强大的集成开发环境(IDE),...

    Python_大众点评网站数据爬虫

    在本项目"Python_大众点评网站数据爬虫"中,我们主要探讨如何使用Python作为编程语言,结合Eclipse和PyDev开发环境,实现一个非Scrapy框架的数据爬虫,以获取大众点评网站上的相关数据。这里我们将深入讲解Python...

    基于网络爬虫技术的网络新闻分析+系统+论文+PPT.zip

    在本项目中,可能使用了Python的Scrapy框架或Java的Jsoup库,它们能够解析HTML结构,提取所需的数据,如新闻标题、内容、来源等。网络爬虫需要遵守robots.txt协议,并尊重网站的抓取限制,确保合法且道德的网络数据...

    Scraper:使用 jsoup 的 Java 天气抓取工具

    创建一个新的 Java 项目,然后将 Jsoup 库添加到项目的构建路径中。编写 Java 代码后,可以通过 Eclipse 的内置编译器和运行环境进行测试。 7. **学习 Web Scraping 和 HTML**: Web scraping 是一项关键技能,...

    大数据技术与应用基础-教学大纲.docx

    2. 数据获取:通过学习Scrapy框架,学生将了解网络爬虫的工作原理,学会创建爬虫项目,收集网络上的结构化和非结构化数据。 3. Hadoop基础:深入理解Hadoop的分布式文件系统(HDFS)和计算模型(MapReduce),包括...

    疫情防控分析系统毕业设计

    前端开发工具如Eclipse或Visual Studio Code(Vscode)是必备的,Eclipse适合Java开发,Vscode则更适合多语言和前端开发,具备强大的插件支持。 6. **NPM和Node.js**:前端构建和运行可能需要Node.js环境,通过NPM...

    课程实践作业一1

    这包括下载安装、环境变量设置、项目创建等环节。 6. **程序实现与运行** 编写一个简单的Python程序,展示如何在你的环境中运行。例如,你可以创建一个“Hello, World!”程序,附上源代码,并说明运行结果。 7. *...

    python语言概述和开发环境

    尽管Python 2曾是许多项目的基础,但自2020年起,Python 2已经不再更新和维护,建议新项目使用Python 3,因为它是目前的主流版本,拥有更多的更新特性和社区支持。 Python语言的特点包括: 1. **解释性**:Python...

Global site tag (gtag.js) - Google Analytics