1.新建一个项目
scrapy startproject dmozspider
会在当前目录创建一个dmozspider的文件夹,包含一系列文件
scrapy.cfg:项目的配置文件
tutorial/:项目的Python模块,将会从这里引用代码
tutorial/items.py:项目的items文件
tutorial/pipelines.py:项目的pipelines文件
tutorial/settings.py:项目的设置文件
tutorial/spiders/:存储爬虫的目录
2.修改tutorial目录下的items.py文件,在原本的class后面添加我们自己的class。
因为要抓dmoz.org网站的内容,所以我们可以将其命名为DmozItem:
代码如下
import scrapy
class TutorialItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
pass
class DmozItem(scrapy.Item):
title = scrapy.Field()
link = scrapy.Field()
desc = scrapy.Field()
3.制作爬虫
第一只爬虫,命名为dmoz_spider.py,保存在tutorial\spiders目录下
dmoz_spider.py代码如下:
from scrapy.spider import Spider
from scrapy.selector import Selector
from dmozspider.items import DmozItem
class DmozSpider(Spider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
sel = Selector(response)
sites = sel.xpath('//div[@class="title-and-desc"]')
items=[]
for site in sites:
item=DmozItem()
item['title']=site.xpath('a/div/text()').extract()
item['link']=site.xpath('a/@href').extract()
item['desc']=site.xpath('div/text()').extract()
title =item['title']
link = item['link']
desc = item['desc']
items.append(item)
return items
4.进入到dmozspider目录,运行
scrapy crawl dmoz
5.存储内容(Pipeline)
保存信息的最简单的方法是通过Feed exports,主要有四种:JSON,JSON lines,CSV,XML。
我们将结果用最常用的JSON导出,命令如下:
scrapy crawl dmoz -o items.json -t json
参考网址:http://blog.csdn.net/pleasecallmewhy/article/details/19642329
http://doc.scrapy.org/en/latest/topics/selectors.html#topics-selectors
分享到:
相关推荐
基于Python和Echarts职位画像系统-用Scrapy抓取招聘数据使用Django+echarts完成数据可视化,该项目是个人毕设项目,答辩评审分达到98分,代码都经过调试测试,确保可以运行!欢迎下载使用,可用于小白学习、进阶。该...
在爬虫中,我们使用Scrapy的`start_requests()`方法生成初始请求,然后通过`parse()`方法解析响应内容,找到链接到下一级页面的URL,并使用`yield Request()`生成新的请求。 在`items.py`文件中,定义数据模型来...
本教程将详细介绍如何使用Scrapy来抓取糗事百科的热门内容。 1. **Scrapy框架介绍** Scrapy是一个用Python编写的开放源代码框架,专为数据抓取和数据处理而设计。它包含了一系列组件,如下载器、Spider、Item、...
Scrapy是一个强大的Python爬虫框架,它为网络数据抓取提供了高效、易用的解决方案。在本项目中,“Scrapy抓取美女图片并且保存”是一个典型的数据抓取应用,主要涉及以下几个关键知识点: 1. **Scrapy框架**:...
在本项目中,我们将深入探讨如何使用Python的Scrapy框架来抓取古诗数据,包括唐诗和宋词,最终将这些数据存储为JSON格式。Scrapy是一个强大的、专为爬取网站并提取结构化数据而设计的工具,非常适合进行大规模的数据...
基于Python和Echarts职位画像系统,使用Scrapy抓取职位招聘数据,使用Django+echarts完成数据可视化。 环境安装配置 建议直接安装anconda,然后git clone后进入项目目录,执行pip install -r requirements.txt ...
在本项目中,我们利用Scrapy来抓取和讯论坛上的特定关键字搜索结果,包括帖子的内容、发帖人以及发帖时间。以下是关于这个任务的详细知识点和步骤: 1. **Scrapy框架基础**: - Scrapy由多个组件构成,如Spiders...
Scrapy是一个强大的Python爬虫框架,它允许开发者高效地抓取网页内容并处理数据。在本项目中,我们将探讨如何使用Scrapy来抓取在线图书网站的资源,并将抓取到的数据异步存储到MySQL数据库中。这涉及到几个关键的...
基于Python和Echarts职位画像系统,使用Scrapy抓取职位招聘数据,使用Django+echarts完成数据可视化。 环境安装配置 建议直接安装anconda,然后git clone后进入项目目录,执行pip install -r requirements.txt 项目...
Python-scrapy是一个强大的框架,专为网络爬虫设计,用于高效、结构化地抓取大量网页数据。在本项目中,“Python-scrapy抓取链家网二手房成交数据”旨在利用Scrapy来收集链家网上关于二手房成交的具体信息,如房源...
通过django创建搜网网站,通过elasticsearch实现动态搜索scrapy抓取的数据.zip
在本文中,我们将深入探讨如何使用Python的Scrapy框架来抓取拉勾网上的Java招聘信息,并将这些数据处理成词云。首先,我们要了解Scrapy,这是一个强大的、用于Web抓取和信息提取的Python框架,它提供了高效且灵活的...
Scrapy是一个强大的Python爬虫框架,常用于网络数据抓取。在这个项目中,"Scrapy 抓取 网易严选、小米有品产品数据.zip",开发者使用Scrapy来收集网易严选和小米有品两个电商平台上的产品数据。这通常涉及到网页解析...
Scrapy是一个强大的Python爬虫框架,它为开发者提供了构建网络爬虫所需的各种工具和组件,使得数据抓取工作变得高效且便捷。在这个项目中,我们将使用Scrapy来抓取Google App Store的应用信息,并将这些数据存储到...
2. **Scrapy**: Scrapy是一个强大的Python爬虫框架,用于高效地抓取网页数据。它提供了结构化的数据处理管道(Pipeline)和中间件(Middleware)机制,使得开发者可以便捷地构建和管理网络爬虫项目。在这个项目中,...
虽然scrapy能够完美且快速的抓取静态页面,但是在现实中,目前绝大多数网站的页面都是动态页面,动态页面中的部分内容是浏览器运行页面中的JavaScript脚本动态生成的,爬取相对困难; 比如你信心满满的写好了一个...
scrapy抓取数据存储至本地mysql数据库 基于python开发,采用scrapy,数据存储至本地数据库(或excel表格) 程序的主要目的是完成抓取和分析的任务同时学习爬虫相关知识,所以在细节处理上略有不足,但考虑到最终的...
使用python的爬虫框架scrapy抓取51job网站的招聘信息并存入文件 (DataSpider) 二、大数据存储 编写java脚本使用HDFS API把数据上传到HDFS文件系统 三、大数据处理 使用Hadoop处理大数据 (BigDataHandler) - 不懂运行...
基于Python和Echarts职位画像系统,使用Scrapy抓取职位招聘数据,使用Django+echarts完成数据可视化。 环境安装配置 建议直接安装anconda,然后git clone后进入项目目录,执行pip install -r requirements.txt ...