scrapy抓取网站 - - ITeye博客

`

josephgao

浏览: 15678 次
性别:
来自: 北京

最近访客更多访客>>

来自原野

ericxt

iamnotterminator

waldo.wy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

scrapy抓取网站

阅读更多

1. 安装
easy install pip
pip install scrapy

2. Items, spider, itempipline 基本概念
scrapy startproject tutorial

vim items.py

 
class DmozItem(Item):
       
  #  define the fields for your item here like:
    name = Field()
    title = Field()
    link = Field()
    desc = Field()
class TorrentItem(Item):
    url = Field()
    name = Field()
    description = Field()
    size = Field()

vim spiders/dmoz_spider.py

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector 
from tutorial.items import DmozItem
class DmozSpider(BaseSpider):
    name = 'dmoz'
    allowed_domains = ['dmoz.org']
    start_urls = ["http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
        ]   
    def parse(self, response):
        sel = HtmlXPathSelector(response)
        sites = sel.select('//ul/li')
        items = []
        for site in sites:
            item = DmozItem()
            item['title'] = site.select('a/text()').extract()
            item['link'] = site.select('a/@href').extract()
            item['desc'] = site.select('text()').extract()
            items.append(item)
        return items

scrapy crawl dmoz -o items.json -t json

3常见问题
a. spider的name不能与项目名字相同

分享到：

hbase 问题及解决 | vim 快捷键

2013-11-04 15:09
浏览 818
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python使用scrapy抓取网站sitemap信息的方法: 主要介绍了Python使用scrapy抓取网站sitemap信息的方法,涉及Python框架scrapy的使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下

scrapy 抓取多级页面的某子二手车: 在这个“scrapy抓取多级页面的某子二手车”项目中，我们将深入探讨如何利用Scrapy来实现对二手车网站的多级页面抓取，包括数据的提取、解析、存储以及日志管理。首先，我们需要创建一个Scrapy项目。通过运行`...

基于Python和Echarts职位画像系统-用Scrapy抓取招聘数据使用Django+echarts完成数据可视化: 基于Python和Echarts职位画像系统-用Scrapy抓取招聘数据使用Django+echarts完成数据可视化，该项目是个人毕设项目，答辩评审分达到98分，代码都经过调试测试，确保可以运行！欢迎下载使用，可用于小白学习、进阶。该...

Python-scrapy抓取糗事百科热门: 【Python-scrapy抓取糗事百科热门】在Python开发领域，Web爬虫是一个重要的技术分支，用于自动收集网络上的信息。Scrapy是一个强大的、高效的爬虫框架，它为开发者提供了构建爬虫项目的便利。本教程将详细介绍如何...

Python-Scrapy练习项目利用Scrapy抓取古诗: 在本项目中，我们将深入探讨如何使用Python的Scrapy框架来抓取古诗数据，包括唐诗和宋词，最终将这些数据存储为JSON格式。Scrapy是一个强大的、专为爬取网站并提取结构化数据而设计的工具，非常适合进行大规模的数据...

Scrapy抓取美女图片并且保存: 在本项目中，“Scrapy抓取美女图片并且保存”是一个典型的数据抓取应用，主要涉及以下几个关键知识点： 1. **Scrapy框架**：Scrapy是Python的一个用于Web抓取的框架，它提供了一个高级结构来编写爬虫程序，处理网页...

使用Scrapy抓取职位招聘数据-爬虫python代码: 基于Python和Echarts职位画像系统，使用Scrapy抓取职位招聘数据，使用Django+echarts完成数据可视化。环境安装配置建议直接安装anconda，然后git clone后进入项目目录，执行pip install -r requirements.txt ...

scrapy知网专利爬虫: Scrapy是一个功能强大、高效的Python网络爬虫框架,非常适合用于爬取中国知网这样的专业学术资源网站。利用Scrapy可以快速开发一个高质量的知网专利信息爬虫。首先,需要确定要爬取的目标信息。对于知网专利,可以...

通过Scrapy抓取和讯论坛关键字搜索的结果: Scrapy是一个强大的Python爬虫框架，它为开发者提供了一套高效、灵活的工具，用于爬取网站并提取结构化数据。在本项目中，我们利用Scrapy来抓取和讯论坛上的特定关键字搜索结果，包括帖子的内容、发帖人以及发帖时间...

通过django创建搜网网站，通过elasticsearch实现动态搜索scrapy抓取的数据.zip: 通过django创建搜网网站，通过elasticsearch实现动态搜索scrapy抓取的数据.zip

Scrapy抓取资源Mysql异步存储: 在本项目中，我们将探讨如何使用Scrapy来抓取在线图书网站的资源，并将抓取到的数据异步存储到MySQL数据库中。这涉及到几个关键的技术点，包括Scrapy的基本结构、中间件、Pipeline以及MySQL数据库的连接和操作。 1....

Python-scrapy抓取链家网二手房成交数据: 在本项目中，“Python-scrapy抓取链家网二手房成交数据”旨在利用Scrapy来收集链家网上关于二手房成交的具体信息，如房源价格、面积、地理位置等。链家网作为中国领先的房产交易平台，其数据对于房地产市场的研究和...

基于Python和Echarts职位画像系统，使用Scrapy抓取职位招聘数据，使用Django+echarts完成数据可视化: 基于Python和Echarts职位画像系统，使用Scrapy抓取职位招聘数据，使用Django+echarts完成数据可视化。环境安装配置建议直接安装anconda，然后git clone后进入项目目录，执行pip install -r requirements.txt 项目...

Python-使用pythonscrapy抓取拉钩java招聘信息并制作成词云: Spiders是Scrapy的核心，负责定义如何从一个或多个网站抓取数据。Item定义了我们想要抓取的数据结构，而Item Pipeline则用于清洗、验证和存储这些数据。Request和Response对象用于在Scrapy框架内发送HTTP请求和处理...

毕设项目-基于python的爬虫框架scrapy抓取招聘网站的招聘信息，基于Hadoop处理数据+源码+文档说明: 使用python的爬虫框架scrapy抓取51job网站的招聘信息并存入文件 (DataSpider) 二、大数据存储编写java脚本使用HDFS API把数据上传到HDFS文件系统三、大数据处理使用Hadoop处理大数据 (BigDataHandler) - 不懂运行...

Scrapy 抓取网易严选、小米有品产品数据.zip: Scrapy是一个强大的Python爬虫框架，常用于网络数据抓取。在这个项目中，"Scrapy 抓取网易严选、小米有品产品数据.zip"，开发者使用Scrapy来收集网易严选和小米有品两个电商平台上的产品数据。这通常涉及到网页解析...

基于Python和Echarts职位画像系统，用Scrapy抓取招聘数据，使用Django+echarts完成数据可视化.zip: 在这个项目中，Scrapy被用来抓取招聘网站上的职位信息，如职位名称、公司、薪资、地点等。 3. **Echarts**: Echarts是一个由百度开发的开源JavaScript图表库，支持多种图表类型，如柱状图、折线图、饼图等，具有...

使用scrapy抓取google app store 信息写入mysql - 2018.6: 以上就是使用Scrapy抓取Google App Store信息并写入MySQL所需涉及的主要技术点。在实际操作中，可能还会遇到其他挑战，如动态加载的内容、登录验证等，需要根据具体情况进行处理。对于初学者来说，这个项目是一个很...

Global site tag (gtag.js) - Google Analytics