`
moxpeter
  • 浏览: 35752 次
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

scrapy 抓取京东首页

 
阅读更多

python version 2.7

开发工具:eclipse+pydev

安装好Scrapy后需要将python安装目录下的Script配置到环境中


在cmd中进入workspace执行

scrapy startproject ptspider

生成了scrapy的配置文件

在spiders路径下新建文件命名为JDSpider.py


from scrapy.spider import BaseSpider
class JDSpider(BaseSpider):
name = "360buy.com"
allowed_domains = ["360buy.com"]
start_urls = ["http://www.360buy.com/?utm_source=media&utm_medium=cpc&utm_campaign=&utm_term=semmedia_1_15"]

def parse(self, response):
filename = response.url.split("/")[-2] + '.html'
print(response.body)
open(filename, 'wb').write(response.body)

在cmd中cd到ptspider路径下执行 scrapy crawl 360buy.com

抓到京东首页的文件www.360buy.com.html

分享到:
评论

相关推荐

    用scrapy框架实现京东手机信息爬取

    通过上述步骤,我们可以使用Scrapy从京东网站抓取手机商品信息,再将数据存储到MySQL数据库中,实现自动化数据采集。这个项目不仅展示了Scrapy的基本用法,还涵盖了爬虫项目开发的完整流程,对于学习Python爬虫和Web...

    Scrapy抓取京东商品、豆瓣电影及代码分享

    ### Scrapy抓取京东商品、豆瓣电影及代码分享 #### Scrapy概述 Scrapy是一个用Python编写的开源和协作的框架,专为Web抓取和屏幕抓取设计。该框架功能强大,支持从Web站点抓取数据并将其转换为结构化格式。Scrapy的...

    京东/天猫scrapy爬虫实例

    在这个“京东/天猫scrapy爬虫实例”中,我们将探讨如何利用Scrapy来抓取京东和天猫等电商平台的数据,并将其存储到MongoDB数据库中。 首先,我们来看`settings.py`文件。这个文件是Scrapy项目的配置中心,包含了...

    京东爬虫,可抓取京东商品信息和评论

    总的来说,这个"京东爬虫"项目涵盖了Scrapy的基本使用,以及针对特定网站的爬取策略。通过学习和实践该项目,你可以深入了解Python爬虫开发,提升网络数据抓取能力。在实际操作时,需遵守网站的robots.txt规则,尊重...

    python爬虫框架scrapy实战之爬取京东商城进阶篇

    之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧。 代码详解 1、首先...

    python scrapy京东全站商品源码.zip

    它会定义起始URL(如京东首页或商品分类页),并设置解析规则(使用XPath或CSS选择器)来提取商品链接、名称、价格等信息。 - **请求(Requests)**:Scrapy使用`Request`对象表示网络请求,其中包含了URL、回调函数...

    python+selenium动态实战:抓取京东商城信息

    总的来说,通过Python+Selenium,我们可以有效地抓取京东商城的动态信息。在实际操作中,不断学习和实践,理解网页结构,灵活运用各种技术,将使你的爬虫技能更加熟练。记住,遵守网络爬虫的道德规范,尊重网站的...

    scrapy京东爬虫,保存到json.zip

    Scrapy是一个强大的Python爬虫框架,它为开发者提供了一套高效、便捷的Web抓取及数据提取工具。在“scrapy京东爬虫,保存到json”这个项目中,我们可以了解到如何利用Scrapy来爬取京东网站上的数据,并将结果保存为...

    抓取京东,国美,苏宁的价格.zip

    标题中的“抓取京东,国美,苏宁的价格.zip”表明这是一个关于网络爬虫技术的项目,主要用于从京东、国美和苏宁这三个电商平台抓取商品价格信息。网络爬虫是计算机科学领域的一种自动化程序,用于从互联网上搜集大量...

    python 2.x; scrapy spider; 京东数据抓取;大众点评网数据抓取;豆瓣数据抓取.zip

    Big Data (大数据),或称巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集。大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖...

    京东Spider类爬商品价格等信息(scrapy爬虫框架)

    本项目聚焦于利用Scrapy框架设计一个Spider,来抓取京东网站上的商品价格等关键信息。下面我们将深入探讨Scrapy的基本结构、如何构建Spider以及在京东平台爬取数据时可能遇到的挑战。 首先,Scrapy框架由多个组件...

    scrapy框架实现JD指定类目宝贝信息抓取(可供参考学习)

    在"JD指定类目宝贝信息抓取"这个项目中,我们将探讨如何利用Scrapy来抓取京东平台上的特定商品信息。首先,我们需要安装Scrapy框架,这可以通过在命令行输入`pip install scrapy`来完成。 一、Scrapy项目创建与结构...

    用scrapy写的京东爬虫.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    JD_scrapy.zip

    【标题】"JD_scrapy.zip" 是一个包含Python爬虫项目的压缩文件,专注于抓取京东网站的商品信息。这个项目利用了Scrapy框架,一个强大的、为Web抓取和数据分析设计的开源框架。Scrapy被广泛应用于数据挖掘、监测和...

    淘宝,京东,苏宁Scrapy爬虫.zip

    Scrapy是一个强大的Python爬虫框架,常用于数据抓取和数据处理。在电子商务领域,如淘宝、京东和苏宁,商家经常会有抢购和秒杀活动,这些活动的信息往往蕴含着丰富的商业价值。为了获取这些数据,我们可以利用Scrapy...

    爬虫电商项目:用scrapy分布式爬虫框架爬取当当商品信息,用selenium模拟登录淘宝和京东收集商.zip

    在这个名为"爬虫电商项目:用scrapy分布式爬虫框架爬取当当商品信息,用selenium模拟登录淘宝和京东收集商-ecommerce"的压缩包文件中,包含了一个名为"ecommerce-master"的项目,这显然是一个电商数据爬取的实例。...

    抓取各大主流商城数据 淘宝 京东.zip

    本压缩包文件"抓取各大主流商城数据 淘宝 京东.zip"提供了针对淘宝和京东两大电商平台的数据抓取代码或工具,名为"Grab-master"。这个项目可能是用Python等编程语言实现的,因为Python在Web爬虫领域非常流行,拥有...

Global site tag (gtag.js) - Google Analytics