`
zhimaruanjian
  • 浏览: 32690 次
  • 性别: Icon_minigender_1
文章分类
社区版块
存档分类
最新评论

芝麻HTTP:Python爬虫进阶之Scrapy框架安装配置

 
阅读更多

初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。

Windows 平台:

我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同。

官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程。

1.安装Python

安装过程我就不多说啦,我的电脑中已经安装了 Python 2.7.7 版本啦,安装完之后记得配置环境变量,比如我的安装在D盘,D:\python2.7.7,就把以下两个路径添加到Path变量中

D:\python2.7.7;D:\python2.7.7\Scripts

 配置好了之后,在命令行中输入 python –version,如果没有提示错误,则安装成功

QQ截图20150211171953

2.安装pywin32

在windows下,必须安装pywin32,安装地址:http://sourceforge.net/projects/pywin32/

下载对应版本的pywin32,直接双击安装即可,安装完毕之后验证:

QQ截图20150211171713

在python命令行下输入

import win32com

如果没有提示错误,则证明安装成功

3.安装pip

pip是用来安装其他必要包的工具,首先下载 get-pip.py

下载好之后,选中该文件所在路径,执行下面的命令

​python get-pip.py

 执行命令后便会安装好pip,并且同时,它帮你安装了setuptools

安装完了之后在命令行中执行

​pip --version

 如果提示如下,说明就安装成功了,如果提示不是内部或外部命令,那么就检查一下环境变量有没有配置好吧,有两个路径。

QQ截图20150211171001

4.安装pyOPENSSL

在Windows下,是没有预装pyOPENSSL的,而在Linux下是已经安装好的。

安装地址:https://launchpad.net/pyopenssl

5.安装 lxml

lxml的详细介绍 点我 ,是一种使用 Python 编写的库,可以迅速、灵活地处理 XML

直接执行如下命令

​pip install lxml

 就可完成安装,如果提示 Microsoft Visual C++库没安装,则 点我 下载支持的库。

6.安装Scrapy

最后就是激动人心的时刻啦,上面的铺垫做好了,我们终于可以享受到胜利的果实啦!

执行如下命令

pip install Scrapy

 QQ截图20150211172637

pip 会另外下载其他依赖的包,这些就不要我们手动安装啦,等待一会,大功告成!

7.验证安装

输入 Scrapy

如果提示如下命令,就证明安装成功啦,如果失败了,请检查上述步骤有何疏漏。

QQ截图20150211172456

Linux Ubuntu 平台:

Linux 下安装非常简单,只需要执行几条命令几个

1.安装Python

​sudo apt-get install python2.7 python2.7-dev

 2.安装 pip

首先下载 get-pip.py

下载好之后,选中该文件所在路径,执行下面的命令

sudo python get-pip.py

 3.直接安装 Scrapy

由于 Linux下已经预装了 lxml 和 OPENSSL

如果想验证 lxml ,可以分别输入

sudo pip install lxml

 出现下面的提示这证明已经安装成功

​

Usage:
 scrapy <command> [options] [args]
 
Available commands:
 bench Run quick benchmark test
 fetch Fetch a URL using the Scrapy downloader
 runspider Run a self-contained spider (without creating a project)
 settings Get settings values
 shell Interactive scraping console
 startproject Create new project
 version Print Scrapy version
 view Open URL in browser, as seen by Scrapy
 
 [ more ] More commands available when run from project directory

​

 截图如下

2015-02-12 01:00:22 的屏幕截图

 

如有问题,欢迎留言!祝各位小伙伴顺利安装!

分享到:
评论

相关推荐

    Scrapy Web爬虫框架 v1.8.4.zip

    Scrapy是一个强大的Python web爬虫框架,用于高效地抓取网页数据和提取结构化信息,尤其适合大规模的数据抓取项目。v1.8.4是Scrapy的一个版本,提供了稳定和优化的功能,使得开发者能够更加便捷地构建和管理爬虫项目...

    python实战项目源码-商城源码-含可执行文件.zip

    3. **网络爬虫**:Python的BeautifulSoup、Scrapy等库用于从互联网上抓取数据,这对于获取竞争对手信息、市场趋势分析等场景极具价值。 4. **游戏开发**:虽然商城系统不是游戏,但Python的Pygame库可以用于开发2D...

    [搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.zip

    - 探索分布式爬虫,如使用Apache Nutch或Scrapy(Python框架)。 总结,"Java网络爬虫(蜘蛛)源码_zhizhu.zip"是一个适合初学者实践和研究的项目,通过它,你可以深入理解网络爬虫的工作流程,学习Java JSP的实战...

    python实战项目源码-高德地图-含可执行文件.zip

    Python的BeautifulSoup、Scrapy框架等可以帮助抓取和解析网页数据,有效获取地图上的各种信息。 6. **游戏开发**:虽然标题提到游戏开发,但在这个上下文中可能是指使用地图数据来创建模拟或策略游戏的场景。Python...

    Python源码实例-翻译软件.zip

    4. **网络爬虫**:为了获取网络上的多语言资源,软件可能使用了Python的Scrapy、BeautifulSoup等网络爬虫框架。这些工具可以抓取网页内容,提取需要翻译的文本,甚至从在线翻译服务中获取结果。 5. **游戏开发**:...

    Python源码实例-画爱心.zip

    数据分析库如Pandas和NumPy,以及爬虫库如BeautifulSoup和Scrapy,都是Python的强大功能。 9. **自动化**: - 这个简单的爱心绘制程序也可以视为一种自动化,因为它可以根据指令重复执行相同的任务,无需人工干预...

    文件图形多媒体-用Python实现文件对比分析并生成报告-Python源码示例.zip

    Python的requests库用于发送HTTP请求,BeautifulSoup解析HTML和XML文档,scrapy是一个强大的爬虫框架,可以构建复杂的爬虫项目。 7. **报告生成**:Python的reportlab库可以生成PDF报告,Jinja2模板引擎则用于...

    Python源码实例-贺卡.zip

    6. **网络爬虫**:虽然不常见,但如果你的贺卡实例需要从网上抓取特定图片或信息,Python的网络爬虫技术(如BeautifulSoup和Scrapy)就派上用场了。这可以实现自动收集网络上的贺卡素材。 7. **游戏开发**:虽然...

    核心基础-实现日间、星期客流高峰提示-Python实例源码.zip

    11. **网络爬虫**:如果客流数据是从网站抓取的,那么可能用到了Python的网络爬虫技术,如BeautifulSoup或Scrapy框架,来自动收集和整理数据。 以上就是这个项目中涉及的主要Python技术及其应用。通过深入理解这些...

    数据分析和图标-Python统计年度消费账单-Python源码示例.zip

    Python的BeautifulSoup和Scrapy框架可以抓取网页上的信息,这对于收集在线消费数据非常有用。例如,Python可以自动访问电商网站,抓取用户的购物记录,以便进行更全面的消费分析。 总的来说,这个压缩包中的Python...

    Python游戏源码实例-中国象棋.zip

    11. **网络爬虫**:如果想收集大量棋局数据,可以使用Python的网络爬虫技术,如BeautifulSoup和Scrapy框架,从网上抓取公开的棋谱。 通过学习和分析这个中国象棋游戏的源码,你不仅能提升Python编程技能,还能掌握...

    文件图形多媒体-竞猜电影主演-Python源码示例.zip

    2. **网络爬虫**:为了获取电影信息,比如主演姓名和电影海报,开发者可能使用Python的网络爬虫框架,如BeautifulSoup、Scrapy或Requests+PyQuery。爬虫会从电影数据库网站或者API接口抓取所需数据,然后存储到本地...

    文件图形多媒体-用Python制作mini翻译器-Python源码示例.zip

    常用的爬虫库有BeautifulSoup和Scrapy。 7. **多媒体处理**:若翻译器支持音频或视频的翻译,可能就需要到多媒体处理库,如moviepy(视频处理)、pydub(音频处理)等。这些库可以帮助提取多媒体中的文本内容进行...

    Python源码实例-桌面宠物.zip

    Python的Scrapy框架或简单地结合requests和BeautifulSoup可以实现这一功能。例如,宠物可以定期从网络上抓取新的表情图片,以增加其表达的多样性。 总的来说,这个“Python源码实例-桌面宠物.zip”项目涵盖了Python...

    芝麻小程序应用市场带后台管理和爬虫Hotapp小程序统计开源

    Python的Scrapy或JavaScript的Puppeteer等爬虫工具可能会被用来抓取网络数据,而BeautifulSoup、JQuery等库可能用于解析网页内容。 5. **开源**: 开源意味着该项目的源代码是公开的,允许其他开发者查看、学习和...

    python实战项目源码-智能停车场车牌识别计费系统-含可执行文件.zip

    Python的BeautifulSoup或Scrapy框架可以实现这些功能。 数据分析在系统优化中起到关键作用,可以分析停车流量、高峰期、平均停车时长等,为决策提供依据。Pandas库可用于数据清洗和分析,Matplotlib或Seaborn用于...

    数据分析和图标-日常消费数据占比分析总结年消费方向-Python源码示例.zip

    8. **网络爬虫**:虽然此项目没有直接提及网络爬虫,但Python的网络爬虫技术(如BeautifulSoup、Scrapy等)可以用于从网站抓取消费数据,尤其对于在线购物记录或银行交易记录的收集非常有用。 9. **数据分析流程**...

    数据分析和图标-批量为电商数据添加tag标签-Python源码示例.zip

    8. **网络爬虫**:虽然标签添加可能是基于已有数据,但如果是从网站抓取数据,Python的网络爬虫技术(如BeautifulSoup和Scrapy框架)就显得尤为重要。这些工具可以自动抓取网页内容,提取结构化数据,为数据分析提供...

    综合-模拟医院分诊排号系统-Python源码示例.zip

    Python的BeautifulSoup和Scrapy等库能帮助抓取网页数据。 9. **数据分析**:系统可能包含对病人流量、平均等待时间等数据的统计分析,利用Python的pandas、numpy和matplotlib库进行数据处理和可视化。 10. **异常...

    办公自动化-Python定制发送带Excel附件的电子邮件-Python源码示例.zip

    10. **游戏开发和网络爬虫**:虽然本示例主要关注邮件自动化,但Python同样在游戏开发和网络爬虫领域有广泛应用。例如,Pygame库可用于2D游戏开发,而BeautifulSoup、Scrapy等库则用于网页抓取和数据分析。 综上所...

Global site tag (gtag.js) - Google Analytics