`
kevinflynn
  • 浏览: 41628 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

在Linux环境下安装Scrapy框架

 
阅读更多

需要安装的依赖:

1.Python

2.setuptools

3.twisted

4.zope.interface

5.w3lib

6.libxml2

7.libxslt

8.lxml

9.scrapy

 

Scrapy是一个开源的基于twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。

yum install gcc python-devel

http://www.cnblogs.com/xiaoruoen/archive/2013/02/27/2933854.html

http://www.coder4.com/archives/3660

 

vim~/.bashrc
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/liheyuan/env/lib

 

若出现gcc exit的情况适用下面的命令安装

yum install gcc libffi-devel python-devel openssl-devel  

 

 

 

下面文章来源于http://www.cnblogs.com/xiaoruoen/archive/2013/02/27/2933854.html

Scrapy是一个开源的机遇twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。

安装环境:

 

centos5.4
python2.7.3

 

安装步骤:

1.下载python2.7  http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tgz

复制代码
[root@zxy-websgs ~]# wget http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tgz -P /opt

[root@zxy-websgs opt]# tar xvf Python-2.7.3.tgz 

[root@zxy-websgs Python-2.7.3]# ./configure 

[root@zxy-websgs Python-2.7.3]# make && make install
复制代码

 验证python2.7安装

[root@zxy-websgs Python-2.7.3]# python2.7
Python 2.7.3 (default, Feb 28 2013, 03:08:43) 
[GCC 4.1.2 20080704 (Red Hat 4.1.2-50)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> exit()

2.安装setuptools,http://pypi.python.org/packages/source/s/setuptools/setuptools-0.6c11.tar.gz

[root@zxy-websgs ~]# wget http://pypi.python.org/packages/source/s/setuptools/setuptools-0.6c11.tar.gz -P /opt/
[root@zxy-websgs opt]# tar zxvf setuptools-0.6c11.tar.gz 
[root@zxy-websgs setuptools-0.6c11]# python2.7 setup.py  install

 

3.安装Twisted

[root@zxy-websgs setuptools-0.6c11]# easy_install Twisted
......
Installed /usr/local/lib/python2.7/site-packages/Twisted-12.3.0-py2.7-linux-x86_64.egg
......
Installed /usr/local/lib/python2.7/site-packages/zope.interface-4.0.4-py2.7-linux-x86_64.egg

Twisted要安装zope.interface,可以从下面地址下载

zope.interface:http://pypi.python.org/packages/source/z/zope.interface/zope.interface-4.0.1.tar.gz

twisted:http://twistedmatrix.com/Releases/Twisted/12.1/Twisted-12.1.0.tar.bz2

5.安装w3lib

复制代码
[root@zxy-websgs setuptools-0.6c11]# easy_install -U w3lib
Searching for w3lib
Reading http://pypi.python.org/simple/w3lib/
Reading http://github.com/scrapy/w3lib
Best match: w3lib 1.2
Downloading http://pypi.python.org/packages/source/w/w3lib/w3lib-1.2.tar.gz#md5=f929d5973a9fda59587b09a72f185a9e
Processing w3lib-1.2.tar.gz
Running w3lib-1.2/setup.py -q bdist_egg --dist-dir /tmp/easy_install-wm_1BB/w3lib-1.2/egg-dist-tmp-2DQHY_
zip_safe flag not set; analyzing archive contents...
Adding w3lib 1.2 to easy-install.pth file

Installed /usr/local/lib/python2.7/site-packages/w3lib-1.2-py2.7.egg
Processing dependencies for w3lib
Finished processing dependencies for w3lib
复制代码

w3lib:http://pypi.python.org/packages/source/w/w3lib/w3lib-1.2.tar.gz

6.安装libxml2或者用easy_install安装lxml

[root@zxy-websgs lxml-3.1.0]# easy_install lxml

验证lxml安装

[root@zxy-websgs lxml-3.1.0]# python2.7
Python 2.7.3 (default, Feb 28 2013, 03:08:43) 
[GCC 4.1.2 20080704 (Red Hat 4.1.2-50)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import lxml
>>> exit()

也可以安装libxml2,官网上推荐安装2.6.28或者以上的版本,但在官网上没找到,我先是安装的2.6.9的版本,运行scrapy时报以下错误

复制代码
Traceback (most recent call last):
  File "/usr/local/bin/scrapy", line 5, in <module>
    pkg_resources.run_script('Scrapy==0.14.4', 'scrapy')
  File "build/bdist.linux-x86_64/egg/pkg_resources.py", line 489, in run_script
  File "build/bdist.linux-x86_64/egg/pkg_resources.py", line 1207, in run_script
  File "/usr/local/lib/python2.7/site-packages/Scrapy-0.14.4-py2.7.egg/EGG-INFO/scripts/scrapy", line 4, in <module>
    execute()
  File "/usr/local/lib/python2.7/site-packages/Scrapy-0.14.4-py2.7.egg/scrapy/cmdline.py", line 112, in execute
    cmds = _get_commands_dict(inproject)
  File "/usr/local/lib/python2.7/site-packages/Scrapy-0.14.4-py2.7.egg/scrapy/cmdline.py", line 37, in _get_commands_dict
    cmds = _get_commands_from_module('scrapy.commands', inproject)
  File "/usr/local/lib/python2.7/site-packages/Scrapy-0.14.4-py2.7.egg/scrapy/cmdline.py", line 30, in _get_commands_from_module
    for cmd in _iter_command_classes(module):
  File "/usr/local/lib/python2.7/site-packages/Scrapy-0.14.4-py2.7.egg/scrapy/cmdline.py", line 21, in _iter_command_classes
    for module in walk_modules(module_name):
  File "/usr/local/lib/python2.7/site-packages/Scrapy-0.14.4-py2.7.egg/scrapy/utils/misc.py", line 65, in walk_modules
    submod = __import__(fullpath, {}, {}, [''])
  File "/usr/local/lib/python2.7/site-packages/Scrapy-0.14.4-py2.7.egg/scrapy/commands/shell.py", line 8, in <module>
    from scrapy.shell import Shell
  File "/usr/local/lib/python2.7/site-packages/Scrapy-0.14.4-py2.7.egg/scrapy/shell.py", line 14, in <module>
    from scrapy.selector import XPathSelector, XmlXPathSelector, HtmlXPathSelector
  File "/usr/local/lib/python2.7/site-packages/Scrapy-0.14.4-py2.7.egg/scrapy/selector/__init__.py", line 30, in <module>
    from scrapy.selector.libxml2sel import *
  File "/usr/local/lib/python2.7/site-packages/Scrapy-0.14.4-py2.7.egg/scrapy/selector/libxml2sel.py", line 12, in <module>
    from .factories import xmlDoc_from_html, xmlDoc_from_xml
  File "/usr/local/lib/python2.7/site-packages/Scrapy-0.14.4-py2.7.egg/scrapy/selector/factories.py", line 14, in <module>
    libxml2.HTML_PARSE_NOERROR + \
AttributeError: 'module' object has no attribute 'HTML_PARSE_RECOVER'
复制代码

升级到2.6.21版本以后解决了。

libxml2.6.1:ftp://xmlsoft.org/libxml2/python/libxml2-python-2.6.21.tar.gz

7.安装pyOpenSSL(这个是可选安装的,主要为了使scrapy能够支持https)

用easy_install pyOpenSSL安装的是pyOpenSSL-0.13版本,没安装成功,于是手动下载.011版本来进行安装。

[root@zxy-websgs opt]# wget http://launchpadlibrarian.net/58498441/pyOpenSSL-0.11.tar.gz -P /opt
[root@zxy-websgs opt]# tar zxvf pyOpenSSL-0.11.tar.gz 
[root@zxy-websgs pyOpenSSL-0.11]# python2.7 setup.py install

pyOpenSSL:http://launchpadlibrarian.net/58498441/pyOpenSSL-0.11.tar.gz

8.安装scrapy

[root@zxy-websgs pyOpenSSL-0.11]# easy_install -U Scrapy

验证安装

复制代码
[root@zxy-websgs pyOpenSSL-0.11]# scrapy
Scrapy 0.16.4 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  fetch         Fetch a URL using the Scrapy downloader
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy <command> -h" to see more info about a command
复制代码

scrapy:http://pypi.python.org/packages/source/S/Scrapy/Scrapy-0.14.4.tar.gz

总结:

pyOpenSSL单独安装的时候不成功,也可以先下载pyOpenSSL0.11进行安装,再使用easy_install -U Scrapy进行全程安装

 

Python安装lxml(编译安装其依赖的库)

 

依赖说明:

lxml是libxml2、libxslt的PythonBinding,依赖于libxml2和libxslt。libxslt依赖于libxml2。

由于我们的程序可能要分发到别的机器运行,所以要提取出一个可独立拷贝走的运行时环境,假设该目录为/home/liheyuan/env

1、安装libxml2

2、安装libxslt

3、安装lxml

依赖的库都搞定了,终于轮到Python的Binding了。

我们假设Python已经通过编译安装的方式,放到了同样的目录下:/home/liheyuan/env

最后看下效果:

错误提示,提示etree.so依赖错误!

由于so是我们自己build的,且不在系统默认环境变量路径内,所以我们需要把path加到系统环境变量(so)路径内,如下:

下次重新登陆Terminal就可以了!

分享到:
评论

相关推荐

    Scrapy框架安装.pdf

    本文将介绍Scrapy框架的安装步骤,包括在Windows、Linux和Mac OS三个操作系统上的安装方法。 一、Windows下的安装 在Windows下安装Scrapy需要使用pip工具,pip是Python的软件包管理器。首先,需要安装Python,如果...

    CentOS 6.5 安装python2.7 & scrapy 框架

    在CentOS 6.5上安装Python 2.7和Scrapy框架需要遵循上述步骤,确保正确配置环境并安装所有必要的依赖。请注意,这个过程可能需要一定的Linux基础和对命令行的熟悉。在安装过程中遇到任何问题,可以参考官方文档或...

    Scrapy完整环境安装所需文件

    Scrapy是一个强大的Python爬虫框架,用于高效地构建和运行网络爬虫项目。要搭建一个完整的Scrapy环境,首先需要确保你有一台装有Python的计算机。...熟悉并掌握Scrapy框架,能让你在数据抓取和网络爬虫领域游刃有余。

    python-scrapy安装问题详解

    Scrapy是一个快速高级的网页爬虫框架,专门用于抓取网站数据并从页面中提取结构化数据。...安装Scrapy时,除了遵循官方文档的步骤,也需要注意相关依赖库的兼容性和系统环境的配置,确保Scrapy框架能够顺利运行。

    在Linux系统上安装Python的Scrapy框架的教程

    Scrapy框架用Python开发而成,它使抓取工作又快又简单,且可扩展。我们已经在virtual box中创建一台虚拟机(VM)并且在上面安装了Ubuntu 14.04 LTS。 安装 Scrapy Scrapy依赖于Python、开发库和pip。Python最新的...

    Python网络爬虫Scrapy框架应用详解

    包括了Scrapy引擎的关键概念,如何安装设置Scrapy框架,基于Scrapy的基础知识,如创建项目和编写自己的爬虫,详细讲述了爬虫的创建步骤与技巧,并演示了解决实际案例的过程,还涉及到数据处理流程的相关讲解以及遇到...

    Centos7 Python3下安装scrapy的详细步骤

    在CentOS7上安装Python3和Scrapy框架的详细步骤是一项必要的任务,特别是对于那些希望在该操作系统上进行网络爬虫开发的用户。以下是一份详细的安装指南: 首先,确保你的系统已经更新到最新版本,并且安装了必要的...

    最新Scrapy爬虫框架

    1搭建开发环境: 主要知识点:Windows及Linux环境下Scrapy的安装。 2、Scrapy Shell以及Scrapy Selectors的使用。 3、使用Scrapy完成网站信息的爬取。 主要知识点:创建Scrapy项目(scrapy startproject)、定义提取...

    scrapy安装教程及工具包

    本文将详细讲解Scrapy的安装过程,并介绍一些必备的工具,以帮助您在Python 3.5.3 64位环境下顺利进行开发。 **一、Scrapy的安装** 首先,确保您已经安装了Python 3.5.3 64位版本。如果没有,可以访问Python官方...

    scrapy爬虫项目爬取腾讯,斗鱼

    主要知识点:Windows及Linux环境下Scrapy的安装。 2、Scrapy Shell以及Scrapy Selectors的使用。 3、使用Scrapy完成网站信息的爬取。 主要知识点:创建Scrapy项目(scrapy startproject)、定义提取的结构化数据(Item)...

    Python3网络爬虫实战总结:scrapy框架使用、ip代理、打码平台、linux命令、

    Python3网络爬虫实战总结:scrapy框架使用、ip代理、打码平台、linux命令、数据库操_Python-Spider

    傻瓜式Scrapy安装教程

    Scrapy是一个强大的Python爬虫框架,它为网络爬虫的构建、管理、调度等提供了便捷的工具和API。本文将详细介绍Scrapy的安装步骤,帮助初学者顺利进行安装。 首先,确保你已经安装了Python。Scrapy需要Python 3.6或...

    CPP库,scrapy依赖库

    这些库通常在安装Scrapy时会自动处理,但在某些环境下,如Windows,可能需要手动安装Visual C++ Build Tools来提供必要的编译环境。 视觉C++构建工具(visualcppbuildtools_full.exe)是微软提供的一个工具集,用于...

    python安装Scrapy图文教程

    在安装过程中,确保你的Python环境和所有依赖都是最新版本,并且检查系统环境变量是否设置正确,以便pip能够找到正确的编译工具。此外,确保你的系统满足所有依赖项的编译要求,比如C++编译器和Visual C++ Build ...

    基于gevent的mini-scrapy爬虫框架.zip

    - 在Windows环境下部署Python爬虫可能会遇到一些问题,如WSL(Windows Subsystem for Linux)或Anaconda环境的使用,了解这些问题有助于在实际环境中顺利部署。 6. **项目资源** - "项目授权码.txt"可能包含项目...

    基于 Go 语言编写的类似于 Python 的 Scrapy 框架的开源网络爬虫框架。

    跨平台:Go语言支持多种操作系统和平台,包括Windows、Linux、macOS等。它使用统一的构建系统(如Go Modules),可以轻松地跨平台编译和运行代码。 开源和社区支持:Go语言是开源的,具有庞大的社区支持和丰富的资源...

    python-scrapy框架.zip

    跨平台性:Python可以在多个操作系统上运行,包括Windows、Linux和MacOS等。 强大的社区支持:Python拥有庞大的开发者社区,提供了丰富的文档、教程和解决方案。 Python的应用范围广泛,包括但不限于: Web开发:...

    scrapy安装指南

    2. **环境隔离**:如果你希望在特定的Python环境中安装Scrapy,如使用虚拟环境(virtualenv或venv),首先创建并激活一个新环境,然后在该环境中执行上述pip安装命令。 3. **验证安装**:安装完成后,你可以通过...

Global site tag (gtag.js) - Google Analytics