`

[爬虫]Scapy

阅读更多

1.安装(任意系统): pip install scrapy

 Linux下有可能报:安装Scrapy   报错

Could not find a version that satisfies the requirement Twisted>=13.1.0 (from Scrapy) (from versions: )
No matching distribution found for Twisted>=13.1.0 (from Scrapy)

原因是没有安装Twisted

 

wget https://twistedmatrix.com/Releases/Twisted/17.1/Twisted-17.1.0.tar.bz2
tar -jxvf Twisted-17.1.0.tar.bz2
cd Twisted-17.1.0
python setup.py install
cd ..
pip install scrapy

 

 解压报错还需要安装:yum -y install bzip2

 也可以使用:pip install Twisted==17.1.0  (https://pypi.org/project/Twisted/17.1.0/)

 

注意:这里有一个大坑,就是无论怎样都装不进Twisted,一直报setuptools too old.想了很多方法,试过

 

 pip install --upgrade pip
 pip install --upgrade setuptools

 发现都升级成功了,但是还是报错.然后查了一下pip的路径和version,发现是python3,那问题就出在python2和3的指向了.用python setup.py install,使用的是python2的,所以无论怎样更新,更新的都不是它.肯定报错了.这时

只需要使用python3 setup.py install,立马成功.

 

 

2.测试:Python下输入:

 

>>> import scrapy
>>> scrapy.version_info

 

输出(1, 5, 1),安装成功.

 

3.创建项目:

到你的项目路径下:

scrapy startproject example

 

4.数据信息:

在web页面任意item下右击审查元素可以看到其html信息

 

5.运行:

 

scrapy crawl books -o books.csv
 首先如果用的是python3.7,会报错: scrapy遇到async报错

 

每当出新语法糖,这些单词就会成为关键字,禁止当作变量名了。
这里async下面出现报错,因为await async成为了3.7的关键字,不能作为变量名使用。

进入manhole.py将async全改成async1就阔以了。

manhole.py路径可以从出错的log中看到.

 

然后报exceptions.ImportError: No module named _sqlite3

没有安装sqlite3,安装 sqlite-devel,重新安装python

 

yum install sqlite-devel

 

重新安装python,cd 解压文件夹,make 然后 make install

 

分享到:
评论

相关推荐

    廖雪峰商业爬虫.7z

    接下来,"2scapy框架及爬虫进阶"这部分内容可能涉及到Scapy库的应用。Scapy是一个强大的网络协议交互库,它可以用于创建、修改和发送几乎任何网络协议的数据包。在爬虫领域,Scapy可以用于探测网络环境,模拟各种...

    Scapy 中文文档

    Scapy 中文文档 原文:Welcome to Scapy's documentation! ---------------------------------------------------- 本 PDF 基于开源文档,目录书签齐全。 版权归原作者,翻译版权归译者。 -------------------------...

    Python3DHT网络磁力种子爬虫

    Python3DHT网络磁力种子爬虫是一种利用Python编程语言实现的特定爬虫程序,它主要针对DHT(Distributed Hash Table,分布式哈希表)网络进行操作,以获取网络中的磁力链接(Magnet URI)。DHT网络是P2P(对等网络)...

    《Python3网络爬虫开发实战代码》_python3_creaturerl3_python3爬虫_python_

    在这个项目中,可能讲解了如何使用Python3的网络库如Scapy或sslstrip进行HTTP/HTTPS流量的拦截和修改,这对于理解网络爬虫可能遇到的安全问题以及如何应对很有帮助。 综上所述,《Python3网络爬虫开发实战代码》这...

    实验01-搭建Python网络爬虫开发环境.docx

    添加清华镜像URL后,更新pip,接着安装requests、lxml、scapy和beautifulSoup4等网络爬虫常用库。这些库分别用于HTTP请求、XML和HTML解析、网络封包分析和网页解析。 5. **编写简单测试程序**: - 创建Python项目...

    Python爬虫数据可视化分析大作业.zip

    这需要一定的网络分析和安全知识,可能需要用到Python的网络编程库,如Scapy或PycURL。 知识图谱是结构化数据的表示形式,用于存储和查询实体之间的关系。在疫情研究中,知识图谱可以用来构建疾病传播模型,理解...

    Python反爬虫设计.zip

    Python中可以使用如`gevent`或`scapy`库来处理网络请求,结合`requests`库实现IP限制功能。当IP达到特定阈值时,将其加入黑名单,禁止其进一步访问。 二、User-Agent检测 大部分爬虫会忽略设置User-Agent头,因此,...

    scrapy爬取文章站源码(可直接执行)

    Scrapy是一个强大的Python爬虫框架,它为网络数据抓取提供了高效的工具集,适用于复杂的网页抓取任务。本文将深入探讨如何使用Scrapy框架来爬取文章网站的源码,并结合提供的`seventeen_news`项目,帮助初学者快速...

    webmagic-爬虫开发源码分享

    WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider...这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy,但是实现方式更Java化一些。

    基于Python Scrapy实现的拉勾网全站职位数据采集 爬虫系统 含数据库处理和全部源代码

    基于Python Scrapy实现的拉勾网全站职位数据采集 爬虫系统 含数据库处理 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # ...

    python scrapy京东全站商品源码.zip

    【Python Scrapy 爬虫框架详解】 Scrapy是一个用Python编写的开源网络爬虫框架,它为构建高效且可扩展的爬虫提供了强大的支持。本项目“python scrapy京东全站商品源码”是一个利用Scrapy实现的京东全站商品抓取...

    Scrapy例子-hr网站

    Scrapy是一个强大的Python爬虫框架,专为数据抓取和数据处理设计,广泛应用于Web页面内容提取、数据挖掘以及搜索引擎索引等任务。本项目是一个关于HR(人力资源)网站的数据抓取实例,通过使用Scrapy,我们可以高效...

    Scrapy-redis爬虫分布式爬取的分析和实现

    Scrapy-Redis是一种结合了Scrapy爬虫框架与Redis数据结构服务器的分布式爬虫解决方案。Scrapy是一个功能强大的Python爬虫框架,用户只需编写少量组件即可实现高效的网页数据抓取。然而,面对大规模的网页抓取任务时...

    python3 Scrapy爬虫框架ip代理配置的方法

     在做爬虫项目的过程中遇到ip代理的问题,网上搜了一些,要么是用阿里云的ip代理,要么是搜一些网上现有的ip资源,然后配置在setting文件中。这两个方法都存在一些问题。 1、阿里云ip代理方法,网上大都是配置阿里...

    头条图集抓取——完整版python代码

    `scapy`库更加强大,可以用于构建复杂的网络数据包,可能在爬虫中用于模拟登录、处理饼干(cookies)或其他高级网络交互,以获取受限或动态生成的内容。 综上所述,这个项目涉及到的技术点包括Python爬虫基础、HTTP...

    ApacheCN Python 中文文档集

    【标题】"ApacheCN Python 中文文档集"涵盖了多个与Python相关的知名库的中文翻译文档,包括Django、Scapy和Scrapy。这些文档对于学习和深入理解Python开发中的Web框架、网络安全工具以及网络爬虫技术具有极大的价值...

    Python抓包并解析json爬虫的完整实例代码

    在Python爬虫开发中,有时候我们需要处理一些动态加载或者需要登录认证的网站,这时抓包分析网络请求就显得尤为重要。本实例将详细讲解如何利用Python抓包并解析JSON数据进行爬虫操作。 首先,理解抓包的概念。抓包...

    Scrapy软件包合集

    Scrapy是一个强大的Python爬虫框架,它为网络数据抓取提供了高效的工具和API,使得开发者可以专注于编写爬虫逻辑,而无需过多关注底层实现。在Scrapy软件包合集中,通常包含了Scrapy框架的核心组件以及一些常用扩展...

    spiderman:基于scrapy-redis的通用分布式爬虫框架

    蜘蛛侠基于scrapy-redis的通用分布式爬虫框架目录 demo采集效果爬虫元数据集群模式独立模式附件下载 kafka实时采集监控功能自动建表自动生成爬虫代码,只需编写少量代码即可完成分布式爬虫自动存储元数据,分析统计...

Global site tag (gtag.js) - Google Analytics