本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
pip install scrapy Microsoft visual c++ 14.0 is required
很久没来写文章了,今天使用scrapy编写爬虫代码的时候,在使用pip install scrapy安装模块的时候出现了Microsoft visual c++ 14.0 is required的错误提示,导致scrapy安装失败,后来经过查阅相关资料解决了,小弟不才,把解决方法总结出来供各位仁兄参考。
本人python版本为3.6,操作系统为Windows 10 ...
python之scrapy(一)
通过workon进入后创建的虚拟环境article_spider
虚拟环境只是用来关联项目的环境的例如,pip加载的一些插件也会直接放入你的虚拟环境中
在e盘创建一个scrapy 项目:
pip install scrapy
window10的环境下可能会报错,因为一个需要安装一个window10的本地环境,需要去
http://www.lfd.uci.edu/~gohlke/ ...
scrapy的简单demo
一个scrapy使用的demo,以后抓数据可以参考它
1.Items
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
...
安装Scrapy
1.我的python 版本是 Python 3.5.3 (v3.5.3:1880cb95a742, Jan 16 2017, 16:02:32) [MSC v.1900 64 bit (AM
D64)] on win32
2.安装的时候 可能提示缺c++的库
安装vs c++ 2015 (visualcppbuildtools_full.exe)
vs c++: h ...
从0开始基于python3用scrapy爬取数据
写在开头:
博主刚开始爬取数据的时候选中的kanzhun网,结果被封了ip -_- 。查看了kanzhun网的robots协议(http://www.kanzhun.com/robots.txt),发现它们非常严格,就是这个不让爬那个也不让爬。于是想起了参加儿博会的时候被安利的一个母婴电商app,一看他们连robots协议都没有,想必是程序员都去赶功能去了,应该是我们都喜闻乐见的网站。于是进 ...
eclipse创建scrapy项目
1.
您必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中(比如否F:/demo),运行下列命令:
scrapy startproject tutorial
2.在eclipse中创建一个python项目 ,在F:/demo目录下 把刚创建的项目 tutorial 和scrapy.cfg配置文件拷入 eclipse下的python项目中
3.在python项目下tutorial/sp ...
windows下安装Scrapy框架(python)
1、下载安装Python2.7.6,因为Scrapy还不支持3.x版本。Latest Python 2 Release - Python 2.7.6,安装时选择当前用户。
2、到http://sourceforge.NET/projects/pywin32/files/pywin32/B ...
win7环境scrapy集成selenium爬取动态网页
scrapy可以爬取静态页面,但目前越来越多的网站数据都是通过js动态加载处理的。要想爬取这部分数据必不可少的对js处理的动态页面进行处理。一个简单的方法就是集成js处理工具,笔者在此选用的是selenium。
scrapy的安装见笔者其他文章。在此笔者使用的是win7 64位环境。
python环境安装selenium较为简单,使用命令可以自动获取最新版本的selenium,笔者安装的是s ...
win7环境scrapy输出错误日志报错解决方案
win7下调试scrapy代码时,出现代码报错,但是未输出到log日志,而是在cmd中报如下错误:
Traceback (most recent call last): File "d:\python27\lib\logging\__init__.py", line 884, in emit stream.write(fs % msg.encode("UTF ...
Scrapy1.0教程 - 目录汇总贴
Scrapy是python开发的著名爬虫框架,目前使用非常广泛。本教程基于最新的1.0版本,通过实际的例子带领你一步步掌握Scrapy核心,以后会持续更新改进。
Scrapy笔记(1)- 入门篇
Scrapy笔记(2)- 完整示例
Scrapy笔记(3)- Spider详解
Scrapy笔记(4)- Selector详解
Scrapy笔记(5)- Item详解
Scrapy笔记(6 ...
scrapy缺省配置
BOT_NAME = ‘scrapybot’
CLOSESPIDER_TIMEOUT = 0
CLOSESPIDER_PAGECOUNT = 0
CLOSESPIDER_ITEMCOUNT = 0
CLOSESPIDER_ERRORCOUNT = 0
COMMANDS_MODULE = ”
CONCURRENT_ITEMS = 100
CONCURRENT_REQUESTS = 16
CON ...
一个易用的轻量级的网络爬虫(Easy to use lightweight web crawler)
GECCO(易用的轻量化的网络爬虫)
初衷
现在开发应用已经离不开爬虫,网络信息浩如烟海,对互联网的信息加以利用是如今所有应用程序都必须要掌握的技术。了解过现在的一些爬虫软件,python语言编写的爬虫框架scrapy得到了较为广泛的应用。gecco的设计和架构受到了scrapy一些启发,结合java语言的特点,形成了如下软件框架。易用是gecco框架首要目标,只要有一些jav ...
scrapy 抓的段子里的 \n 去不掉
''.join(sel.css("div.item-content::text").extract()).strip()
数据库里的 段子 还是有 \n
如下:
"body" : "我一朋友他恋上一位女神,头一次表白被谢绝了,他掉头就走。\n几天后女神主动找他问:你咋只表白一次?为什么不多表白几次?\n于是朋友说了一番话:“刮奖刮到一个谢字就 ...
创建编码一个spider的具体步骤
为使项目框架结构清晰,添加的spider的按城市划分存储位置。
例如宁波新闻网—综合频道,则在spiders下面建一个ningbo(宁波)的文件夹,将该版面的spider写在该文件夹下面。
项目设计框架图:
实际项目tree图片见附件tree.jpg
webcrawler:.
|——scrapy.cfg
|——webcrawler:
|——items.py
...
Scrapy框架结合Spynner采集需进行js,ajax动态加载的网页并提取网页信息(以采集微信公众号文章列表为例)
对于网页的采集有这样几种:
1.静态网页
2.动态网页(需进行js,ajax动态加载数据的网页)
3.需进行模拟登录后才能采集的网页
4.加密的网页
3,4的解决方案和思路会在后续blog中陈述
现在只针对1,2的解决方案与思路:
一.静态网页
对于静态网页的采集解析方法很多很多!java,python都提供了很多的工具包或框架,例如java的httpclien ...