- 浏览: 5955 次
- 性别:
- 来自: 北京
最新评论
文章列表
scrapy可以爬取静态页面,但目前越来越多的网站数据都是通过js动态加载处理的。要想爬取这部分数据必不可少的对js处理的动态页面进行处理。一个简单的方法就是集成js处理工具,笔者在此选用的是selenium。
scrapy的安装见笔者其他文章。在此笔者使用的是win7 64位环境。
python环境安装selenium较为简单,使用命令可以自动获取最新版本的selenium,笔者安装的是selenium 3.0.2,详见https://pypi.python.org/pypi/selenium/3.0.2:
pip install selenium
安装好selenium还需安装各 ...
win7下调试scrapy代码时,出现代码报错,但是未输出到log日志,而是在cmd中报如下错误:
Traceback (most recent call last): File "d:\python27\lib\logging\__init__.py", line 884, in emit stream.write(fs % msg.encode("UTF-8"))UnicodeDecodeError: 'gbk' codec can't decode bytes in position 1274-1275: illegal multibyt ...
win7是目前最常见的系统,不习惯linux的朋友可以在win7上搭建scrapy环境,本人使用的是win7 64位的,这里就以64位系统为例。
1、安装python
下载win7 64位 python2.7.12安装文件
https://www.python.org/ftp/python/2.7.12/python-2.7.12.amd64.msi安装完成后,配置环境变量
如: D:\Python27 ; D:\Python27\scripts;
cmd下运行:python -V可以检查python版本和验证安装情况。
2、安装pywin32
到 https://sourcef ...
系统环境:Redhat6.5系统
1、添加scrapy环境依赖
yum install -y python-devel libxml2 zlib-devel bzip2-devel xz-libs xz wget git tar gcc gcc-c++ openssl openssl-devel pcre-devel python-devel libevent automake autoconf libtool make git sqlite-devel2、升级python
Redhat6.5 自带python2.6.6,scrapy最新版基于python2.7,需升级到python2 ...