- 浏览: 76300 次
- 性别:
- 来自: 郑州
最新评论
文章列表
0.windows安装scrapy
1、安装wheel:
在控制台输入pip install wheel即可自动完成安装
2、安装lxml:
到 https://www.lfd.uci.edu/~gohlke/pythonlibs/,往下拉找到 lxml,下载适合自己电脑
操作系统及python版本的.whl文件。cp27、cp35等代表python版本2.7、3.5,win32代表
32位windows操作系统,win_amd64代表64位操作系统。
下载完成后,右键点击文件-属性-安全-对象名称,可以复制到文件地址 ...
centos6.7安装php论坛
- 博客分类:
- discuz!
一.安装mysql
1.安装mysql
yum install mysql mysql-server
2.启动mysql
/etc/init.d/mysqld start
这里不详细讲解mysql的密码修改,远程登录的设置,可以看《RPM方式安装MySQL5.6》,其中有详细的说明。
(如果有远程数据库这个可以忽略)
二、安装 Apache 组件
1.安装apache
yum install httpd
2.启动 Apache
/etc/i
但是如果此时还是出现Can't connect to MySQL server on 'XXX' (13)的错误提示,可以尝试如下方法:1. 查看httpd_can_network_connect的值是否为off(例如:httpd_can_network_connect --> off)# getsebool -a | grep httpd2. 修改httpd_can_network_connect的值为on# setsebool httpd_can_network_connect 13. 重新验证httpd_can_network_connect
用Python处理HTML转义字符的5种方式
- 博客分类:
- python
写爬虫是一个发送请求,提取数据,清洗数据,存储数据的过程。在这个过程中,不同的数据源返回的数据格式各不相同,有 JSON 格式,有 XML 文档,不过大部分还是 HTML 文档,HTML 经常会混杂有转移字符,这些字符我们需要把它转义成真正的字符。
什么是转义字符
在 HTML 中 <、>、& 等字符有特殊含义(<,> 用于标签中,& 用于转义),他们不能在 HTML 代码中直接使用,如果要在网页中显示这些符号,就需要使用 HTML 的转义字符串(Escape Sequence),例如
1、如果使用virtualenv环境,直接使用 pip freeze > requirements.txt
➜ ~ .virtualenvs/xxx/bin/pip freeze > requirements.txt
2、如果没有使用virtualenv,使用工具pipreqs
这个工具的好处是可以通过对项目目录的扫描,自动发现使用了那些类库,自动生成依赖清单。缺点是可能会有些偏差,需要检查并自己调整下。
安装# pip install pipreqs
python后台运行一个命令美滋滋
- 博客分类:
- python
python的输出有缓冲,导致python.log3并不能够马上看到输出。
使用-u参数,使得python不启用缓冲。
所以改正命令,就可以正常使用了
nohup python -u test.py > out.log 2>&1 &
查看输出
tail -f out.log
1.安装mysql的yum源
a.下载配置mysql的yum源的rpm包
根据上面3张图片中的操作下载下来的rpm文件可以通过如下命令获取:
wget https://dev.mysql.com/get/mysql57-community-release-el6-9.noarch.rpm
b.安装用来配置mysql的yum源的rpm包
rpm -Uvh mysql57-community-release-el6-9.noarch.rpm
或
CentOS 下将 Python2 升级到Python3
1. 从Python官网到获取Python3的包, 切换到目录/usr/local/src
#wget https://www.python.org/ftp/python/3.5.1/Python-3.5.1.tar.xz
2. 使用命令如下命令进行解压缩:
xz -d Python-3.5.1.tar.xz
tar -xf Python-3.5.1.tar
3. 在/usr/local路径下创建目录--python3.5, 为第4步的安装目录
$mkdir /usr/local/python3.5 ...
requests爬取猫眼电影top100
- 博客分类:
- python
import requests
from requests.exceptions import RequestException
import re
import json
from multiprocessing import Pool
def page_one_html(url):
try:
response = requests.get(url);
if response.status_code == 200:
return response.text
else:
...
--配置MongoDB的yum源
vim /etc/yum.repos.d/mongodb-org-3.4.repo
--添加以下内容:
[mongodb-org-3.4]
name=MongoDB Repository
baseurl=https://repo.mongodb.org/yum/redhat/$releasever/mongodb-org/3.4/x86_64/
gpgcheck=1
enabled=1
gpgkey=https://www.mongodb.org/static/pgp/server-3.4.as ...
requests爬虎牙频道和主播信息
- 博客分类:
- python
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2018/1/23 15:42
# @Author : Aries
# @Site :
# @File : yy.py
# @Software: PyCharm
import requests
import time
from lxml import html
headers = {
'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple ...
下载windows版本的tesseract安装包,我下载的版本是是http://3.onj.me/tesseract/网站所维护的,安装后有个doc文件夹,里面有英文的使用文档。为了在全局使用方便,比如安装路径为D:\Application\tesseract,将D:\Application\tesseract添加到环境变量的path中。
为了进行测试,我们在其他文件夹下,比如在桌面建立了一个文件夹进行测试,C:\Users\Administrator\Desktop\pythonTest\tesseract,此文件夹有个验证码图片1.jpg, 在此文件夹打开cmd命令,输入te ...
之前网络上上多的教程,包括视频教程,都用了很老的方式,老师也说过爬虫和反爬是一场永不停息的战斗。我在这次体会的淋漓尽致,前一天知乎的登录刚刚告破,第二天知乎就改版了,现在知乎的登录方式是通过文件上传的方式,而且每个登录的验证码也是加密的js方式,我这才疏学浅搞不定恨啊。我因为这彻夜难眠搞了3天还是没搞定。平常还得上班,晚上回来都没搞定,最后在不断的深入学习过程中,我发现了一个很牛逼的方式也是直接攻破知乎登录的方式。
from scrapy.http import HtmlResponse
import re
class JSPageMiddleware( ...
python-selenium
- 博客分类:
- python
from selenium import webdriver
from scrapy.selector import Selector
from time import sleep
chrome_opt = webdriver.ChromeOptions();
prefs ={"profile.managed_default_content_settings.images":2}
chrome_opt.add_experimental_option("prefs",prefs)
browser = webdriver.Chro ...