`
文章列表
  微信公众号:idig88      私人微信:zhugeaming1314     
0.windows安装scrapy 1、安装wheel: 在控制台输入pip install wheel即可自动完成安装 2、安装lxml: 到 https://www.lfd.uci.edu/~gohlke/pythonlibs/,往下拉找到 lxml,下载适合自己电脑 操作系统及python版本的.whl文件。cp27、cp35等代表python版本2.7、3.5,win32代表 32位windows操作系统,win_amd64代表64位操作系统。 下载完成后,右键点击文件-属性-安全-对象名称,可以复制到文件地址 ...
一.安装mysql     1.安装mysql        yum install mysql mysql-server      2.启动mysql       /etc/init.d/mysqld start        这里不详细讲解mysql的密码修改,远程登录的设置,可以看《RPM方式安装MySQL5.6》,其中有详细的说明。 (如果有远程数据库这个可以忽略)   二、安装 Apache 组件 1.安装apache yum install httpd 2.启动 Apache /etc/i
  但是如果此时还是出现Can't connect to MySQL server on 'XXX' (13)的错误提示,可以尝试如下方法:1. 查看httpd_can_network_connect的值是否为off(例如:httpd_can_network_connect --> off)# getsebool -a | grep httpd2. 修改httpd_can_network_connect的值为on# setsebool httpd_can_network_connect 13. 重新验证httpd_can_network_connect
写爬虫是一个发送请求,提取数据,清洗数据,存储数据的过程。在这个过程中,不同的数据源返回的数据格式各不相同,有 JSON 格式,有 XML 文档,不过大部分还是 HTML 文档,HTML 经常会混杂有转移字符,这些字符我们需要把它转义成真正的字符。 什么是转义字符 在 HTML 中 <、>、& 等字符有特殊含义(<,> 用于标签中,& 用于转义),他们不能在 HTML 代码中直接使用,如果要在网页中显示这些符号,就需要使用 HTML 的转义字符串(Escape Sequence),例如 
      1、如果使用virtualenv环境,直接使用 pip freeze > requirements.txt ➜  ~ .virtualenvs/xxx/bin/pip freeze > requirements.txt 2、如果没有使用virtualenv,使用工具pipreqs   这个工具的好处是可以通过对项目目录的扫描,自动发现使用了那些类库,自动生成依赖清单。缺点是可能会有些偏差,需要检查并自己调整下。 安装# pip install pipreqs
python的输出有缓冲,导致python.log3并不能够马上看到输出。 使用-u参数,使得python不启用缓冲。 所以改正命令,就可以正常使用了 nohup python -u test.py > out.log 2>&1 & 查看输出 tail -f out.log  
1.安装mysql的yum源 a.下载配置mysql的yum源的rpm包       根据上面3张图片中的操作下载下来的rpm文件可以通过如下命令获取: wget https://dev.mysql.com/get/mysql57-community-release-el6-9.noarch.rpm   b.安装用来配置mysql的yum源的rpm包 rpm -Uvh mysql57-community-release-el6-9.noarch.rpm 或
CentOS 下将 Python2 升级到Python3 1. 从Python官网到获取Python3的包, 切换到目录/usr/local/src #wget https://www.python.org/ftp/python/3.5.1/Python-3.5.1.tar.xz 2. 使用命令如下命令进行解压缩: xz -d Python-3.5.1.tar.xz tar -xf Python-3.5.1.tar 3. 在/usr/local路径下创建目录--python3.5, 为第4步的安装目录 $mkdir /usr/local/python3.5 ...
import requests from requests.exceptions import RequestException import re import json from multiprocessing import Pool def page_one_html(url): try: response = requests.get(url); if response.status_code == 200: return response.text else: ...
--配置MongoDB的yum源   vim /etc/yum.repos.d/mongodb-org-3.4.repo     --添加以下内容:   [mongodb-org-3.4] name=MongoDB Repository baseurl=https://repo.mongodb.org/yum/redhat/$releasever/mongodb-org/3.4/x86_64/ gpgcheck=1 enabled=1 gpgkey=https://www.mongodb.org/static/pgp/server-3.4.as ...
    #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/1/23 15:42 # @Author : Aries # @Site : # @File : yy.py # @Software: PyCharm import requests import time from lxml import html headers = { 'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple ...
下载windows版本的tesseract安装包,我下载的版本是是http://3.onj.me/tesseract/网站所维护的,安装后有个doc文件夹,里面有英文的使用文档。为了在全局使用方便,比如安装路径为D:\Application\tesseract,将D:\Application\tesseract添加到环境变量的path中。 为了进行测试,我们在其他文件夹下,比如在桌面建立了一个文件夹进行测试,C:\Users\Administrator\Desktop\pythonTest\tesseract,此文件夹有个验证码图片1.jpg, 在此文件夹打开cmd命令,输入te ...
       之前网络上上多的教程,包括视频教程,都用了很老的方式,老师也说过爬虫和反爬是一场永不停息的战斗。我在这次体会的淋漓尽致,前一天知乎的登录刚刚告破,第二天知乎就改版了,现在知乎的登录方式是通过文件上传的方式,而且每个登录的验证码也是加密的js方式,我这才疏学浅搞不定恨啊。我因为这彻夜难眠搞了3天还是没搞定。平常还得上班,晚上回来都没搞定,最后在不断的深入学习过程中,我发现了一个很牛逼的方式也是直接攻破知乎登录的方式。         from scrapy.http import HtmlResponse import re class JSPageMiddleware( ...

python-selenium

  from selenium import webdriver from scrapy.selector import Selector from time import sleep chrome_opt = webdriver.ChromeOptions(); prefs ={"profile.managed_default_content_settings.images":2} chrome_opt.add_experimental_option("prefs",prefs) browser = webdriver.Chro ...
Global site tag (gtag.js) - Google Analytics