新手扒图

沈寅麟

浏览: 172919 次
性别:
来自: 上海

最近访客更多访客>>

uule

张锁

孔已己

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Python

新手写的比较拙劣但达到效果了。

py是个好东西

# coding=utf-8

import requests
import sys
from bs4 import BeautifulSoup
from multiprocessing import Pool
# 引入模块
import os


def mkdir(path):
    # 去除首位空格
    path = path.strip()
    # 去除尾部 \ 符号
    path = path.rstrip("\\")

    # 判断路径是否存在
    # 存在     True
    # 不存在   False
    isExists = os.path.exists(path)

    # 判断结果
    if not isExists:
        # 如果不存在则创建目录
        # 创建目录操作函数
        os.makedirs(path)

        print
        path + ' 创建成功'
        return True
    else:
        # 如果目录存在则不创建，并提示目录已存在
        print
        path + ' 目录已存在'
        return False


# 详情页通用前缀
skuDetailPath = 'http://www.xxxx.com/products/'

# 首页地址
url = 'http://www.xxxx.com/products/MAGENTO_0'

# 假装头
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36'}

html = requests.get(url, headers=header)

# 使用自带的html.parser解析，速度慢但很通用
soup = BeautifulSoup(html.text, 'html.parser')

# 实际上是第一个class = 'con'的div里的所有a 标签是我要搞他的东西
all_a = soup.find('div', class_='con').find_all('a')

# 线程池中线程数 多线程不会写 放弃
# pool = Pool(5)

beforeSku = 'NA'

for a in all_a:
    # 拿Sku作为文件名
    sku = a.get("href")
    sku = sku[10:len(sku)]
    print(sku)
    # 扒它图床地址
    pic_url = a.find('img')
    print(pic_url)
    html = requests.get(pic_url.get("load_src"), headers=header)

    # 创建文件夹
    # 定义要创建的目录
    if (sku == beforeSku):
        mkpath = "D:\pyproject\\" + sku + "\\"
    else:
        mkpath = "D:\pyproject\\" + sku + "\\"
        # 调用函数
        mkdir(mkpath)

    os.chdir(mkpath)

    # 从详情页面开始扒
    html = requests.get(skuDetailPath + sku, headers=header)
    # 使用自带的html.parser解析，速度慢但很通用
    soup = BeautifulSoup(html.text, 'html.parser')

    all_detail_img = soup.find('div', class_='detail_page_con_center_img').find_all('img')

    for index, detail_img in enumerate(all_detail_img):
        detail_path = detail_img.get("detail_src")
        detail_html = requests.get(detail_path, headers=header)
        # 开始下载
        f = open(sku + '_'+str(index)+ '.jpg', 'wb')
        f.write(detail_html.content)
        f.close()

    beforeSku = sku
    # pool.close()
    # pool.join()

10秒下载完后的效果图:

查看图片附件

分享到：

S1-jieba分词 | SVN版本库打包迁移备份恢复等

2018-04-19 11:51
浏览 565
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

新手扒图

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

新手扒图

评论

发表评论

相关推荐

ImportError: No module named flask 但pip list 已经安装了 centeros

CenterOS 安装Python3.7 环境

AttributeError: 'Request' object has no attribute 'is_xhr' flask 错误 ERROR in 报错

pip install *太慢*无法下载*卡住*

Jupyter Notebook 快捷键汇总

线性相关及张成空间

plt.subplot 图

pandas.cut

pandas——read_csv

Pandas 的melt的使用

python3调用js的库之execjs

matplotlib 中文乱码

python input 输出 “Name 'XXX' is not defined

Mac 控制台 终端始终 出现"(base)" ?

S1-jieba分词

DJango表单错误CSRF verification failed. Request aborted

dJangoの初习3

dJangoの初习2

dJangoの初习1

Windows下部署python环境及基本使用

最近访客更多访客>>

pip install 太慢无法下载卡住

Mac 控制台终端始终出现"(base)" ?