手把手教你写电商爬虫-第一课找个软柿子捏捏 -

游牧民族

浏览: 8361 次

最近访客更多访客>>

cj19920801

PXY

爱和阿米

luxing44530

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 爬虫开发教程
浏览量：0

文章分类

社区版块

存档分类

手把手教你写电商爬虫-第一课找个软柿子捏捏

博客分类：

手把手教你写电商爬虫

爬虫电商数据

工具要求：教程中主要使用到了 1、神箭手云爬虫框架这个是爬虫的基础，2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确

基础知识：本教程中主要用到了一些基础的js和xpath语法，如果对这两种语言不熟悉，可以提前先学习下，都很简单

教程正式开始，现在电商网站很多，牛逼哄哄的淘宝京东，新晋贵族唯品会聚美优品海淘的美丽说higo网易惠惠等等，作为新手，上来打boss的结果必定是灰屏回家，所以我们现在新手村附近找个小弟练练级吧。

找小弟也要有找小弟的办法，我们就去it橘子上看看有没有什么新的电商公司试试，找了一圈，就相中了这个切糕王子，名字霸气，内容简单，非常适合我们这种新手练手，掌握一下基本技能。

那我们就正式开始，首先，我们打开切糕王子的商品列表页

http://www.qiegaowz.com/product/Default.html

只有5款商品，果然是互联网思维，爆品逻辑。顿时让我们有种用大炮大蚊子的赶脚，写个爬虫的时间，不如手动复制了。不过，谁让我们是程序员呢？手动复制这么low的事情说出去都丢不起这个人。

开始前先给大家普及一下爬虫的基本步骤

1.选定入口url，也叫种子url，就是让爬虫从哪个页面开始爬

2.区分哪些是内容页面，也就是我们需要抽取数据的页面，哪些是中间页，就是连接其他页面，没有我们需要的数据的页面

3.对内容页写抽取规则

4.开始爬虫

好了，那我们就开始了

第一步来：这个网站的入口url很简单，就一个页面

http://www.qiegaowz.com/product/Default.html 就是他了，也没别人

第二步：内容页面就是那5个商品的页面

http://www.qiegaowz.com/product/5ee97997-1700-4d19-b93a-6bd7c930fefe.html

http://www.qiegaowz.com/product/ccdf1d03-58da-48a9-bfd2-d9c403b56c98.html

http://www.qiegaowz.com/product/1f44feec-751a-4656-9e42-ec1cb7d8dee6.html

http://www.qiegaowz.com/product/83106246-d38e-42da-a0a4-2289f699b066.html

http://www.qiegaowz.com/product/a723b3cc-91f0-495f-b7b8-792b4470a6e6.html

神箭手框架里是将内容页用正则表达式来限制的，那没这几个页面统一一个正则的话就是

http://www\\.qiegaowz\\.com/product/[0-9a-z]{8}-[0-9a-z]{4}-[0-9a-z]{4}-[0-9a-z]{4}-[0-9a-z]{12}\\.html

添加了两个\是因为这句话将被写到字符串中，所以需要对\再进行一次转义，不理解的话也没关系，记得这么做就可以了

什么？有人觉得这个太难了，那我们可以再简单一点

http://www\\.qiegaowz\\.com/product/.{36}\\.html

特别提醒，在正则表达式中，"."和"?"这个字符是需要转义的，这些千万不能写错了。

中间页的话，就是http://www.qiegaowz.com/product/Default.html，转换成正则的格式

http://www\\.qiegaowz\\.com/product/Default\\.html

第三步：我们打开其中一个商品的页面

发现整个页面没啥内容，我们就勉强来分成三个部分吧，分别是缩略图，商品名称，内容

先看缩略图：我们用chrome打开，并打开开发者工具：

根据html的层级结构，主要找class和ID的节点，我们可以看到我们这个图片的自己的标签是img标签，没有什么特别的属性，那没看他的父标签，

是<div class="showpic"> 我们来查一下发现这个showpic再整个页面里面出现了1次，那么用这个showpic的class就可以直接定位到这个图片，xpath的写法就是：

//div[contains(@class ,'showpic')]/img/@src

简单解释下xpath，开始的两个//代表着从根目录开始不确定过了多少级，如果是单/则代表是一级层级关系，class属性的选择我们通常使用 contains是为了防止一个标签有多个class，最后因为我们要获取的是图片的地址，所以最终我们要选取到src属性，好了我们写完之后用xpathhelper检测一下对不对

没问题，另外两个抽取项在这里就不详细解释了，方式大同小异，直接放结果：

//div[contains(@class ,'showpic')]/img/@src

//div[contains(@class ,'showproduct')]/h1

//div[contains(@class,'shownewdes')]

OK，那么到这里，我们爬虫的准备工作已经做完了，根据神箭手框架的文档，我们将我们的准备好的代码组装一下如下，

var configs = { 
        domains: ["www.qiegaowz.com"], 
        scanUrls: ["http://www.qiegaowz.com/product/Default.html"], 
        contentUrlRegexes: ["http://www\\.qiegaowz\\.com/product/.{36}\\.html"], 
        helpUrlRegexes:["http://www\\.qiegaowz\\.com/product/Default\\.html"], 
        fields: [ 
            { 
                // 商品缩略图 
                name: "thumbnail", 
                selector: "//div[contains(@class,'showpic')]/img/@src", 
            }, 
            { 
                // 商品标题 
                name: "title", 
                selector: "//div[contains(@class,'showproduct')]/h1", 
            }, 
            { 
                // 商品内容 
                name: "content", 
                selector: "//div[contains(@class,'shownewdes')]", 
            } 
        ] 
    }; 
     
    start(configs);

到这里就大功告成了，我们将代码复制神箭手后台代码中，保存并测试下，顺利爬到数据。

不过还有一些遗留问题，如商品内容中有一些我们不需要的内容，如何去掉，这个我们可以在后面的教程中详细解释。

对爬虫感兴趣的童鞋可以加企鹅群讨论：342953471。

1
顶

0
踩

分享到：

手把手教你写电商爬虫-第二课实战尚妆网 ...

2016-05-16 18:28
浏览 1126
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于NSGA2与熵权TOPSIS的电力系统储能选址定容优化及Matpower潮流计算研究: 内容概要：本文详细探讨了利用NSGA2算法进行电力系统中储能系统的选址和定容优化，并结合熵权TOPSIS方法选择最优解。首先介绍了使用Matpower工具包进行潮流计算的基础步骤，随后深入讨论了储能系统引入后的复杂性和优化目标设定。文中展示了如何构建目标函数，包括储能的投资成本和系统电压偏差，并详细解释了NSGA2算法的具体实现，如种群初始化、交叉变异操作以及约束条件处理。最后，通过熵权法确定权重并应用TOPSIS方法对多个优化结果进行评估，选出综合性能最佳的储能配置方案。适合人群：从事电力系统规划、优化算法研究的专业人士，尤其是对储能系统优化感兴趣的科研人员和技术开发者。使用场景及目标：适用于需要解决电力系统中储能系统选址和定容问题的实际工程项目。主要目标是在满足系统稳定性要求的前提下，最小化储能系统的投资成本，提高系统的经济性和可靠性。其他说明：文章提供了详细的代码片段和理论推导，帮助读者更好地理解和实施所提出的优化方法。此外，还提到了一些实际应用中的注意事项，如SOC约束处理、参数选择等，为后续的研究和应用提供了宝贵的实践经验。

基于python+pyqt5实现视频自动化下载、剪辑和上传系统源码+项目说明.zip: 基于python+pyqt5实现视频自动化下载、剪辑和上传系统源码+项目说明.zip 该项目是用脚本实现部分视频网站视频内容的自动化下载、剪辑以及上传，其中界面是用PyQT做的。使用的浏览器驱动是undetected_chromedriver，可以跳过tiktok的机器人检查使用的浏览器是91，版本：Google_Chrome_(64bit)_v91.0.4472.77 【功能】自动从各种视频网站下载视频支持视频剪辑和合集制作支持自动上传视频到视频网站技术栈 Python PyQT undetected_chromedriver

西门子S7-1200双套三坐标6轴联动控制系统的设计与实现: 内容概要：本文详细介绍了西门子S7-1200双套三坐标6轴联动控制系统的开发与调试经验。主要内容涵盖双PLC通信机制、轴控制逻辑、安全联锁设计以及触摸屏程序绑定等方面。文中通过具体代码示例展示了如何利用SCL语言实现高效稳定的多轴联动控制，并分享了实际项目中的最佳实践和技术难点解决方案。此外，还讨论了程序结构优化、报警代码设计、数据块管理等关键环节，强调了模块化设计思想的应用及其带来的效率提升。适合人群：从事工业自动化领域的工程师，尤其是熟悉西门子PLC编程的专业人士。使用场景及目标：适用于需要进行复杂运动控制的自动化生产线，如汽车制造、电子装配等行业。主要目标是提高生产效率，确保设备运行的安全性和稳定性。其他说明：文中提到的许多技术和方法不仅限于特定型号的PLC，对于其他品牌的控制器也有一定的借鉴意义。同时，提供的代码片段可以直接应用于类似项目中，帮助开发者快速搭建可靠的控制系统。

NFC Tools Pro: NFC Tools是一个应用程序，允许你在你的 NFC 标签和其他 RFID 兼容芯片上读取或写入或编程代码任务。NFC Tools PRO版本包括很多其他的附加功能，比如配置文件管理等。保存你的NFC标签或任务的配置文件，以便你以后重新使用它们。导出和导入很容易。NFC Tools PRO官方版允许你直接从现有的 NFC 标签导入你的记录或任务。你可以很快编辑你的标签。此外还可以直接运行你的任务配置文件，不需要NFC 标签。

protobuf-6.30.1-py3-none-any.whl: 该资源为protobuf-6.30.1-py3-none-any.whl，欢迎下载使用哦！

FLAC3D中壳单元与衬砌单元内力提取及处理技巧: 内容概要：本文详细介绍了如何在FLAC3D中提取壳单元和衬砌单元的关键内力数据，如弯矩、轴力和剪力。针对壳单元，文中提供了具体的FISH命令和函数，展示了如何利用gp.extra属性提取弯矩，并强调了局部坐标系方向的重要性。对于衬砌单元，则介绍了专门的命令和注意事项，如使用liner组件提取轴力和剪力，以及如何处理弯矩数据。此外，还分享了一些实用的经验和技巧，如批量数据处理、单位换算、内力符号规则等。最后，提到了使用Python进行后处理的方法，将提取的数据转化为更直观的形式，便于进一步分析。适合人群：从事岩土工程、隧道工程及相关领域的工程师和技术人员，尤其是对FLAC3D有一定基础的用户。使用场景及目标：帮助用户掌握FLAC3D中壳单元和衬砌单元内力提取的具体方法，提高工作效率，确保数据分析的准确性。适用于需要进行结构内力分析、支护设计优化等项目的工程师。其他说明：文章不仅提供了详细的命令和函数示例，还分享了许多实战经验和常见错误的规避方法，有助于初学者少走弯路。同时，强调了内力符号规则和单位换算的重要性，避免因疏忽导致的重大失误。

ST PMSM FOC电机控制资料包2.0：全面解析STM32电机控制核心技术与实战技巧: 内容概要：本文详细介绍了ST公司发布的HL07:ST PMSM FOC电机控制资料包2.0的内容及其应用。资料包涵盖了ST芯片电机控制的全源代码、详细文档、多个工程源码、stm32库培训资料及例程源码。文中通过具体的代码示例，如GPIO初始化、PWM配置、ADC采样、Clarke变换、PID调节器、SVPWM生成等，深入剖析了电机控制的关键技术和优化技巧。此外，还揭示了一些隐藏的技术细节和调试技巧，如硬件同步、动态调整PID参数、电机参数自识别等。适合人群：电机控制工程师、嵌入式开发人员、尤其是对STM32和FOC算法感兴趣的开发者。使用场景及目标：帮助读者深入了解ST芯片电机控制的具体实现，掌握从硬件配置到算法优化的全过程，提高实际项目的开发效率和质量。适用于需要进行电机控制系统设计、调试和优化的工程项目。其他说明：资料包中的代码和文档非常实用，提供了丰富的实战经验和优化建议，尤其适合初学者和有一定基础的研发人员。同时，文中提到的一些特殊技巧和注意事项有助于避免常见的开发陷阱，提升系统的稳定性和性能。

人工智能2025年AI领袖与技术发展趋势：多模态AI、量子计算及行业应用展望: 内容概要：文章探讨了2025年AI技术发展趋势及潜在的GPT级技术突破。首先回顾了GPT系列模型的发展历程及其对自然语言处理领域的深远影响。接着，通过介绍Geoffrey Hinton、李飞飞和张晨等AI领袖的观点，阐述了AI技术在实际应用场景中的挑战与机遇。文中详细描述了AI大模型的演进，包括多模态技术的发展、轻量化趋势以及可控性和可解释性的提升。此外，还介绍了AI计算力的革命性升级，如量子计算、云计算+AI和边缘AI的发展。最后，文章分析了AI在医疗、金融、教育、自动驾驶等行业的落地应用，并指出了面临的挑战与机遇，展望了未来的技术和社会影响。适合人群：对AI技术感兴趣的从业者、研究人员、企业家及政策制定者。使用场景及目标：①了解AI技术的最新进展和未来趋势；②探索AI技术在各行业的应用前景；③评估AI技术带来的挑战与机遇，为相关决策提供参考。阅读建议：本文内容涵盖广泛，既有技术细节又有宏观展望，建议读者结合自身背景选择感兴趣的部分深入阅读，重点关注与自身行业或研究方向相关的章节。

基于樽海鞘算法优化的极限学习机回归预测及其与BP、GRNN、ELM的性能对比研究: 内容概要：本文详细探讨了基于樽海鞘算法（SSA）优化的极限学习机（ELM）在回归预测任务中的应用，并与传统的BP神经网络、广义回归神经网络（GRNN）以及未优化的ELM进行了性能对比。首先介绍了ELM的基本原理，即通过随机生成输入层与隐藏层之间的连接权重及阈值，仅需计算输出权重即可快速完成训练。接着阐述了SSA的工作机制，利用樽海鞘群体觅食行为优化ELM的输入权重和隐藏层阈值，从而提高模型性能。随后分别给出了BP、GRNN、ELM和SSA-ELM的具体实现代码，并通过波士顿房价数据集和其他工业数据集验证了各模型的表现。结果显示，SSA-ELM在预测精度方面显著优于其他三种方法，尽管其训练时间较长，但在实际应用中仍具有明显优势。适合人群：对机器学习尤其是回归预测感兴趣的科研人员和技术开发者，特别是那些希望深入了解ELM及其优化方法的人。使用场景及目标：适用于需要高效、高精度回归预测的应用场景，如金融建模、工业数据分析等。主要目标是提供一种更为有效的回归预测解决方案，尤其是在处理大规模数据集时能够保持较高的预测精度。其他说明：文中提供了详细的代码示例和性能对比图表，帮助读者更好地理解和复现实验结果。同时提醒使用者注意SSA参数的选择对模型性能的影响，建议进行参数敏感性分析以获得最佳效果。

工业自动化中汇川PLC与基恩士PLC基于EIP通讯的联机实现及应用: 内容概要：本文详细介绍了汇川PLC与基恩士PLC通过Ethernet/IP (EIP) 协议实现联机的方法及其应用场景。首先，文章解释了硬件配置，包括基恩士KV-7300 CPU搭配KV-EP21v以太网通信模块以及汇川AM-400系列PLC的网口连接。接下来，分别阐述了基恩士和汇川PLC的程序框架，涵盖初始化EIP通讯模块、设置IP地址、建立连接、数据映射及心跳检测机制等关键技术点。此外，文中提供了具体的代码示例和调试建议，如使用Wireshark抓包工具排查问题，并强调了数据同步、字节序转换、超时处理等方面需要注意的地方。最后，分享了一些实践经验，例如确保正确的IP地址分配、合理的缓冲区大小规划、良好的接地措施等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对PLC编程有一定基础并希望深入了解不同品牌PLC间通讯机制的专业人士。使用场景及目标：适用于需要将不同品牌PLC集成到同一个控制系统中的工业项目，旨在提高系统的灵活性和互操作性。通过掌握本文介绍的技术要点，可以有效减少因PLC品牌差异带来的兼容性和稳定性问题。其他说明：文中不仅提供了理论指导，还结合实际案例进行了深入浅出的讲解，帮助读者更好地理解和应用相关技术。同时，针对可能出现的问题给出了预防和解决方案，使读者能够在实践中少走弯路。

基于STM32F4的VESC非线性磁链观测器移植与优化: 内容概要：本文详细记录了作者将VESC项目的非线性磁链观测器移植到STM32F4开发板的过程。首先介绍了FOC技术和VESC源码的重要性和特点，然后重点阐述了非线性磁链观测器的实现方法及其核心代码。接着讨论了移植过程中遇到的技术难题，如实时性、稳定性、中断处理、电流采样等问题，并分享了解决这些问题的具体措施。最后展示了测试结果，证明了移植的成功以及观测器的良好性能。适合人群：具有一定嵌入式开发经验的研发人员，特别是从事电机控制领域的工程师和技术爱好者。使用场景及目标：适用于希望深入理解VESC源码和非线性磁链观测器的工作机制，掌握STM32F4平台上FOC算法实现的人群。目标是在实际项目中应用这些技术，提高电机控制系统的性能。其他说明：文中提供了大量实用的代码片段和调试技巧，帮助读者更好地理解和解决问题。此外，作者还分享了一些个人经验和心得，增加了文章的趣味性和实用性。

Quectel-LTE&5G-Windows-USB-Driver-V2.2.6-beta-20201230: 移远EC20 Windows驱动操作系统 - 桌面系统 - 移远EC20 Windows驱动

检证资料jianzhen.ppt: 检证资料jianzhen.ppt

### 【嵌入式开发】基于Qt的ATK-DLRK3568实战指南：从入门到项目实战题：嵌: 内容概要：本文档《ATK-DLRK3568嵌入式Qt开发实战V1.2》是正点原子出品的一份面向初学者的嵌入式Qt开发指南，主要内容涵盖嵌入式Linux环境下Qt的安装配置、C++基础、Qt基础、多线程编程、网络编程、多媒体开发、数据库操作以及项目实战案例。文档从最简单的“Hello World”程序开始，逐步引导读者熟悉Qt开发环境的搭建、常用控件的使用、信号与槽机制、UI设计、数据处理等关键技术点。此外，文档还提供了详细的项目实战案例，如车牌识别系统的开发，帮助读者将理论知识应用于实际项目中。适合人群：具备一定Linux和C++基础，希望快速入门嵌入式Qt开发的初学者或有一定开发经验的研发人员。使用场景及目标： 1. **环境搭建**：学习如何在Ubuntu环境下搭建Qt开发环境，包括安装必要的工具和库。 2. **基础知识**：掌握C++面向对象编程、Qt基础控件的使用、信号与槽机制等核心概念。 3. **高级功能**：理解多线程编程、网络通信、多媒体处理、数据库操作等高级功能的实现方法。 4. **项目实战**：通过具体的项目案例（如车牌识别系统），巩固

tcl-tclxml-devel-3.2-26.el8.x64-86.rpm.tar.gz: 1、文件说明： Centos8操作系统tcl-tclxml-devel-3.2-26.el8.rpm以及相关依赖，全打包为一个tar.gz压缩包 2、安装指令： #Step1、解压 tar -zxvf tcl-tclxml-devel-3.2-26.el8.tar.gz #Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm

C盘清理bat脚本自动清理C盘垃圾文件: C盘清理bat脚本自动清理C盘垃圾文件

桶排.txt: 桶排

基于混沌系统的图像加密算法：循环移位扰乱与水平垂直扩散的应用及性能评估: 内容概要：本文详细介绍了利用混沌系统进行图像加密的方法，重点探讨了Logistic映射生成混沌序列用于图像加密的具体实现。首先，通过生成混沌序列并对其进行预热处理，确保序列的随机性和稳定性。然后，采用循环移位扰乱方法对图像像素进行重新排列，使图像像素位置发生改变。接着，通过水平和垂直扩散步骤进一步打乱像素之间的关联性，增强了加密效果。文中还展示了如何通过直方图、信息熵和相关系数等指标评估加密效果，验证了该方法的有效性。适合人群：对图像加密技术和混沌系统感兴趣的科研人员、信息安全领域的开发者和技术爱好者。使用场景及目标：适用于研究和开发高效的图像加密算法，特别是在需要高安全性的应用场景中，如军事通信、隐私保护等领域。目标是提供一种基于混沌系统的高效、安全的图像加密解决方案。其他说明：文中提供了详细的Python代码实现，帮助读者更好地理解和实践该加密方法。同时，强调了在实际应用中需要注意的一些关键点，如参数选择和优化，以确保最佳的加密效果。

基于EEMD奇异值熵的滚动轴承故障诊断方法研究: 基于EEMD奇异值熵的滚动轴承故障诊断方法研究

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

手把手教你写电商爬虫-第一课 找个软柿子捏捏

评论

发表评论

相关推荐

手把手教你写电商爬虫-第五课 京东商品评论爬虫 一起来对付反爬虫

手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染

手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取

手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫

最近访客更多访客>>

手把手教你写电商爬虫-第一课找个软柿子捏捏

手把手教你写电商爬虫-第五课京东商品评论爬虫一起来对付反爬虫

手把手教你写电商爬虫-第四课淘宝网商品爬虫自动JS渲染

手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取

手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫