ForeSpider采集教程发布（表格类）：零基础轻松获取数据 -

qianxiu

浏览: 48147 次

最近访客更多访客>>

wangyy

leimingchao

masuweng

abc123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

ForeSpider采集教程发布（表格类）：零基础轻松获取数据

博客分类：

数据采集数据获取爬虫软件爬虫教程采集教程

本篇以孔夫子旧书网为例：

一.网站结构

1.网站截图说明

该网站为列表结构,可以通过识别列表的方式对全篇数据进行抽取

【网站列表页】

2.采集结果截图

【采集数据结果】

二.配置模板

1.新建任务

【新建任务】

点击【下一步】，需要采集每一页检索结果并抽取数据,所以此处需要勾选【普通翻页】和【数据抽取】，如图：

【新建采集任务】

2.创建/选择表单

①创建表单

【创建表单】

②配置表单

根据所需内容，配置表单字段（即表头），此处配置了包括网页主键、作者名称、标题名称、价格等四个字段, 以配置发布时间(pubtime)为例

【配置表单】

③数据抽取链接关联表单

选择刚才新创建的表单''孔夫子''

【关联表单】

3.字段定位

取值方法：由于此处活取的是列表页的数据，所以可以应用“识别列表”功能，直接取到列表数据，操作方法如下：

①点击“数据抽取-孔夫子”，按住ctrl+鼠标左键点击定位标题内容

【定位标题】

②按住Shift+鼠标左键继续点击，直到点击到选中整个第一条数据

【定位第一条数据】

③在软件的右下角可以看到“识别列表”按钮，此时点击“识别列表”，如下图，此时列表中的内容都已经选中。

【定位全数据】

④对每个字段进行取值,方法依然是：按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。如：price字段,见下图:

【字段定位】

4.模板预览

鼠标右键点击“孔夫子”，然后点击“模板预览”

【模板预览】

5.过滤翻页链接

勾选标题过滤,过滤规则选择包含,填入''下一页''

【过滤翻页】

三.数据采集

1.连接数据库

【连接数据库】

2.创建数据表

【创建数据表】

3.选中数据表

【关联数据表】

4.开始采集

【开始采集】

5.采集结果

【采集结果】

分享到：

ForeSpider采集教程发布（论坛类）：零基础 ... | 致敬图灵，数说人工智能的前世今生

2019-12-10 13:57
浏览 364
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

ForeSpider采集教程发布（表格类）：零基础轻松获取数据

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

ForeSpider采集教程发布（表格类）：零基础轻松获取数据

评论

发表评论

相关推荐

从零学爬虫：采集房天下二手房信息

建网站/APP最全准备攻略

前嗅教你大数据：常见几种编码介绍

前嗅教你大数据：常见的网站反爬策略与解决方案

如何在ForeSpider数据采集器中设置代理IP

前嗅教你大数据——史上最全代理IP服务商对比

钱嗅教你大数据——什么是代理IP？

看完之后，不要再说不懂代理IP了！

看完之后，不要再说不懂代理IP了！

了解爬虫，这一篇就够了！

前嗅ForeSpider数据采集教程：采集【中国证券网】的正文数据

前嗅ForeSpider采集教程：通过关键词的【检索列表】采集【检索结果】

前嗅大数据—ForeSpider教你如何采集【列表数据】

前嗅forespider教程：关键词采集【检索结果】

ForeSpider采集教程：如何采集网页中附件数据

ForeSpider采集教程：如何采集图片及链接地址

ForeSpider采集教程发布（论坛类）：零基础轻松获取数据

爬虫软件真的可以获取隐私数据？真相只有一个

前嗅，做你的专属技术合伙人

如何用大数据在5分钟内完成一份行业报告，以果酒行业为例

最近访客更多访客>>