ForeSpider采集教程发布（论坛类）：零基础轻松获取数据 -

qianxiu

浏览: 48071 次

最近访客更多访客>>

wangyy

leimingchao

masuweng

abc123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

ForeSpider采集教程发布（论坛类）：零基础轻松获取数据

博客分类：

教程

数据采集爬虫软件采集教程

本篇以360问答论坛为例：

一.网站结构

1.网站截图说明

某些网站需要登陆后才可进行内容的采集,登陆时需先对登陆信息输入位置进行定位,便于后续采集

【网站登陆页】

【采集列表页】

2.采集结果截图

【检索列表链接】

【检索结果数据】

二.配置模板

1.新建任务

【新建任务】

2.新建采集任务

【新建采集任务】

本次采集列表下的正文数据，所以本次需要抽取内容选择【链接列表】,为了将每一页的内容都成功采集选择【普通翻页】

3.配置登陆

【网站登录界面】

①内置浏览器找到登录按钮，弹出登录框

【网站登录顺序】

②先点击【用户名】

【输入框定位】

③如上图,对【用户名输入框】进行定位,crtl+左键点击【用户名输入框】的位置,直至被绿色框住代表定位成功,并按此方式完成的位置定位

【定位成功界面】

④【用户名】和【密码】定位完成后,点击,cookie配置框中出现数据，按Ctrl+鼠标左键单击“登录按钮”，内置浏览器页面登录成功，配置完成

4.配置模板

【采集预览】

①点击采集预览，在采集预览中有于目标链接相似的其他链接，可通过地址过滤得到列表链接。找到所需要的列表链接，观察得出所需要的目标链接都包含“thread-”

【地址过滤】

②勾选地址过滤，过滤规则选择包含，填入“thread-”

【标题过滤】

③勾选标题过滤,过滤规则选择包含,填入''下一页''

【采集预览】

④点击采集预览,下一页和包含''thread-''的内容都被成功过滤,如下图:

5. 模板关联

【模板关联】

根据网页跳转规律,将【链接列表】关联【链接列表:02】, 【普通翻页】关联【默认模板:01】,此处软件已自动进行了关联,如果配置时发现关联有问题,可自行进行更改

6.数据抽取

【数据抽取】

将模板一过滤得到的任意一条链接，作为链接列表模板的示例地址。如：https://bbs.360.cn/thread-15646770-1-1.html

7.新建数据抽取

【新建数据抽取】

新建数据抽取。直接点击链接列表，点击上面“新建数据抽取” 按钮，得到数据抽取,如下图:

8. 创建/选择表单

①创建表单

【创建表单】

②配置表单

【配置表单】

根据所需内容，配置表单字段（即表头），此处配置了包括网页主键、发布时间、正文内，网页标题以及网页地址五个字段,以配置发布时间(pubtime)为例

③数据抽取链接关联表单

【关联表单】

选择刚才新创建的表单''360问答''

9.字段定位

【字段定位】

主键字段自动生成无需定位,以pubtime字段为例进行定位,如下图所示,将各字段依次定位

10.采集预览

【采集预览】

字段定位完成后,进行模板预览,查看是否所需内容都被采集进来

四.数据采集

1.连接数据库

【连接数据库】

2.关联数据表

【关联数据表】

3.选中数据表

【选中数据表】

4.开始采集

【开始采集】

分享到：

ForeSpider采集教程：如何采集图片及链接地 ... | ForeSpider采集教程发布（表格类）：零基础 ...

2019-12-10 14:00
浏览 335
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

ForeSpider采集教程发布（论坛类）：零基础轻松获取数据

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

ForeSpider采集教程发布（论坛类）：零基础轻松获取数据

评论

发表评论

相关推荐

从零学爬虫：采集房天下二手房信息

前嗅教你大数据：常见几种编码介绍

前嗅教你大数据：常见的网站反爬策略与解决方案

如何在ForeSpider数据采集器中设置代理IP

前嗅ForeSpider采集教程：通过关键词的【检索列表】采集【检索结果】

前嗅大数据—ForeSpider教你如何采集【列表数据】

前嗅forespider教程：关键词采集【检索结果】

ForeSpider采集教程发布（表格类）：零基础轻松获取数据

爬虫软件真的可以获取隐私数据？真相只有一个

大数据告诉你，五一出行，性价比最高的酒店是它

前嗅教程：如何获取精准客源，提高销量

字段在源码的html标签里

前嗅ForeSpider脚本教程-数据抽取脚本实战教程

前嗅ForeSpider脚本教程-链接过滤脚本

前嗅ForeSpider脚本教程-链接抽取：自定义链接写脚本

前嗅ForeSpider脚本教程-链接抽取：链接在POST请求里写脚本

前嗅ForeSpider脚本教程-链接抽取：链接在源码的js变量里写脚本

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

前嗅ForeSpider脚本教程-频道脚本：脚本采集数据

前嗅ForeSpider脚本教程：频道脚本使用场景及配置关键词搜索

最近访客更多访客>>