ForeSpider采集教程：如何采集网页中附件数据 -

qianxiu

浏览: 48166 次

最近访客更多访客>>

wangyy

leimingchao

masuweng

abc123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

ForeSpider采集教程：如何采集网页中附件数据

博客分类：

数据采集数据获取采集教程爬虫教程大数据学习

一. 网站内容

1. 网站截图说明

本教程通过“山西招投标网”官网来采集链接列表（红框位置）中正文的附件，故链接入口为：http://www.sxbid.com.cn/

【官网-二手房】

2. 链接列表采集结果预览

二. 操作方法

1. 新建任务

按图片数字所示，1-2-3完成新建任务的步骤

【新建任务】

Step1：按照图示1位置，点击“采集配置”。

Step2：按图示2位置，点击“任务列表”中的“+”。

Step3：在新建采集任务中输入采集网址即http://www.sxbid.com.cn/，任务名称可自定义，本次可输入为“中国石头招标投标网”。

点击“下一步”，需要采集正文数据，所以此处需要勾选“网页内所有链接”和“抽取数据”。

2. 链接抽取配置

Step1：按照图示1位置，Ctrl+左键选中“链接列表”。

Step2：按照图示2位置，点击“确认选区”，保证我们的数据是被选中的状态

Step3：按照图示3位置点击“采集预览”，查看数据详情，如下图所示：

3. 数据抽取

抽取数据（红框位置）中的链接务必对应“链接列表”内的正文数据，即附件页面址。http://www.sxbid.com.cn/f/view-860ea5181ec54cd68435893df9254c02-1916cd9114ca48d4819b89c1da635597.html

4. 配置表单

如图示点击【数据建表】：

Step1：点击“采集配置”

Step2：点击“数据建表”

Step3：点击“+”，新建表单并自定义名称，这里取为“zhaobiao”

根据所需内容，配置表单字段，此处配置了包括主键、网页地址URL、标题、附件。表单建立如下：

【创建主键】

主键务必第一个创建，其含义为该表单所属ID

字段名称：hkey

采集内容选择“主键”

数据类型选择“长数字”

字段属性选择 “索引字段”、“健值唯一”、“主键字段”、“全文索引”

最后点击“确定”即可。

【创建字段1-网页地址】

字段名称：url

采集内容选择“选区内可见文本”

数据类型选择“字符串”

数据长度选择范围240即可，最后点击确定。（备注可随意）

【创建字段2-标题】

字段名称：tittle

采集内容选择“选区内可见文本”

数据类型选择“字符串”

高级类型选择 “长文本（<64K）”。（备注可随意）

【创建字段3-附件】

字段名称：fujian

采集内容选择“网页代码/图片等资料”-“数据流文件”

表单配置字段自定义即可，如有多需求可按上述同样操作即可。最终呈现如下图：

5. 关联数据表

表单配置完毕后，需要进行数据关联，操作如下：

选择所需的表单，点击【创建】按钮

创建表名称可随意填写，需注意仅可使用“全英文”

6. 确认选区

操作如下图所示：

Step1：按照图1位置，在左侧点击“tittle”

Step2：按照图2位置ctrl+左键选中文章标题

Step3：最后点击“确认选区”即可

Step1：按照图1位置，在左侧点击“tittle”

Step2：按照图2位置ctrl+左键选中文章标题

Step3：最后点击“确认选区”即可

Step1：按照图1位置，在左侧点击“fujian”

Step2：在页面最低端会出现“附件下载”的位置即图2所示，ctrl+左键选中附件内容。

点击保存，完成数据选区

7. 数据建表模板预览

在“新建模板：02”处右键选择“模板预览”，即可查看是否采集出所需数据，如下图：

Fujian字段数据出现“STREAM DATA”属于正常现象，请继续跟着教程完成最终采集。

三. 采集数据

1. 运行设置

运行设置处可以设置采集速度、采集策略、任务装载等。

2. 选择采集任务

操作如下图数字所示：

Step1：选择【数据采集】

Step2：在【任务列表】中勾选需要采集的任务，可勾选多个任务，同时采集。

Step3：点击“连接数据库”选择“打开”，此步骤不可避免，因为采集需要和数据库进行关联。

3. 开始采集

点击【开始采集】，系统开始进行采集。剩余任务数为0时，系统自动停止采集。用户也可以自己暂停任务或停止任务（停止任务会释放任务，再次启动时重新装载任务）。

4.数据浏览

采集一段时间以后，点击【数据浏览】，在数据列表中选中对应的数据表，即可浏览采集到的数据，点击【刷新】按钮可以同步显示数据。

【数据浏览】

5.导出数据

点击【导出】按钮，选择导出文件格式后保存。

导出数据时需选择正确的“存储路径”

导出方式选择 “导出字段”

欲导出字段选择下滑列表中的 “fujian”，最终点击确认即可完成。

导出时，文件名后缀务必改为“docm”格式，保存类型选择“All Files”

打开下载后的文件，一份完整的附件就这样轻松采集到了，你学会了吗？

更多大数据咨询可关注公众号【前嗅大数据】（ID：forenose）

定期分享各行各业大数据情报、竞品分析、AI舆情监控报告、SEO知识分享等干货。

我们不止做数据采集，燃爆AI 大数据

你想要的我们都有！

0
顶

1
踩

分享到：

前嗅forespider教程：关键词采集【检索结果 ... | ForeSpider采集教程：如何采集图片及链接地 ...

2019-12-11 14:59
浏览 566
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

ForeSpider采集教程：如何采集网页中附件数据

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

ForeSpider采集教程：如何采集网页中附件数据

评论

发表评论

相关推荐

从零学爬虫：采集房天下二手房信息

建网站/APP最全准备攻略

前嗅教你大数据：常见几种编码介绍

前嗅教你大数据：常见的网站反爬策略与解决方案

如何在ForeSpider数据采集器中设置代理IP

前嗅教你大数据——史上最全代理IP服务商对比

钱嗅教你大数据——什么是代理IP？

看完之后，不要再说不懂代理IP了！

了解爬虫，这一篇就够了！

前嗅ForeSpider数据采集教程：采集【中国证券网】的正文数据

前嗅ForeSpider采集教程：通过关键词的【检索列表】采集【检索结果】

前嗅大数据—ForeSpider教你如何采集【列表数据】

前嗅forespider教程：关键词采集【检索结果】

ForeSpider采集教程：如何采集图片及链接地址

ForeSpider采集教程发布（表格类）：零基础轻松获取数据

爬虫软件真的可以获取隐私数据？真相只有一个

【技术干货】老程序员亲绘漫画：1分钟读懂Session会话机制

小心手里的“饼干” 它会泄露你的隐私

最近访客更多访客>>