前嗅ForeSpider数据采集教程：采集东方财富网链接列表 -

qianxiu

浏览: 47770 次

最近访客更多访客>>

wangyy

leimingchao

masuweng

abc123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

前嗅ForeSpider数据采集教程：采集东方财富网链接列表

案例：采集【东方财富网】首页新闻列表中的新闻

一. 网站内容

1. 网站截图说明

本教程以采集“东方财富网”首页新闻列表中的新闻（正文数据）为例，如下图。

东方财富官网

2. 采集结果截图

链接列表采集预览

二. 操作方法

1. 新建任务

按图片数字所示，1-2-3完成新建任务的步骤

新建任务

Step1：点击“采集配置”

Step2：点击【任务列表】中的“+”，新建采集任务

Step3：在如图的红框中输入采集地址和任务名称（可自定义），完成后点击“下一步”。

需要采集正文数据，所以此处需要勾选【链接列表】，如图，最后点击“完成”即可。

新建采集任务

2. 链接抽取配置

Step1：内置浏览器显示搜索页面后，按照提示：ctrl+左键单击文章标题。

Step2：点击【智能过滤】按钮，这时右侧的地址过滤会显示出相应的代码。

Step3：最后点击右上角的【采集预览】查看是有内容，如下图：

3. 数据抽取

在【新建任务】中输入的网址只是我们想采集的预览页面，具体采集的正文内容（数据）需要进入详情页面。

按照图示数据操作：

Step1：双击左侧红框位置，可自定义名称。

Step2：勾选【抽取数据】将对应的层级链接复制粘贴到【示例地址】中，最后点击“下一步”即可完成。

4. 配置表单

如图示点击【数据建表】：

Step1：点击“采集配置”

Step2：选择“数据建表”

Step2：点击“+”，新建表单并自定义名称，这里取“东方财富”

根据所需内容，配置表单字段，此处配置了包括主键、标题、作者、发布时间、文章内容等等。表单建立如下：

创建主键

主键务必第一个创建，其含义为该表单所属ID

字段名称：hkey

采集内容选择“主键”

数据类型选择“长数字”

字段属性选择 “索引字段”、“健值唯一”、“主键字段”、“全文索引”

最后点击“确定”即可。

创建字段1-标题

字段名称：tittle

采集内容选择“选区内可见文本”

数据类型选择“字符串”

数据长度选择范围10-20即可，最后点击确定。（备注可随意）

创建字段2-作者

字段名称：author

采集内容选择“选区内可见文本”

数据类型选择“字符串”

数据长度选择范围10-20即可，最后点击确定。（备注可随意）

创建字段3-发布时间

字段名称：get_time（注意：一定是下划线）

采集内容选择“选区内可见文本”

数据类型选择“字符串”

数据长度选择范围10-20即可，最后点击确定。（备注可随意）

创建字段4-正文

字段名称：content

采集内容选择“选区内可见文本”

数据类型选择“字符串”

注意，由于正文内容很多无法用字符串来估量，故这里选择“高级类型”-“长文本<64k”

表单配置字段自定义即可，如有多需求可按上述同样操作即可。最终呈现如下图：

5. 关联数据表

表单配置完毕后，需要进行数据关联，操作如下：

选择所需的表单，点击【创建】按钮。

创建表名称可随意填写，需注意仅可使用“全英文”，最后点击确定即可完成。

6. 模板预览

通过预览，可以了解配置是否能够正确地采集到所需正文数据。鼠标右键后选择【链接列表】，可以单独预览某个链接的数据。

链接预览

预览结果

7. 确认选区

操作如下图所示：

Step1：在左侧“东方财富”下属字段中点击“tittle”

Step2：找到标题（图中数字2所示）并ctrl+左键点击选中该选区

Step3：最后点击“确认选区”即可

Step1：在左侧“东方财富”下属字段中点击“author”

Step2：找到文章作者（图中数字2所示）并ctrl+左键点击选中该选区

Step3：最后点击“确认选区”即可

Step1：在左侧“东方财富”下属字段中点击“get_time”

Step2：找到文章作者（图中数字2所示）并ctrl+左键点击选中该选区

Step3：最后点击“确认选区”即可

Step1：在左侧“东方财富”下属字段中点击“content”

Step2：找到文章作者（图中数字2所示）并shift+左键点击选中该选区

Step3：最后点击“确认选区”即可

注意：主键无需确认选区，操作过程中要随时点击“保存”，养成良好习惯。

三. 采集数据

1. 运行设置

运行设置处可以设置采集速度、采集策略、任务装载等。

2. 选择采集任务

操作如下图数字所示：

Step1：选择【数据采集】

Step2：在【任务列表】中勾选需要采集的任务，可勾选多个任务，同时采集。

Step3：点击“连接数据库”选择“打开”，此步骤不可避免，因为采集需要和数据库进行关联。

注意：采集开始前，务必保证“装载记录”是空的。可点击图示进行删除：

3. 开始采集

点击【开始采集】，系统开始进行采集。剩余任务数为0时，系统自动停止采集。用户也可以自己暂停任务或停止任务（停止任务会释放任务，再次启动时重新装载任务）。

4.数据浏览

采集一段时间以后，点击【数据浏览】，在数据列表中选中对应的数据表，即可浏览采集到的数据，点击【刷新】按钮可以同步显示数据。

5.导出数据

点击【导出】按钮，选择导出文件格式后保存。

导出数据

分享到：

前嗅ForeSpider采集教程：通过关键词的【检 ... | 前嗅ForeSpider采集教程：采集安居客列表数 ...

2020-01-11 13:11
浏览 323
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

前嗅ForeSpider数据采集教程：采集东方财富网链接列表

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

前嗅ForeSpider数据采集教程：采集东方财富网链接列表

评论

发表评论

相关推荐

最近访客更多访客>>