前嗅ForeSpider采集配置界面介绍 -

qianxiu

浏览: 47087 次

最近访客更多访客>>

wangyy

leimingchao

masuweng

abc123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

前嗅ForeSpider采集配置界面介绍

博客分类：

教程

今天，小编为大家介绍一下，前嗅ForeSpider的采集配置界面，具体内容如下：

启动ForeSpider采集软件后，默认界面如图所示。ROOT任务下有已经配置好的示例模板，点击网站图标即可进行采集预览。可在任务列表选择某一任务按照需求重新配置。

【采集配置界面】

1.任务列表

【任务列表】

任务对应着采集来源，通常一个采集来源对应着一个任务。如采集人民网时，人民网就是一个任务；通过百度采集全网信息时，百度就是一个任务；通过100个网址导航采集全球域名时，这100个网址导航就是一个任务。

2.任务属性配置

用户可根据采集需求与网站的设置选择性的配置任务属性。

任务属性配置包括登录网站、关键词采集、浏览器采集、采集类型、禁用Cookie及Cookie设置6个部分。

【任务属性配置】

（1）登录网站

如果采集源的数据需要登录才可以采集到，则需要配置登录信息。开启登录后，右侧会出现操作向导。

（2）关键词采集

当采集对象是搜索栏时，需要进行关键词配置。开启关键词采集后，右侧会出现操作向导。

当网站登录与采集登录同时开启时，可在任务属性配置栏右侧切换操作向导。

【登录与关键词采集】

（3）浏览器采集

通过浏览器插件的方式采集数据。适用于大量JS生成且采集难度大的网页。对JS支持好，近乎于在浏览器上点击，但采集效率低。

（4）采集类型

采集类型分为默认（html）和本地文件目录两种。

（5）禁用Cookie

禁止使用Cookie解析网页。

（6）Cookie

当网站需要Cookie验证才能采集时，需要配置Cookie信息。

3.模板抽取配置

【模板抽取配置】

（1）模板

模板通过一个示例地址，模板化同一层级的页面，从而达到批量采集的效果。一个模板对应一个层级的页面，因此同一层页面只能配置一个模板，填写一个示例地址，但是一个模板中可以创建多个链接、数据抽取，每个链接抽取都要关联其他模板。

通过模板之间的关联，模拟网站各页面的跳转关系。通过链接抽取，抽出网页中的链接。通过数据抽取，抓取网页中的数据。

（2）模板属性配置

【模板属性配置】

①抽取类型选择

抽取类型包括链接抽取和数据抽取。

【抽取类型选择】

②示例地址

示例地址作为样例，成为模板，通过以该地址配置模板，可以抓取与该地址在同一层级、具有相似结构的页面数据。

任务第一个模板的示例地址默认为创建任务时填写的采集地址。

【示例地址】

③高级选项

高级选项包括字符编码、文档类型、网页类型、主题过滤、未匹配处理模板5个部分。（不常用功能）

【高级选项】

（3）链接（网址）配置

【链接（网址）配置】

①关联模板

关联模板是指该“链接抽取”抽取出的链接，其下一层级页面对应的模板，也就是在浏览器中，点击链接打开的下一层页面。通过模板之间的关联，可以将网站各层级页面关联起来，在软件中形成与浏览器相同的跳转结构，从而完整的采集数据。

②链接类型

链接类型可分为普通网页链接、图片视频等资源链接和自定义类型三种。默认选择普通网页链接。

③智能过滤

智能过滤可以一键过滤出，链接地址规律相同的链接。适用于大多数情况，如过滤的不正确，可以使用地址/标题过滤。

④定位过滤

定位过滤是通过内置浏览器定位，适用于所需链接都集中在一小片区域的情况。

⑤地址/标题过滤

为了在抽取的链接中去除无关链接，有两种过滤方式，配置方式相同。地址过滤是通过url地址的规律，过滤无关链接。标题过滤是通过链接标题的规律，过滤无关链接。

（4）数据属性配置

【数据属性配置】

①数据表单

在ForeSpider爬虫中，表单是可以复用的，所以可以在数据表单出直接选择之前建过的表单，也可以通过表单ID来进行查找并关联数据表单。

②点击创建表达

若在数据抽取链接下，没有相应表单可供选择，可点击“创建表单”按钮，快速创建表单。可添加表单名称、字段名称，选择字段类型、表单模板。（>>快速建表/>>自由建表）

③数据存储方式

指的是数据采集时，在数据库里的存储方式。

④列表数据

识别列表用于存储表格/列表的数据，将表格/列表的不同列对应存入不同字段，表格/列表的不同行分别存储为数据表的多条记录。（>>如何采集列表/表格数据）

4.采集地址

采集对象的入口地址（url地址）。比如采集整个淘宝网全部商品的信息，淘宝网首页就是入口地址。比如只采集“女装”类别的商品信息，“女装”首页就是入口地址。

【采集地址】

5.内置浏览器

模拟不同版本的浏览器。填入采集地址，可点击内置浏览器显示采集页面。

【内置浏览器】

查看图片附件

分享到：

前嗅ForeSpider数据建表和高级配置界面介绍 | 前嗅ForeSpider教程：采集58同城数据

2019-01-28 13:21
浏览 228
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

前嗅ForeSpider采集配置界面介绍

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

前嗅ForeSpider采集配置界面介绍

评论

发表评论

相关推荐

从零学爬虫：采集房天下二手房信息

前嗅教你大数据：常见几种编码介绍

前嗅教你大数据：常见的网站反爬策略与解决方案

如何在ForeSpider数据采集器中设置代理IP

前嗅ForeSpider采集教程：通过关键词的【检索列表】采集【检索结果】

前嗅大数据—ForeSpider教你如何采集【列表数据】

前嗅forespider教程：关键词采集【检索结果】

ForeSpider采集教程发布（论坛类）：零基础轻松获取数据

ForeSpider采集教程发布（表格类）：零基础轻松获取数据

爬虫软件真的可以获取隐私数据？真相只有一个

大数据告诉你，五一出行，性价比最高的酒店是它

前嗅教程：如何获取精准客源，提高销量

字段在源码的html标签里

前嗅ForeSpider脚本教程-数据抽取脚本实战教程

前嗅ForeSpider脚本教程-链接过滤脚本

前嗅ForeSpider脚本教程-链接抽取：自定义链接写脚本

前嗅ForeSpider脚本教程-链接抽取：链接在POST请求里写脚本

前嗅ForeSpider脚本教程-链接抽取：链接在源码的js变量里写脚本

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

前嗅ForeSpider脚本教程-频道脚本：脚本采集数据

最近访客更多访客>>