前嗅ForeSpider教程：如何创建新任务 -

qianxiu

浏览: 47068 次

最近访客更多访客>>

wangyy

leimingchao

masuweng

abc123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

前嗅ForeSpider教程：如何创建新任务

博客分类：

教程

前嗅数据采集 ForeSpider数据采集采集教程大数据

从今天起，小编开始教大家逐步进行可视化配置操作。首先，我们来学习第一步：创建新任务，主要包括创建新任务的操作步骤，操作中的注意事项两部分内容。

一，创建新任务操作步骤：

1.添加新任务

点击任务列表右侧，新建任务文件。

【添加任务】

此时会出现一个弹框，可以在弹框中填写采集地址，修改任务名称，以及选择是否需要登录/关键词采集。

【新建任务】

2.填写采集地址

在弹窗里填写采集地址和任务名称。

【填写采集地址】

采集地址一般选择目标网站的入口地址，比如首页。

大多数情况下，采集地址只填写一个url地址。如果链接的页面结构和层级结构是一致的，能够套用同一套采集模板进行采集，可填写多个采集地址，中间用回车换行分隔。如果不一致，需要创建新的采集任务。

例1：采集整个淘宝网全部商品的信息，淘宝网首页就是入口地址。

例2：只采集“女装”类别的商品信息，“女装”首页就是入口地址。

例3：只采集某商品的评论信息，该商品的链接地址就是入口地址。

3.选择当前页面所需内容

创建新的任务之后，点击“下一步”，选择页面需要抽取内容。

①抽取链接：需要抽取页面上的链接时，选择抽取链接以及具体的链接类型，会建立对应的链接抽取。（方式一：智能过滤/方式二：定位过滤/方式三：地址/标题过滤）

②抽取数据：需要抽取页面上的数据时，选择抽取数据，会建立对应的数据抽取。（>>如何选择表单）

例如：

需要采集新闻的正文数据，当前页面是新闻首页，汇集了新闻的链接，正文数据是通过点击新闻链接进入的，所以本页面需要抽取新闻链接。

软件预置了一些常见的链接页面场景，此时勾选链接列表，软件会自动建立一个链接抽取。

【选择页面抽取内容】

点击“完成”，软件自动创建对应的抽取内容的模板。

二，创建新任务注意事项

1.如何选择采集类型

采集类型分为默认（html）和本地文件目录两种。

（1）默认（html）：采集网站上的各种信息

（2）本地文件目录：采集本地文件目录信息。

【设置采集类型】

2.什么情况下选择浏览器采集

在页面均由JS生成时，采集效果不理想的情况下，可以尝试使用“浏览器采集”，该方式近乎于在浏览器上点击，会减慢采集速度，但是对JS语法的支持更加全面。

浏览器采集：通过浏览器的方式采集数据。

适用情况：由大量JS生成的，采集难度大的网页。对JS语法的支持更加全面，近乎于在浏览器上点击，但采集速度慢、效率低。

【设置浏览器采集】

3.Cookie的使用方法

① 配置Cookie

（1）填写Cookie：

正常情况下（除JS生成的Cookie外），软件会自动获取Cookie。

当软件无法获取到网页的Cookie时，需要参考下文从浏览器寻找Cookie。

（2）禁用Cookie的情况：

对于不需要Cookie的网站，选择“禁用Cookie”，可加快采集速度。

【Cookie配置】

② 如何通过浏览器寻找cookie

在获取不到登录状态的时候，可以通过浏览器的F12开发者工具进行手动的获取Cookie。首先先用浏览器打开网页，点击F12打开开发者工具，如图所示。

接下来点击network网络任务列表。

在浏览器上输入用户名密码，点击登录

可以在network里面看到出现很多条任务，从中就可以找到关于登录的cookie。

③ 多账号登录的Cookie处理

当需要登录多个账号来抓取同一个网页时，可以在采集列表中设置多个采集任务，采集地址填写一个地址，填写不同的Cookie信息即可。

4.什么情况下禁用JavaScript

对于有些把JavaScript只用于美观效果的网页，关闭JavaScript不影响采集数据时，可以加快采集速度。

【JavaScript配置】

分享到：

前嗅ForeSpider教程：网站登录配置 | 前嗅ForeSpider中数据浏览界面介绍

2019-02-18 16:16
浏览 303
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

前嗅ForeSpider教程：如何创建新任务

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

前嗅ForeSpider教程：如何创建新任务

评论

发表评论

相关推荐

从零学爬虫：采集房天下二手房信息

前嗅教你大数据：常见几种编码介绍

前嗅教你大数据：常见的网站反爬策略与解决方案

如何在ForeSpider数据采集器中设置代理IP

前嗅ForeSpider采集教程：通过关键词的【检索列表】采集【检索结果】

前嗅大数据—ForeSpider教你如何采集【列表数据】

前嗅forespider教程：关键词采集【检索结果】

ForeSpider采集教程发布（论坛类）：零基础轻松获取数据

ForeSpider采集教程发布（表格类）：零基础轻松获取数据

爬虫软件真的可以获取隐私数据？真相只有一个

大数据告诉你，五一出行，性价比最高的酒店是它

前嗅教程：如何获取精准客源，提高销量

字段在源码的html标签里

前嗅ForeSpider脚本教程-数据抽取脚本实战教程

前嗅ForeSpider脚本教程-链接过滤脚本

前嗅ForeSpider脚本教程-链接抽取：自定义链接写脚本

前嗅ForeSpider脚本教程-链接抽取：链接在POST请求里写脚本

前嗅ForeSpider脚本教程-链接抽取：链接在源码的js变量里写脚本

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

前嗅ForeSpider脚本教程-频道脚本：脚本采集数据

最近访客更多访客>>