`

前嗅ForeSpider教程:如何创建新任务

阅读更多

从今天起,小编开始教大家逐步进行可视化配置操作。首先,我们来学习第一步:创建新任务,主要包括创建新任务的操作步骤,操作中的注意事项两部分内容。

 

 

 

一,创建新任务操作步骤:

 

 

 

1.添加新任务

点击任务列表右侧,新建任务文件。

 

 

【添加任务】

 

此时会出现一个弹框,可以在弹框中填写采集地址,修改任务名称,以及选择是否需要登录/关键词采集。

 

 

【新建任务】

 

 

 

2.填写采集地址

在弹窗里填写采集地址和任务名称。

【填写采集地址】

 

采集地址一般选择目标网站的入口地址,比如首页。

 

大多数情况下,采集地址只填写一个url地址。如果链接的页面结构和层级结构是一致的,能够套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。如果不一致,需要创建新的采集任务。

 

 

 

例1:采集整个淘宝网全部商品的信息,淘宝网首页就是入口地址。

 

 

 

例2:只采集“女装”类别的商品信息,“女装”首页就是入口地址。

 

 

 

例3:只采集某商品的评论信息,该商品的链接地址就是入口地址。

 

 

 

3.选择当前页面所需内容

 

 

 

创建新的任务之后,点击“下一步”,选择页面需要抽取内容。

 

①抽取链接:需要抽取页面上的链接时,选择抽取链接以及具体的链接类型,会建立对应的链接抽取。(方式一:智能过滤/方式二:定位过滤/方式三:地址/标题过滤)

 

②抽取数据:需要抽取页面上的数据时,选择抽取数据,会建立对应的数据抽取。(>>如何选择表单)

 

例如:

 

需要采集新闻的正文数据,当前页面是新闻首页,汇集了新闻的链接,正文数据是通过点击新闻链接进入的,所以本页面需要抽取新闻链接。

 

软件预置了一些常见的链接页面场景,此时勾选链接列表,软件会自动建立一个链接抽取。

【选择页面抽取内容】

 

点击“完成”,软件自动创建对应的抽取内容的模板。

 

 

 

二,创建新任务注意事项

 

 

 

1.如何选择采集类型

 

 

 

采集类型分为默认(html)和本地文件目录两种。

 

(1)默认(html):采集网站上的各种信息

 

(2)本地文件目录:采集本地文件目录信息。

 

 

【设置采集类型】

 

 

 

2.什么情况下选择浏览器采集

 

 

 

在页面均由JS生成时,采集效果不理想的情况下,可以尝试使用“浏览器采集”,该方式近乎于在浏览器上点击,会减慢采集速度,但是对JS语法的支持更加全面。

 

浏览器采集:通过浏览器的方式采集数据。

 

适用情况:由大量JS生成的,采集难度大的网页。对JS语法的支持更加全面,近乎于在浏览器上点击,但采集速度慢、效率低。

 

【设置浏览器采集】

 

3.Cookie的使用方法

 

① 配置Cookie

 

(1)填写Cookie:

 

正常情况下(除JS生成的Cookie外),软件会自动获取Cookie。

 

当软件无法获取到网页的Cookie时,需要参考下文从浏览器寻找Cookie。

 

(2)禁用Cookie的情况:

 

对于不需要Cookie的网站,选择“禁用Cookie”,可加快采集速度。

 

 

【Cookie配置】

 

② 如何通过浏览器寻找cookie

 

在获取不到登录状态的时候,可以通过浏览器的F12开发者工具进行手动的获取Cookie。首先先用浏览器打开网页,点击F12打开开发者工具,如图所示。

 

 

接下来点击network网络任务列表。

 

 

在浏览器上输入用户名密码,点击登录

 

 

可以在network里面看到出现很多条任务,从中就可以找到关于登录的cookie。

 

③ 多账号登录的Cookie处理

 

当需要登录多个账号来抓取同一个网页时,可以在采集列表中设置多个采集任务,采集地址填写一个地址,填写不同的Cookie信息即可。 

 

4.什么情况下禁用JavaScript

对于有些把JavaScript只用于美观效果的网页,关闭JavaScript不影响采集数据时,可以加快采集速度。

 

【JavaScript配置】

 

分享到:
评论

相关推荐

    forespider数据采集软件

    **前嗅forespider数据采集软件详解** 在信息化时代,数据的价值不言而喻,而高效的数据采集成为企业和个人获取信息的关键。前嗅forespider数据采集软件正是为解决这一需求而生,它是一款专为非专业编程人员设计的...

    weibo_spider_spider_爬取微博_爬取微博评论_微博_weibospider_

    在IT行业中,网络爬虫(Spider)是一种自动化程序,用于从互联网上抓取大量数据,以便分析、存储或再利用。在这个特殊的项目中,“weibo_spider_spider”指的是一个针对微博平台定制的爬虫程序,它能有效地爬取微博...

    forespider

    网上的便捷爬虫软件,可直接在许多网站上进行数据爬取

    使用ForeSpider爬虫软件批量采集企业信息公示系统.zip

    ForeSpider爬虫工具软件使用教程 使用ForeSpider爬虫软件批量采集企业信息公示系统.zip

    网络爬虫之Spider

    **网络爬虫之Spider** 网络爬虫是一种自动化程序,它能按照一定的规则遍历互联网上的网页,抓取所需的信息,并存储在本地或者数据库中。在Java编程语言中,开发网络爬虫可以借助各种库和工具,如Jsoup、Apache ...

Global site tag (gtag.js) - Google Analytics