`

前嗅ForeSpider中数据采集界面介绍

阅读更多

今天,小编为介绍一下,前嗅ForeSpider中数据采集界面里:运行设置,IP代理设置,验证码设置,这三大设置的界面,具体内容如下:

 

 

 

一,运行设置

 

 

 

数据采集前的运行设置,包括采集速度、采集策略、任务装载、网络超时、HTTP设置、加载设置、任务模式、任务定时、预警设置、过滤设置10个部分。

 

 

【运行设置界面】

 

二,IP代理设置

软件支持动态和静态IP代理,http/https/socket代理。当需要启用IP代理时,需要在资源管理界面添加代理资源。

【IP代理设置界面】

 

1.启用IP代理

 

启用IP代理采集时,需要进行代理配置。需选中“启用IP代理”,才能启用IP代理功能。

【启用IP代理】

 

2.IP资源列表

 

添加完成的IP资源后会在列表中显示。

【IP资源列表】

3.IP代理配置

 

可添加IP代理账号,配置IP代理属性。

 

(1)静态代理IP

【静态代理IP配置】

 

(2)动态代理IP

 

 

【动态代理IP配置】

 

①协议类型:选择代理的协议类型,软件支持http/https/socket代理。

 

②返回格式:选择动态IP的返回格式。包括未知、Text、Json、XML。

 

③刷新周期:指代理IP的有效时长。

 

④请求地址:粘贴代理商的请求地址。

 

⑤POST DATA:根据代理不同,post请求的情况下填写该内容。

 

⑥代码编辑区:需要填写一段脚本,以调用代理IP。

 

 

 

4.启用代理加速

 

启用代理加速后,可以在采集过程中自动筛选无效和低效率的代理IP(屏蔽错误率超过50%,请求次数>3次的IP),优先使用高效的代理,提升采集的效率和数据质量。

 

 

【代理加速】

 

5.本机IP混用策略

 

当代理IP失效时,选择是否启用本地网络。

【本机IP混用策略】

 

 

三,验证码设置

当采集某些网站的数据时,每一条数据都需要输入一条验证码时就用到了验证码设置。验证码设置的作用是爬虫软件自身输入验证码,以避免人工输入。

【验证码设置界面】

 

1.识别平台

 

软件内置了两个打码平台,可根据不同的平台进行验证码配置。

【识别平台】

 

(1)基础识别平台:预定的内置识别方式。

 

(2)若快:若快为打码平台。软件通过打码平台解析验证码内容。

 

2.识别列表

 

添加验证码识别名称。

 

 

【识别列表】

 

 

 

3.验证码设置与测试(不常用)

 

 

【资源配置】

 

其中红框内详情、保存、下载、清空、测试是用来测试验证码是否正确的。点击测试如果右侧验证码图片与图片下解析出来的文字一致,就证明验证码设置的正确。

 

分享到:
评论

相关推荐

    forespider数据采集软件

    总的来说,前嗅forespider数据采集软件是面向广大非程序员群体的一款实用工具,它降低了数据采集的技术门槛,使得更多人能够参与到大数据的挖掘与分析中来。通过熟练运用这款软件,用户可以高效地获取网络上的信息...

    使用ForeSpider爬虫软件批量采集企业信息公示系统.zip

    ForeSpider爬虫工具软件使用教程 使用ForeSpider爬虫软件批量采集企业信息公示系统.zip

    weibo_spider_spider_爬取微博_爬取微博评论_微博_weibospider_

    在IT行业中,网络爬虫(Spider)是一种自动化程序,用于从互联网上抓取大量数据,以便分析、存储或再利用。在这个特殊的项目中,“weibo_spider_spider”指的是一个针对微博平台定制的爬虫程序,它能有效地爬取微博...

    forespider

    网上的便捷爬虫软件,可直接在许多网站上进行数据爬取

    网络爬虫之Spider

    项目中的`mySpider$SymAction`、`mySpider$SymWindow`等类可能涉及异常捕获和处理,以及用户界面的反馈。 综上所述,“网络爬虫之Spider”项目是一个使用Java语言实现的网络爬虫软件,通过多线程技术提高了爬取效率...

Global site tag (gtag.js) - Google Analytics